0
会員になると、いいね!でマイページに保存できます。
共有する
ChatGPTが公開されて以降、世界を席巻している生成AI。世界のテック企業が生成AI関連のサービス開発に力を入れる中、アップルも生成AIへの取り組みに注力している。iPhoneをはじめとする強力なプロダクトを抱えている強みを持つ同社は、その強みを生かした「2本柱」の戦略で生成AI分野における成功を狙う。一体その戦略とはどのようなものか。最新動向と併せて解説する。
アップルのAI戦略の「カギ」とは
アップルの生成AI戦略のカギとなるのが、メモリ制約のあるデバイスでも大規模言語モデル(LLM)を高速に動作させることができる独自技術の開発だ。
同社は2023年12月に「
LLM in a flash 」と題した論文を公開。この論文は、iPhoneやMacBookなどメモリが限られたデバイス上でLLMを動作させるためのアプローチを示した内容だ。具体的には、モデルの一部をDRAMに、残りをフラッシュメモリに格納することで最適化を図る手法について言及されている。フラッシュメモリとDRAM間でモデルの重みを動的にスワップすることで、メモリ消費を大幅に削減しつつ、推論レイテンシー(遅延)を最小限に抑えることができる。特にアップルシリコンで動作させた場合に高いパフォーマンスを発揮するという。
ちなみにアップルは、この論文に先立ち「パフォーマンスをほとんど犠牲にすること無く、推論の計算量を最大3倍削減できる」というLLMのアーキテクチャーに関する
論文 も2023年10月に公開している。
消費者向けデバイス上で、小規模LLMを活用するアプリ開発の動きが活発化する中で、このようなLLMの最適化技術は、ますます重要性を増している。数十ミリ秒のレイテンシーの違いがユーザー体験に大きな影響を与えるとの実験結果もある。アップルはデバイスの能力を最大限引き出し、生成AIの高速性と品質のバランスを取ることに注力していることが伺える。
オープンソース戦略の「ある狙い」
アップルは2023年後半から、独自開発したいくつかの生成AIモデルをオープンソース化してきた。
たとえば、昨年10月にひっそりとリリースされたのが「
Ferret 」だ。70億と130億の2つのバージョンが用意されたマルチモーダルのLLMで、オープンソースのLLMであるVicunaとビジョン・ランゲージモデル(VLM)のLLaVAをベースに
構築 されている。
通常のマルチモーダルモデルは入力画像を全体として解析するのに対し、Ferretは画像の特定の領域に基づいて応答を生成する特別なメカニズムを備えているのが特徴で、細部やオブジェクトを扱うことに長けているという。将来的には、iPhone上でカメラを通して見たオブジェクトとのインタラクションを可能にするモデルのベースになる可能性を秘めている。
さらに、今年2月に同社からリリースされたのが、自然言語の指示に基づいて画像を編集することができるモデル「
MLLM-Guided Image Editing (MGIE)」だ。MGIEの機能は、明るさやコントラストなどの画像全体の編集から、「空をより青くする」といった特定領域の編集、オブジェクトに対する操作など幅広い。次世代のiOSデバイスに搭載される可能性があるとして、その開発動向に注目が集まっている。
アップルと言えば、これまでオープンソースにはあまり積極的でなかったが、機械学習開発者向けのライブラリ「
MLX 」を2023年12月に公開するなど、メタと同じオープンソース戦略に打って出る構えも見せている。MLXでは、NumPyやPyTorchに似たインターフェースを採用、機械学習エンジニアにとって使いやすいものとなっており、M2、M3などのアップルプロセッサに最適化されているのが特徴だ。
冒頭で紹介したFerretのライセンスは研究目的での利用に
限定 されているなど、完全なオープンソースとは言い難い部分はあるものの、モデルを一般公開することで、将来的なアップル製品への関心を高め、開発者コミュニティーを巻き込む狙いがあると見られている。
【次ページ】ティム・クックCEOが語った「現状」
関連タグ