マイクロソフト「Phi-4」が示す小型モデルの衝撃、オープンソースモデル競争も激しさ

ありがとうございます！
いいね！した記事一覧をみる

会員になると、いいね！でマイページに保存できます。

AI・生成AI

|

タグをもっとみる

中国DeepSeekが大きな話題を集めていた陰で、マイクロソフトが発表した小型言語モデル「Phi-4」が、前モデル「Phi-3.5」以上の衝撃の結果をもたらしている。140億パラメータという比較的小規模なモデルでありながら、数倍～数十倍も大きな大規模モデルを凌駕する性能を示したためだ。同モデルはオープンソースで公開されているのも特徴で、Mac miniなど一般的なマシンでも快適に動作する機敏性も備えている。Phi-4の実力を探ってみたい。

執筆：細谷元　構成：ビジネス＋IT編集部

マイクロソフト「Phi-4」の強みとは？

（出典：Hugging Face）

マイクロソフト「Phi-4」とは？高性能の秘密

　2024年12月、マイクロソフトが新しい言語モデル「Phi-4」を発表した。140億パラメータという比較的小規模なモデルながら、OpenAIのGPT-4o miniや、700億パラメータのLlama 3.3など、はるかに大きなモデルに匹敵、あるいは凌駕する性能を示し、AIコミュニティに衝撃を与えた。

小規模なモデルで数十倍大きな大規模モデルを凌駕

（Photo：Rokas Tenys / Shutterstock.com）

　トレーニング手法を刷新したことがこのブレイクスルーにつながったようだ。

　従来の言語モデルがWebコンテンツやコードなどのオーガニックデータを主体にプレトレーニングを行うのに対し、Phi-4は合成データを戦略的に活用。前モデルのPhi-3シリーズでは、フェーズ1でフィルタリングされたWebデータを中心に学習し、フェーズ2で合成データと高品質なWebデータを組み合わせるという2段階の戦略を採用していた。

　しかし、合成データの規模と複雑さが増すにつれ、非合成データの効果が限定的であることが判明。実際、ベンチマークテストでは、合成データでの追加トレーニングの方が、新しいWebデータの追加よりも効果的という結果が得られている。

　この知見を活かし、Phi-4では合成データの割合を大幅に増加。トレーニングデータの40％を合成データが占める。このほか、Webリライトと呼ばれる合成データが15％、フィルタリングされたWebデータが15％、コードデータが20％、その他の取得データが10％という構成となっている。

Phi-4の学習データ構成

（出典：Phi-4テクニカルレポート）

　このデータ構成の刷新により、Phi-4は前モデルから大幅な性能向上を実現。たとえば、学部レベルの知識を測るMMLUでは84.8％を記録し、Phi-3（77.9％）を約7ポイント上回った。さらに、大学院レベルの推論能力を測るGPQAでは56.1％を達成し、Phi-3（31.2％）から実に25ポイント近い改善を見せている。

　特筆すべきは、これらの性能向上がモデルサイズを大きくすることなく実現されている点だ。同じ140億パラメータのQwen 2.5-14B instructと比較しても、MMULで約5ポイント、GPQAで約13ポイントの優位性を示している。

編集部おすすめ記事

3,300億円の本気「東京ディズニークルーズ」、“失敗し続けた街”が拠点に選ばれた訳

Phi-4の強み1：難関テストで30倍近い大きなモデルを凌駕

　Phi-4の強みが特に際立つのが、大学院レベルの科学的推論能力を測るGPQAテストでの結果だ。生物学、物理学、化学の分野で448問の質問を用意し、そのうち198問からなるセットで評価を行うこのテストで、Phi-4は56.1％という高スコアを記録。これはClaude 3 Opus（50.4％）やGPT-4o（53.6％）をも上回る数値となっている。

　GPQAテストの特徴は、単なる知識の暗記や表面的なWeb検索では対応できない「Google-proof」な設計にある。生物学、物理学、化学の各分野における専門性の高い問題が出題され、単に情報を組み合わせるだけでは正解にたどり着けない。

　実際、専門分野で博士号を持つ、あるいは博士課程に在籍する専門家でさえ、平均65％程度の正答率にとどまる。また、Web検索が許可された非専門家のバリデーターは、1問あたり30分以上の時間をかけても、正答率は34％に留まったと報告されている。

　そのような高難度のテストで、Phi-4が56.1％という数値を叩き出した意義は大きい。同じく140億パラメータのQwen 2.5-14B instructが42.9％、700億パラメータのLlama 3.3が49.1％という結果を示していることを考えると、Phi-4の効率性が際立つ。

　また、30倍ほど大きなメタのLlama3.1 405B（4050億パラメータ）のGPQAスコア（51.1％）と比べても、Phi-4の高効率性をうかがうことができる。

同規模・大規模競合モデルとのベンチマーク比較

（出典：Phi-4テクニカルレポート）

　GPQAテストの問題を解くには、深い科学的理解と高度な推論能力が要求される。たとえば、物理学の問題では単に公式を知っているだけでなく、その公式がどのような条件下で適用可能か、またその結果がどのような物理的意味を持つのかを理解していなければならない。化学の問題では、分子の振る舞いや反応メカニズムについての理解が必要で、生物学では複雑な生命システムの相互作用を理解し、その影響を推論する能力が問われる。

　このような深い理解と推論を必要とする問題に対し、Phi-4は人間の専門家に迫る性能を披露。これは、同モデルがテキストの表面的な特徴や統計的なパターンだけでなく、科学的概念の本質的な理解を獲得できていることを示唆するものといえるだろう。【次ページ】Phi-4の強み2：米数学オリンピック問題で大規模モデルを圧倒