- 2025/03/01 掲載
マイクロソフト「Phi-4」が示す小型モデルの衝撃、オープンソースモデル競争も激しさ(2/2)
Phi-4の強み2:米数学オリンピック問題で大規模モデルを圧倒
Phi-4は数学分野でも、そのパフォーマンスの高さを示している。特に米国数学協会(MAA)が主催する数学コンペティション「AMC-10/12」における成績で圧倒的なパフォーマンスを見せつけた。
2024年11月に実施された同テストで、Phi-4は平均91.8ポイントという高スコアを記録。Gemini Pro 1.5(89.8ポイント)、Claude 3.5 Sonnet(74.8ポイント)、GPT-4o(77.9ポイント)など、競合モデルを大きく引き離す結果となった。
AMC-10/12テストは米国数学オリンピックの予選を兼ねており、毎年15万人以上の学生が参加する。4つのバージョン(10A/10B/12A/12B)が用意され、それぞれに150点満点の25問の問題が含まれている。問題の難度は徐々に上がり、後半の問題では高度な数学的推論が要求される。
Phi-4のトレーニングデータは2024年11月のテストより前に収集されており、このテストの情報は含まれておらず、同モデルは初見で90%以上のスコアを達成。単なる暗記や過去問の学習ではなく、真の数学的推論能力に基づく能力を持つことが示された格好となる。
興味深いのは、テスト時の温度設定(temperature)が0.5と比較的高めに設定されている点だ。温度設定を下げれば、より安全な回答を選択できる可能性があるにもかかわらず、Phi-4は高めの温度設定でも安定して高得点を記録した。これは、モデルが数学的な推論を確実に行えていることの証左となる。
このような高度な数学的推論能力は、他のベンチマークでも確認されている。数学オリンピックレベルの問題を含むMATHベンチマークでは80.4%を記録し、同規模のQwen 2.5-14B instruct(75.6%)やGPT-4o mini(73.0%)を上回る結果を示した。
Mac miniでもサクサク動く機敏性も魅力
Phi-4の魅力は、高い性能だけでなく、そのコンパクトなモデルサイズにもある。140億パラメータという比較的小規模なモデル設計により、Mac mini M4など一般的なマシンでもスムーズな動作を実現。これまで高性能なGPUや大容量メモリが必須とされてきた大規模言語モデルの導入ハードルを、大幅に引き下げている。実際、Mac mini M4 Pro(GPUコア16基、メモリ24GB)でも、Phi-4は1秒あたり約10トークンの生成速度を維持することが複数のテストで確認されている。これは日常的な会話や文章生成に十分な速度だ。一方、700億パラメータクラスのモデルでは、同じマシンで1秒あたり5トークン程度まで速度が低下、またはメモリ不足でストップすることもあり得る。
AIモデルのメモリ使用量をGPUベースで見ると、一般的に6GBのVRAMで80億パラメータ、12GBで180億パラメータ、16GBで230億パラメータまでのモデルが動作可能とされる。Phi-4は140億パラメータということで、Mac mini M4 Pro(メモリ24GB)でも余裕を持って動作する計算となる。
特に、Apple Siliconに搭載されたNeural Engineは、AI処理に最適化されている。これにより、専用GPUがなくても効率的なモデル実行が可能だ。実際、Mac向けのLM StudioやOllamaなどのツールは、このNeural Engineを最大限活用するよう最適化されており、Phi-4の性能を余すことなく引き出すことができる。
このような機敏性は、企業のAI導入を考える上で重要な意味を持つ。大規模なGPUクラスタやメモリを必要としないことで、初期投資を抑えられるだけでなく、運用コストも大幅に削減できるためだ。また、ローカル環境で動作することで、データのプライバシーやセキュリティも確保しやすい。さらに、インターネット接続を必要としないため、クラウドサービスの障害や通信の遅延に影響されることもない。
Phi-4はLlamaやDeepSeek と同様、オープンソースで公開されており、Hugging Faceからダウンロードして利用することができる。また、Ollamaなどでも利用可能になっている。これらオープンソースモデルの競争も目を離せない。
関連コンテンツ
関連コンテンツ
PR
PR
PR