- 2025/03/17 掲載
グーグル「Gemini 2.0 Flash Thinking」とは? o1対抗推論モデルの「スゴイ実力」
Gemini 2.0 Flash Thinkingとは、その概要
「Gemini 2.0 Flash Thinking」とは、グーグルが2024年12月に発表した「推論モデル(Reasoning Model)」の1つ。同モデルの最大の特徴は、推論過程の「可視化」にある。o1モデルを含むこれまでのAIモデルでは、入力に対する出力結果が提示されるのみで、その判断過程はブラックボックス化していた。
しかし、Gemini 2.0 Flash Thinkingには、ドロップダウンメニューを通じて推論プロセスを段階的に確認できる仕組みが実装された。
入出力の処理能力も強化されており、1回の入力で約50~60ページ分のテキストに相当する3万2000トークンまで処理することができる。出力は8000トークンまで対応する。マルチモーダル機能も標準搭載されており、テキストと画像を組み合わせた複雑なタスクにも対応可能だ。
実際の処理速度も高速で、他のAIモデルが苦手とする問題、たとえば「Strawberry」という単語に含まれる「R」の数を数えるといったタスクを数秒で正確に解答。また、9.9と9.11といった小数の比較においても、まず整数部分を分析し、その後小数点以下の数値を比較するといった具合に、問題を段階的に分解して解決する体系的なアプローチを実現している。
開発者向けのドキュメントによると、同モデルは「マルチモーダル理解」「推論」「コーディング」の3分野に注力して開発されたという。開発者はGoogle AI StudioやVertex AIを通じてこれらの機能を利用できる。
グーグルのピチャイCEOもXへの投稿で「我々の最も思慮深いモデル」と自信を示しており、フラッグシップの1つとして展開されることが予想される。
同モデルは当初、一部のユーザーのみが利用可能だったが、2月以降はすべてのユーザーに開放された。
Chatbot Arenaで見えた実力、創造性と長文処理で頭角
Gemini 2.0 Flash Thinkingの公式ベンチマークスコアはまだ明らかにされていないようだが、API利用が可能となっており、サードパーティのベンチマークテストがいくつか実施されていた。主要サードパーティベンチマークの1つであるChatbot Arenaでは、興味深い結果が示された。同ベンチマークの最新データによると、Gemini 2.0 Flash Thinkingは、「Creative Writing(創造的な文章作成)」「Longer Query(長文処理)」「Multi-Turn(複数回のやり取り)」の3分野で特に高いスコアを記録。これまでOpenAIのo1が独占していた分野で、優位性を示す。

具体的な評価スコアを見ていきたい。
まず「Creative Writing」では1397ポイントを獲得し、o1の1340ポイントを大きく上回った。これは評価対象となった全モデルの中でも最高得点となる。また「Longer Query」でも1379ポイント、「Multi-Turn」で1384ポイントと、o1(それぞれ1382ポイント、1380ポイント)と互角以上の性能を発揮している。
一方で、「Hard Prompts(難しい指示への対応)」や「Math(数学)」分野では、依然としてo1が優位に立つ。それぞれo1が1365ポイント、1363ポイントを記録したのに対し、Gemini 2.0 Flash Thinkingは1357ポイント、1329ポイントにとどまった。特に「Math」分野では34ポイントもの差がついており、数学的な推論能力においては改善の余地があることが浮き彫りとなった。
総合評価である「Overall」スコアでは1367ポイントを記録。o1の1351ポイントを16ポイント上回る結果となった。ただし、文体や口調をコントロールする「Style Control」を加味した場合のスコアは1309ポイントと、o1の1322ポイントを下回っており、より柔軟な文章生成能力については課題が残る形となっている。
さらに、コーディング能力を示す「Coding」スコアは1344ポイントと、o1の1364ポイントには及ばないものの、Claude 3.5 Sonnet(1292ポイント)やDeepSeek V3(1317)を上回る水準を実現している。
これらのスコアからは、Gemini 2.0 Flash Thinkingは、創造的な文章生成と長文処理において特に強みを持つモデルであることが分かる。一方、数学的推論や柔軟な文体制御といった分野では、今後の改善が期待されるところだ。 【次ページ】推論モデルHugging Faceの「テストタイム・スケーリング」
関連コンテンツ
関連コンテンツ
PR
PR
PR