グーグル「Gemini 2.0 Flash Thinking」とは？ o1対抗推論モデルの「スゴイ実力」

ありがとうございます！
いいね！した記事一覧をみる

会員になると、いいね！でマイページに保存できます。

AI・生成AI

|

タグをもっとみる

2024年12月にグーグルが新たなマルチモーダル推論モデル「Gemini 2.0 Flash Thinking」を発表した。約50～60ページ分のテキストに相当する3万2000トークンの入力と、8000トークンの出力に対応。サードパーティのベンチマーク評価では創造的な文章生成と長文処理で高いスコアを記録し、OpenAI o1を上回る性能を示した。小型モデルの高性能化を追求するマイクロソフトやHugging Faceなど、各社の取り組みを探る。

執筆：細谷元　構成：ビジネス＋IT編集部

Gemini 2.0 Flash Thinkingは創造的な文章生成と長文処理に優れる

（出典：Google AI for Developers）

Gemini 2.0 Flash Thinkingとは、その概要

　「Gemini 2.0 Flash Thinking」とは、グーグルが2024年12月に発表した「推論モデル（Reasoning Model）」の1つ。

　同モデルの最大の特徴は、推論過程の「可視化」にある。o1モデルを含むこれまでのAIモデルでは、入力に対する出力結果が提示されるのみで、その判断過程はブラックボックス化していた。

　しかし、Gemini 2.0 Flash Thinkingには、ドロップダウンメニューを通じて推論プロセスを段階的に確認できる仕組みが実装された。

　入出力の処理能力も強化されており、1回の入力で約50～60ページ分のテキストに相当する3万2000トークンまで処理することができる。出力は8000トークンまで対応する。マルチモーダル機能も標準搭載されており、テキストと画像を組み合わせた複雑なタスクにも対応可能だ。

　実際の処理速度も高速で、他のAIモデルが苦手とする問題、たとえば「Strawberry」という単語に含まれる「R」の数を数えるといったタスクを数秒で正確に解答。また、9.9と9.11といった小数の比較においても、まず整数部分を分析し、その後小数点以下の数値を比較するといった具合に、問題を段階的に分解して解決する体系的なアプローチを実現している。

「Strawberry」という単語に含まれる「R」の数を数えるタスクにおけるGPT-4（ChatGPT）の誤答（2025年1月14日確認、3月10日時点では正しい答えを導き出せるようになっている）

「Strawberry」という単語に含まれる「R」の数を数えるタスクにおけるGemini 2.0 Flash Thinkingの正答（2025年1月14日時点）。検証のプロセスが可視化されているのが特徴

（出典：Google AI Studio）

　開発者向けのドキュメントによると、同モデルは「マルチモーダル理解」「推論」「コーディング」の3分野に注力して開発されたという。開発者はGoogle AI StudioやVertex AIを通じてこれらの機能を利用できる。

　グーグルのピチャイCEOもXへの投稿で「我々の最も思慮深いモデル」と自信を示しており、フラッグシップの1つとして展開されることが予想される。

　同モデルは当初、一部のユーザーのみが利用可能だったが、2月以降はすべてのユーザーに開放された。

編集部おすすめ記事

「管理職は罰ゲーム」の真因、日本の人事部門「企業の最底辺扱い」の愚かしさ

Chatbot Arenaで見えた実力、創造性と長文処理で頭角

　Gemini 2.0 Flash Thinkingの公式ベンチマークスコアはまだ明らかにされていないようだが、API利用が可能となっており、サードパーティのベンチマークテストがいくつか実施されていた。

　主要サードパーティベンチマークの1つであるChatbot Arenaでは、興味深い結果が示された。同ベンチマークの最新データによると、Gemini 2.0 Flash Thinkingは、「Creative Writing（創造的な文章作成）」「Longer Query（長文処理）」「Multi-Turn（複数回のやり取り）」の3分野で特に高いスコアを記録。これまでOpenAIのo1が独占していた分野で、優位性を示す。

Chatbot Arenaの最新モデルベンチマーク比較

（出典：Imarena.ai）

　具体的な評価スコアを見ていきたい。

　まず「Creative Writing」では1397ポイントを獲得し、o1の1340ポイントを大きく上回った。これは評価対象となった全モデルの中でも最高得点となる。また「Longer Query」でも1379ポイント、「Multi-Turn」で1384ポイントと、o1（それぞれ1382ポイント、1380ポイント）と互角以上の性能を発揮している。

　一方で、「Hard Prompts（難しい指示への対応）」や「Math（数学）」分野では、依然としてo1が優位に立つ。それぞれo1が1365ポイント、1363ポイントを記録したのに対し、Gemini 2.0 Flash Thinkingは1357ポイント、1329ポイントにとどまった。特に「Math」分野では34ポイントもの差がついており、数学的な推論能力においては改善の余地があることが浮き彫りとなった。

　総合評価である「Overall」スコアでは1367ポイントを記録。o1の1351ポイントを16ポイント上回る結果となった。ただし、文体や口調をコントロールする「Style Control」を加味した場合のスコアは1309ポイントと、o1の1322ポイントを下回っており、より柔軟な文章生成能力については課題が残る形となっている。

　さらに、コーディング能力を示す「Coding」スコアは1344ポイントと、o1の1364ポイントには及ばないものの、Claude 3.5 Sonnet（1292ポイント）やDeepSeek V3（1317）を上回る水準を実現している。

　これらのスコアからは、Gemini 2.0 Flash Thinkingは、創造的な文章生成と長文処理において特に強みを持つモデルであることが分かる。一方、数学的推論や柔軟な文体制御といった分野では、今後の改善が期待されるところだ。【次ページ】推論モデルHugging Faceの「テストタイム・スケーリング」