• 2025/03/17 掲載

グーグル「Gemini 2.0 Flash Thinking」とは? o1対抗推論モデルの「スゴイ実力」

  • icon-mail
  • icon-print
  • icon-hatena
  • icon-line
  • icon-close-snsbtns
4
会員になると、いいね!でマイページに保存できます。
2024年12月にグーグルが新たなマルチモーダル推論モデル「Gemini 2.0 Flash Thinking」を発表した。約50~60ページ分のテキストに相当する3万2000トークンの入力と、8000トークンの出力に対応。サードパーティのベンチマーク評価では創造的な文章生成と長文処理で高いスコアを記録し、OpenAI o1を上回る性能を示した。小型モデルの高性能化を追求するマイクロソフトやHugging Faceなど、各社の取り組みを探る。
執筆:細谷 元  構成:ビジネス+IT編集部
photo
Gemini 2.0 Flash Thinkingは創造的な文章生成と長文処理に優れる

Gemini 2.0 Flash Thinkingとは、その概要

 「Gemini 2.0 Flash Thinking」とは、グーグルが2024年12月に発表した「推論モデル(Reasoning Model)」の1つ。

 同モデルの最大の特徴は、推論過程の「可視化」にある。o1モデルを含むこれまでのAIモデルでは、入力に対する出力結果が提示されるのみで、その判断過程はブラックボックス化していた。

 しかし、Gemini 2.0 Flash Thinkingには、ドロップダウンメニューを通じて推論プロセスを段階的に確認できる仕組みが実装された。

 入出力の処理能力も強化されており、1回の入力で約50~60ページ分のテキストに相当する3万2000トークンまで処理することができる。出力は8000トークンまで対応する。マルチモーダル機能も標準搭載されており、テキストと画像を組み合わせた複雑なタスクにも対応可能だ。

 実際の処理速度も高速で、他のAIモデルが苦手とする問題、たとえば「Strawberry」という単語に含まれる「R」の数を数えるといったタスクを数秒で正確に解答。また、9.9と9.11といった小数の比較においても、まず整数部分を分析し、その後小数点以下の数値を比較するといった具合に、問題を段階的に分解して解決する体系的なアプローチを実現している。

画像
「Strawberry」という単語に含まれる「R」の数を数えるタスクにおけるGPT-4(ChatGPT)の誤答(2025年1月14日確認、3月10日時点では正しい答えを導き出せるようになっている)

画像
「Strawberry」という単語に含まれる「R」の数を数えるタスクにおけるGemini 2.0 Flash Thinkingの正答(2025年1月14日時点)。検証のプロセスが可視化されているのが特徴
(出典:Google AI Studio)

 開発者向けのドキュメントによると、同モデルは「マルチモーダル理解」「推論」「コーディング」の3分野に注力して開発されたという。開発者はGoogle AI StudioVertex AIを通じてこれらの機能を利用できる。

 グーグルのピチャイCEOもXへの投稿で「我々の最も思慮深いモデル」と自信を示しており、フラッグシップの1つとして展開されることが予想される。

 同モデルは当初、一部のユーザーのみが利用可能だったが、2月以降はすべてのユーザーに開放された。

Chatbot Arenaで見えた実力、創造性と長文処理で頭角

 Gemini 2.0 Flash Thinkingの公式ベンチマークスコアはまだ明らかにされていないようだが、API利用が可能となっており、サードパーティのベンチマークテストがいくつか実施されていた。

 主要サードパーティベンチマークの1つであるChatbot Arenaでは、興味深い結果が示された。同ベンチマークの最新データによると、Gemini 2.0 Flash Thinkingは、「Creative Writing(創造的な文章作成)」「Longer Query(長文処理)」「Multi-Turn(複数回のやり取り)」の3分野で特に高いスコアを記録。これまでOpenAIのo1が独占していた分野で、優位性を示す。

画像
Chatbot Arenaの最新モデルベンチマーク比較
(出典:Imarena.ai

 具体的な評価スコアを見ていきたい。

 まず「Creative Writing」では1397ポイントを獲得し、o1の1340ポイントを大きく上回った。これは評価対象となった全モデルの中でも最高得点となる。また「Longer Query」でも1379ポイント、「Multi-Turn」で1384ポイントと、o1(それぞれ1382ポイント、1380ポイント)と互角以上の性能を発揮している。

 一方で、「Hard Prompts(難しい指示への対応)」や「Math(数学)」分野では、依然としてo1が優位に立つ。それぞれo1が1365ポイント、1363ポイントを記録したのに対し、Gemini 2.0 Flash Thinkingは1357ポイント、1329ポイントにとどまった。特に「Math」分野では34ポイントもの差がついており、数学的な推論能力においては改善の余地があることが浮き彫りとなった。

 総合評価である「Overall」スコアでは1367ポイントを記録。o1の1351ポイントを16ポイント上回る結果となった。ただし、文体や口調をコントロールする「Style Control」を加味した場合のスコアは1309ポイントと、o1の1322ポイントを下回っており、より柔軟な文章生成能力については課題が残る形となっている。

 さらに、コーディング能力を示す「Coding」スコアは1344ポイントと、o1の1364ポイントには及ばないものの、Claude 3.5 Sonnet(1292ポイント)やDeepSeek V3(1317)を上回る水準を実現している。

 これらのスコアからは、Gemini 2.0 Flash Thinkingは、創造的な文章生成と長文処理において特に強みを持つモデルであることが分かる。一方、数学的推論や柔軟な文体制御といった分野では、今後の改善が期待されるところだ。 【次ページ】推論モデルHugging Faceの「テストタイム・スケーリング」
関連タグ タグをフォローすると最新情報が表示されます
あなたの投稿

    PR

    PR

    PR

処理に失敗しました

人気のタグ

投稿したコメントを
削除しますか?

あなたの投稿コメント編集

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

通報

このコメントについて、
問題の詳細をお知らせください。

ビジネス+ITルール違反についてはこちらをご覧ください。

通報

報告が完了しました

コメントを投稿することにより自身の基本情報
本メディアサイトに公開されます

必要な会員情報が不足しています。

必要な会員情報をすべてご登録いただくまでは、以下のサービスがご利用いただけません。

  • 記事閲覧数の制限なし

  • [お気に入り]ボタンでの記事取り置き

  • タグフォロー

  • おすすめコンテンツの表示

詳細情報を入力して
会員限定機能を使いこなしましょう!

詳細はこちら 詳細情報の入力へ進む
報告が完了しました

」さんのブロックを解除しますか?

ブロックを解除するとお互いにフォローすることができるようになります。

ブロック

さんはあなたをフォローしたりあなたのコメントにいいねできなくなります。また、さんからの通知は表示されなくなります。

さんをブロックしますか?

ブロック

ブロックが完了しました

ブロック解除

ブロック解除が完了しました

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

ユーザーをフォローすることにより自身の基本情報
お相手に公開されます