会員限定
2024/10/04 掲載

グーグル「Gemma」は何がすごい？試してわかる小型言語モデルで「GPT-3.5超え」の実力

ありがとうございます！
いいね！した記事一覧をみる

会員になると、いいね！でマイページに保存できます。

AI・生成AI

|

タグをもっとみる

オープンソース言語モデルや小型言語モデル（SLM）の精度は従来、それほど高いものではなく、実際に活用することは難しかった。しかし、現在はローカル環境でも十分に利用できる小型モデルが続々登場しており、その様相は大きく変わってきている。グーグルが7月末にリリースした「Gemma 2」は、その好例といえるだろう。20億パラメータという非常に小さなモデルでありながら、GPT-3.5を超えるパフォーマンスを示したのだ。さらに、グーグルは「日本語版 Gemma 2 2B」を発表、髙い日本語性能を発揮したという。パラメータ数に関わらず、Gemma 2が高いパフォーマンスを発揮できる理由はどこにあるのか、その理由を探りつつ、実際にローカル環境で動作させる方法と必要なマシンスペックについてもわかりやすく解説する。

執筆：細谷元　構成：ビジネス＋IT編集部

グーグル「Gemma 2」はなぜ小型なのにハイパフォーマンスなのか？

（出典：グーグル）

小型モデルの飛躍的な進化、最近の動向

　大規模言語モデル（LLM）の進化は、パラメータ数の増大とともに進んできた。たとえば、OpenAIのGPT-3は1750億パラメータを持ち、その後継モデルGPT-4に至っては、パラメータ数が1兆を超えると推定されている。こうした巨大モデルの運用には、膨大な計算リソースが必要となり、そのコストは天文学的な数字に上る。

　しかし、最近の技術革新により、パラメータ数が数億から100億以下の小型言語モデルが目覚ましい進化を遂げている。これらのモデルは、低コストかつローカル環境でも運用可能でありながら、高いクオリティを実現している。

　マイクロソフトが2024年4月に発表した「Phi-3」は、その代表例だ。

　Phi-3の最小モデル「Phi-3-mini」は、わずか38億パラメータでありながら、法学、数学、哲学、薬学などの幅広い分野の知識を問うベンチマークテスト「MMLU」で68.8%を獲得。OpenAIのGPT-3.5（71.3％）に迫る数字を記録した。さらに、算数問題の解決能力を測るGSM-8Kでは82.5％を達成し、GPT-3.5の78.1％を上回った。

Phi-3 miniはMMLUで68.8％を獲得したものの課題も多かった

（出典：Phi-3 Technical Report）

　メタも小型モデルの開発に注力している。同社が2024年6月末に発表した研究論文では、パラメータ数が数億という超小型モデル「MobileLLM」が紹介された。MobileLLMは125M（1億2500万パラメータ）と350M（3億5000万パラメータ）の2つのバリエーションが開発されており、スマートフォンでの利用に最適化されている。

　メタの研究者らによると、3億5000万パラメータのMobileLLMが必要とするメモリは約350MBに抑えられており、これは一般的なスマートフォンのDRAM容量の5%以下に収まるという。

編集部おすすめ記事

「管理職は罰ゲーム」の真因、日本の人事部門「企業の最底辺扱い」の愚かしさ

グーグルのGemma 2 2B、GPT-3.5を超え、その実力

　グーグルも小型モデル開発で主導権を握りたい考えだ。同社が2024年7月にリリースした「Gemma 2」は、そのコミットメントの現れと見て取ることができる。

　Gemma 2は、2B（20億パラメータ）、9B（90億パラメータ）、27B（270億パラメータ）からなる比較的小型の言語モデルファミリーだ。特にGemma 2 2Bの効率性が際立っており、注目を集めている。

　AI研究グループLMSYSの独立評価において、Gemma 2 2Bは1126点を獲得。Mixtral-8x7B（1114点）やGPT-3.5-Turbo-0314（1106点）を上回る結果となったのだ。この評価は、LMSYSが運営するChatbot Arenaと呼ばれるプラットフォームで実施されたもの。

2024年7月30日に取得したLMSYS Chatbot Arenaによるリーダーボードスコア

（出典：グーグル）

　同プラットフォームのリーダーボードによると、2024年8月6日時点では、合計127のモデルが評価対象となっており、総投票数は161万507票に達する。

　リーダーボードの詳細を見ると、Gemma 2 2Bは52位にランクイン。51位のClaude-2.0（1132点）や、58位のGPT-3.5-Turbo-0613（1117点）と拮抗するパフォーマンスを示している。

　特筆すべきは、（執筆時点では）Gemma 2 2Bが7197票という比較的少ない投票数でこのスコアを達成していることだ。一方、GPT-3.5-Turbo-0613は38935票と、はるかに多くの評価を受けている。

　Chatbot Arenaの評価は、人間の選好に基づくペアワイズ比較を採用している。これは、2つのモデルの回答を並べて表示し、ユーザーがより良いと感じた方に投票するという方式だ。この手法により、モデルの実際の使用感に近い評価が可能となっている。

　Gemma 2 2Bの成功は、AIモデルの大きさが必ずしもパフォーマンスに直結しないことを示唆するもの。高度なトレーニング技術、効率的なアーキテクチャ、高品質なデータセットの組み合わせにより、パラメータ数の少なさを補完できることが証明された格好となる。

　Gemma 2 2Bはオープンソースで公開されており、研究者や開発者がHugging Faceを通じてアクセスできる。これにより、AIコミュニティ全体での知見の共有と、さらなる改良が期待される。【次ページ】小型モデルの進化の詳細

AI・生成AI

グーグル「Gemma」は何がすごい？試してわかる小型言語モデルで「GPT-3.5超え」の実力

小型モデルの飛躍的な進化、最近の動向

グーグルのGemma 2 2B、GPT-3.5を超え、その実力

東急や丸ビルらが採用する「行動認識AI」、「日本の安全」はどう守られているのか？

【徹底比較】生成AI観点で「Google WorkSpace」「Microsoft Office」を選ぶなら？

「AIエージェント」の業務活用で「生産性爆上げ」はどう叶える？ケースごとに解説

関連コンテンツ

【チェックリスト付】なぜ生成AI導入は「失敗」ばかり？絶対確認すべき「12の原因」

AIロボット研究所高橋教授が解説、「ドラえもん」で育った日本人の“意外な強み”

【図解】生成AIのバリューチェーン、「DeepSeekショック」余波続く…勝者と敗者を一覧

【実演】DeepSeekファインチューニング＆RAG！GPUクラウド活用ウェビナー

【実演】DeepSeekファインチューニング＆RAG！GPUクラウド活用ウェビナー

AI・業務自動化・RPA 2025 春

AI・業務自動化・RPA 2025 春

Deep Researchを無料オープンソースで構築！GPU活用ウェビナー

Deep Researchを無料オープンソースで構築！GPU活用ウェビナー

人気のタグ

グーグル「Gemma」は何がすごい？試してわかる小型言語モデルで「GPT-3.5超え」の実力

小型モデルの飛躍的な進化、最近の動向

グーグルのGemma 2 2B、GPT-3.5を超え、その実力

東急や丸ビルらが採用する「行動認識AI」、「日本の安全」はどう守られているのか？

【徹底比較】生成AI観点で「Google WorkSpace」「Microsoft Office」を選ぶなら？

「AIエージェント」の業務活用で「生産性爆上げ」はどう叶える？ ケースごとに解説

関連コンテンツ

【チェックリスト付】なぜ生成AI導入は「失敗」ばかり？ 絶対確認すべき「12の原因」

AIロボット研究所 高橋教授が解説、「ドラえもん」で育った日本人の“意外な強み”

【図解】生成AIのバリューチェーン、「DeepSeekショック」余波続く…勝者と敗者を一覧

【実演】DeepSeekファインチューニング＆RAG！GPUクラウド活用ウェビナー

【実演】DeepSeekファインチューニング＆RAG！GPUクラウド活用ウェビナー

AI・業務自動化・RPA 2025 春

AI・業務自動化・RPA 2025 春

Deep Researchを無料オープンソースで構築！GPU活用ウェビナー

Deep Researchを無料オープンソースで構築！GPU活用ウェビナー

人気のタグ

「AIエージェント」の業務活用で「生産性爆上げ」はどう叶える？ケースごとに解説

【チェックリスト付】なぜ生成AI導入は「失敗」ばかり？絶対確認すべき「12の原因」

AIロボット研究所高橋教授が解説、「ドラえもん」で育った日本人の“意外な強み”