• 会員限定
  • 2024/10/04 掲載

グーグル「Gemma」は何がすごい?試してわかる小型言語モデルで「GPT-3.5超え」の実力

  • icon-mail
  • icon-print
  • icon-hatena
  • icon-line
  • icon-close-snsbtns
13
会員になると、いいね!でマイページに保存できます。
オープンソース言語モデル小型言語モデル(SLM)の精度は従来、それほど高いものではなく、実際に活用することは難しかった。しかし、現在はローカル環境でも十分に利用できる小型モデルが続々登場しており、その様相は大きく変わってきている。グーグルが7月末にリリースした「Gemma 2」は、その好例といえるだろう。20億パラメータという非常に小さなモデルでありながら、GPT-3.5を超えるパフォーマンスを示したのだ。さらに、グーグルは「日本語版 Gemma 2 2B」を発表、髙い日本語性能を発揮したという。パラメータ数に関わらず、Gemma 2が高いパフォーマンスを発揮できる理由はどこにあるのか、その理由を探りつつ、実際にローカル環境で動作させる方法と必要なマシンスペックについてもわかりやすく解説する。
執筆:細谷 元  構成:ビジネス+IT編集部
photo
グーグル「Gemma 2」はなぜ小型なのにハイパフォーマンスなのか?
(出典:グーグル

小型モデルの飛躍的な進化、最近の動向

 大規模言語モデル(LLM)の進化は、パラメータ数の増大とともに進んできた。たとえば、OpenAIのGPT-3は1750億パラメータを持ち、その後継モデルGPT-4に至っては、パラメータ数が1兆を超えると推定されている。こうした巨大モデルの運用には、膨大な計算リソースが必要となり、そのコストは天文学的な数字に上る。

 しかし、最近の技術革新により、パラメータ数が数億から100億以下の小型言語モデルが目覚ましい進化を遂げている。これらのモデルは、低コストかつローカル環境でも運用可能でありながら、高いクオリティを実現している。

 マイクロソフトが2024年4月に発表した「Phi-3」は、その代表例だ。

 Phi-3の最小モデル「Phi-3-mini」は、わずか38億パラメータでありながら、法学、数学、哲学、薬学などの幅広い分野の知識を問うベンチマークテスト「MMLU」で68.8%を獲得。OpenAIのGPT-3.5(71.3%)に迫る数字を記録した。さらに、算数問題の解決能力を測るGSM-8Kでは82.5%を達成し、GPT-3.5の78.1%を上回った。

画像
Phi-3 miniはMMLUで68.8%を獲得したものの課題も多かった
(出典:Phi-3 Technical Report

 メタも小型モデルの開発に注力している。同社が2024年6月末に発表した研究論文では、パラメータ数が数億という超小型モデル「MobileLLM」が紹介された。MobileLLMは125M(1億2500万パラメータ)と350M(3億5000万パラメータ)の2つのバリエーションが開発されており、スマートフォンでの利用に最適化されている。

 メタの研究者らによると、3億5000万パラメータのMobileLLMが必要とするメモリは約350MBに抑えられており、これは一般的なスマートフォンのDRAM容量の5%以下に収まるという。

グーグルのGemma 2 2B、GPT-3.5を超え、その実力

 グーグルも小型モデル開発で主導権を握りたい考えだ。同社が2024年7月にリリースした「Gemma 2」は、そのコミットメントの現れと見て取ることができる。

 Gemma 2は、2B(20億パラメータ)、9B(90億パラメータ)、27B(270億パラメータ)からなる比較的小型の言語モデルファミリーだ。特にGemma 2 2Bの効率性が際立っており、注目を集めている。

 AI研究グループLMSYSの独立評価において、Gemma 2 2Bは1126点を獲得。Mixtral-8x7B(1114点)やGPT-3.5-Turbo-0314(1106点)を上回る結果となったのだ。この評価は、LMSYSが運営するChatbot Arenaと呼ばれるプラットフォームで実施されたもの。

画像
2024年7月30日に取得したLMSYS Chatbot Arenaによるリーダーボードスコア
(出典:グーグル

 同プラットフォームのリーダーボードによると、2024年8月6日時点では、合計127のモデルが評価対象となっており、総投票数は161万507票に達する。

 リーダーボードの詳細を見ると、Gemma 2 2Bは52位にランクイン。51位のClaude-2.0(1132点)や、58位のGPT-3.5-Turbo-0613(1117点)と拮抗するパフォーマンスを示している。

 特筆すべきは、(執筆時点では)Gemma 2 2Bが7197票という比較的少ない投票数でこのスコアを達成していることだ。一方、GPT-3.5-Turbo-0613は38935票と、はるかに多くの評価を受けている。

 Chatbot Arenaの評価は、人間の選好に基づくペアワイズ比較を採用している。これは、2つのモデルの回答を並べて表示し、ユーザーがより良いと感じた方に投票するという方式だ。この手法により、モデルの実際の使用感に近い評価が可能となっている。

 Gemma 2 2Bの成功は、AIモデルの大きさが必ずしもパフォーマンスに直結しないことを示唆するもの。高度なトレーニング技術、効率的なアーキテクチャ、高品質なデータセットの組み合わせにより、パラメータ数の少なさを補完できることが証明された格好となる。

 Gemma 2 2Bはオープンソースで公開されており、研究者や開発者がHugging Faceを通じてアクセスできる。これにより、AIコミュニティ全体での知見の共有と、さらなる改良が期待される。 【次ページ】小型モデルの進化の詳細
関連タグ タグをフォローすると最新情報が表示されます
あなたの投稿

    PR

    PR

    PR

処理に失敗しました

人気のタグ

投稿したコメントを
削除しますか?

あなたの投稿コメント編集

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

通報

このコメントについて、
問題の詳細をお知らせください。

ビジネス+ITルール違反についてはこちらをご覧ください。

通報

報告が完了しました

コメントを投稿することにより自身の基本情報
本メディアサイトに公開されます

必要な会員情報が不足しています。

必要な会員情報をすべてご登録いただくまでは、以下のサービスがご利用いただけません。

  • 記事閲覧数の制限なし

  • [お気に入り]ボタンでの記事取り置き

  • タグフォロー

  • おすすめコンテンツの表示

詳細情報を入力して
会員限定機能を使いこなしましょう!

詳細はこちら 詳細情報の入力へ進む
報告が完了しました

」さんのブロックを解除しますか?

ブロックを解除するとお互いにフォローすることができるようになります。

ブロック

さんはあなたをフォローしたりあなたのコメントにいいねできなくなります。また、さんからの通知は表示されなくなります。

さんをブロックしますか?

ブロック

ブロックが完了しました

ブロック解除

ブロック解除が完了しました

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

ユーザーをフォローすることにより自身の基本情報
お相手に公開されます