Grok-1.5とは何かをわかりやすく解説、イーロン・マスクのxAIがX（Twitter）も革新へ

ありがとうございます！
いいね！した記事一覧をみる

会員になると、いいね！でマイページに保存できます。

AI・生成AI

|

タグをもっとみる

イーロン・マスク氏が率いるxAIが、大規模言語モデル（LLM）「Grok-1.5」を発表した。同社によると、Grok-1.5はOpenAIの「GPT-4」やアンソロピックの「Claude 3」に匹敵する推論・問題解決能力を持つという。ここにきて同サービスが注目を集める理由は、同発表からわずか2週間後にマルチモーダル版である「Grok-1.5V」を発表したこと。これにより、テキストプロンプトに加えて、図表や写真、空間情報などを処理できると主張する。さらには、X（旧Twitter）において話題のニュースやトピックを要約する「Stories on X」に同モデルが採用されることも明らかになった。Grok-1.5の実力を確かめるとともに、競合モデルと比較しつつ、今後リリースされる「Grok-2」について占っていこう。

執筆：細谷元

Grok-1.5の実力とは如何に？

（Photo：rafapress / Shutterstock.com）

Grok-1.5とは何か？GPT-4超えを目指して加熱するLLM開発競争

　この数カ月、ポストGPT-4をめぐる生成AI開発競争が激化の様相だ。アンソロピックの「Claude3」、Cohereの「Command R+」、グーグルの「Gemini Ultra」など、新たなモデルが続々登場している。

　イーロン・マスク氏率いるAI企業xAIは2024年3月末、同社の大規模言語モデル「Grok-1」のアップグレード版「Grok-1.5」を発表。xAIによると、Grok-1.5はコーディングや数学タスクにおいて大幅な改善を見せており、高度な数学能力を測るMATHベンチマークでは50.6％、基礎数学能力を測定するGSM8Kベンチマークでは90％、コーディング能力を測るHumanEvalベンチマークでは74.1％のスコアを獲得したという。

Grok-1.5のベンチマーク。Claude 3 OpusやGemini Pro 1.5には及ばないが、一部ベンチマークでGPT-4やCalude 3 Sonnetは一部上回っている

（出典：xAI）

　Grok-1.5はOpenAIの「GPT-4」やアンソロピックの「Claude 3」に迫る性能を発揮しており、多様な分野の知識を測るMMLUベンチマークでも81.3％のスコアを記録。これはGrok-1の73％から大きく向上した数字となる。

　さらに、Grok-1.5は最大12万8000トークンのコンテクストウィンドウを備え、長文の分析・要約・情報抽出タスクにも適しているとのこと。コンテクストウィンドウに関しては、同じ12万8000トークンのコンテクストウィンドウを持つGPT-4 TurboやCohereのCommand R+に並んだ格好となる。

　ただ、現在利用可能な大規模言語モデルでは、Claude3シリーズが20万トークンでトップを走る。

　xAIはGrok-1.5を限定公開しつつ、順次ユーザーを拡大していく計画だ。一方、後継モデルとなる「Grok-2」は現在トレーニング中で、マスク氏は「あらゆるメトリクスで現在のAIを超える」と意気込んでいる。テック系コンサルタントのブライアン・ルーメル氏は、「Grok-2はリリース時に最も強力なLLM AIプラットフォームの1つになるだろう。ほぼすべてのメトリクスでOpenAIを凌駕するはずだ」とGrok-2に対する大きな期待を表明している。

　現時点ではGrok-1.5を使用できないため、実際のパフォーマンスを確認することができない。回答精度、日本語能力、生成スピード、価格などにおいて、現リーダーボーダーにどう食い込んでくるのか気になるところだ。

主要大規模言語モデルのリーダーボード（2024年4月18日時点）

（出典：artificialanalysis.ai）

編集部おすすめ記事

「管理職は罰ゲーム」の真因、日本の人事部門「企業の最底辺扱い」の愚かしさ

幅広い視覚情報を処理するマルチモーダルモデル、OpenAIも対抗へ

　テキストだけでなく、さまざまなファイルを理解するマルチモーダルモデルの開発競争も熾烈化している。Grok-1.5の発表からわずか2週間後、xAIは同モデルのマルチモーダル版である「Grok-1.5V」を発表した。xAIによると、Grok-1.5Vはテキストの理解に加え、ダイヤグラム、チャート、スクリーンショット、写真など、幅広い視覚情報を処理できるという。

　Grok-1.5Vは多分野の推論から文書・科学図表・チャート・スクリーンショット・写真の理解に至るまで、さまざまな領域で既存のマルチモーダルモデルと肩を並べる性能を発揮しているという。

　特にxAIが独自に開発した「RealWorldQA」ベンチマークでは、GPT-4VやClaude 3 Sonnet、Claude 3 Opus、Gemini Pro 1.5を上回る68.7％のスコアを記録し、現実世界の空間理解において際立った結果を示したとされる。

Grok-1.5VはRealWorldQA（一番下）の項目で最も高い値を示した

（出典：xAI）

　xAIはGrok-1.5Vの可能性を示すために7つの例を挙げている。ホワイトボードのフローチャートのスケッチからPythonコードを生成したり、子供の絵から物語を作成したり、ミームの説明や表のCSVファイルへの変換、デッキ中の腐った木材の特定など、多岐にわたるユースケースが紹介されている。

　RealWorldQAは、700以上の画像とそれぞれの質問・回答のペアを使ってトレーニングされたベンチマークで、車両から撮影された画像や他の実世界のサンプルなど、多様な画像が含まれている。xAIはRealWorldQAをクリエイティブ・コモンズ・ライセンスの下で一般公開する予定だ。

　競合の追い上げに対し、OpenAIもマルチモーダルモデルの開発を加速している。同社は2023年9月にGPT-4のビジョン機能とオーディオアップロード機能を発表したが、2024年4月にGPT-4 Turbo with Visionモデルを一般公開、これにより単一のモデルでテキストと画像の両方を処理できるようになった。

　GPT-4 Turbo with Visionは、すでにいくつかの顧客に活用されている。自律型AIコーディングエージェントのDevinを開発したスタートアップCognitionは、同モデルを使用してユーザーに代わって自動でコード生成を行うプラットフォームを展開。また、ヘルスケア＆フィットネスアプリのHealthifyでも、食事の写真から栄養分析と推奨事項を提示するためにGPT-4 Turbo with Visionが活用されているという。【次ページ】Xで話題のニュースを要約する機能に採用