イーロン・マスク氏が率いるxAIが、大規模言語モデル(LLM)「Grok-1.5」を発表した。同社によると、Grok-1.5はOpenAIの「GPT-4」やアンソロピックの「Claude 3」に匹敵する推論・問題解決能力を持つという。ここにきて同サービスが注目を集める理由は、同発表からわずか2週間後にマルチモーダル版である「Grok-1.5V」を発表したこと。これにより、テキストプロンプトに加えて、図表や写真、空間情報などを処理できると主張する。さらには、X(旧Twitter)において話題のニュースやトピックを要約する「Stories on X」に同モデルが採用されることも明らかになった。Grok-1.5の実力を確かめるとともに、競合モデルと比較しつつ、今後リリースされる「Grok-2」について占っていこう。
競合の追い上げに対し、OpenAIもマルチモーダルモデルの開発を加速している。同社は2023年9月にGPT-4のビジョン機能とオーディオアップロード機能を発表したが、2024年4月にGPT-4 Turbo with Visionモデルを一般公開、これにより単一のモデルでテキストと画像の両方を処理できるようになった。
GPT-4 Turbo with Visionは、すでにいくつかの顧客に活用されている。自律型AIコーディングエージェントのDevinを開発したスタートアップCognitionは、同モデルを使用してユーザーに代わって自動でコード生成を行うプラットフォームを展開。また、ヘルスケア&フィットネスアプリのHealthifyでも、食事の写真から栄養分析と推奨事項を提示するためにGPT-4 Turbo with Visionが活用されているという。
【次ページ】Xで話題のニュースを要約する機能に採用