- 会員限定
- 2025/03/26 掲載
グーグルら注力のAI「ロボット基盤モデル」とは? ロボット版ChatGPTのスゴイ可能性

ロボット業界の「2つのブーム」と「キーワード」
いまロボット業界には、2つの大きなブームがある。「ロボット基盤モデル」と言われる生成AIおよび、強化学習や模倣学習などの機械学習の活用と、ヒューマノイド(人間型ロボット)である。共通するキーワードは「汎用」だ。つまり「何にでも使える」という意味である。「何でもできるロボット」──しかも簡単に、人に指示するように口で言うだけで動作させられる知的な人工物は、昔から、それこそロボット工学が登場する以前から、人類の夢の1つだった。もしかしたらそこに手が届くのではないか、と想像されているのだ。
実際にスタートアップはさまざまなデモビデオを毎日のように公開している。以前は「難しい」と言われていたタスクがこなせるようになっている。「テーブルのコップを取って」の一言で動いてくれるロボットの実現だ。しかしながらこれらは研究段階のものだ。筆者自身は、製造や物流の現場に導入されるには、まだまだ、かなりの時間がかかると考えている。
そもそもの話として、本連載をお読みいただいている読者の方々はよくお分かりだと思うが、新規技術の現場導入のハードルは高い。費用対効果がある程度計算できる既存の手堅いロボットソリューションでさえ、現場導入には苦労している。
投資家たちは煽っているが、高い生産性を求められている現場に、そんなに簡単に新しい技術が導入できるはずがない。しかもいま労働力を必要としている現場はどこも極めて保守的なところが多いので、なおさらだ。
しかし、ロボットビジネスシーンとの距離は遠いものの、この潮流からは目を離せないのもたしかだ。これまでの位置制御ベースの産業用ロボットにはできなかったことができるようになりつつあるため、新しく大きな流れを生み出す可能性が高く、しかも変化は割と急激に起こる可能性がある。

ちょうどグーグルからも新しい基盤モデルが発表された。日本発の研究開発プロジェクトも本格的に始まる。そこで今回は、ロボット基盤モデルについて一通り押さえておきたい。
ロボット基盤モデルとは何か
2025年3月、グーグル ディープマインドがロボット基盤モデル「Gemini Robotics」を発表した。グーグルの生成AI「Gemini 2.0」をベースとした、物理世界で動くロボットのためのAIモデルである。まず「ロボット基盤モデルとは何か」という点について改めて説明しておきたい。ロボット基盤モデルとは、自然言語処理で用いられる大規模言語モデル(LLM)や、画像認識などで用いられる視覚言語モデル(VLM)のように、ロボット動作において汎用性を持たせることを目指して開発されている大規模なニューラルネットワークである。
ロボット基盤モデルも他の大規模モデルと同様に、大量のセンサーデータや動作データで訓練されている。目的は、特定タスクに限られず、状況に応じてロボットが柔軟に動作生成できるようにすることだ。
従来のロボットはすべての動作を細かくプログラミングする必要がある。新しく何かをやらせるためにはもちろん、微調整でさえ手間がかかる。これがロボット導入の大きなハードルとなっている。
一方、異なる環境でロボットを動かしたときのさまざまな種類のデータ(マルチモーダルデータ)の対応関係を事前学習(Pre-training)したロボット基盤モデルを、個別タスク向けにファインチューニングして使うことで、個別にプログラミングを行わずに、ロボットに仕事をやらせることができるようになるのではないかと期待されているのである。
データ収集には、実機を動作させて統計的パターンを抽出するEnd-to-End学習のほか、物理シミュレーション環境も用いられており、とにかくさまざまなロボットやタスクの大規模データを収集して基盤モデルを作るやり方が一般的だ。基盤モデルの出力を初期値として用い、さらに模倣学習や強化学習を組み合わせることで、試行回数を削減しつつ、未経験タスクや未知の環境にも対応できるようになる。
また、ロボット基盤モデルはマルチモーダルデータ間の関係の学習を通して、ある程度の「常識」が学習されていると考えられることから、人が明示することなく報酬関数をうまく学習することもできると考えられている。 【次ページ】グーグルが発表した「2つのロボット基盤モデル」
関連コンテンツ
PR
PR
PR