0
会員になると、いいね!でマイページに保存できます。
共有する
大規模基盤モデルを使ってロボットに世界を理解させ、汎用(はんよう)性を持たせようとする試みが盛んになってきた。目指すところは、日常言語による指示の意図を適切に理解し、初めての環境にも対応して作業が行える「汎用ロボット」の実現だ。物体認識の研究発展において大規模画像データベースの「ImageNet」が重要な役割を果たしたように、汎用ロボット実現のためにも学習用データセットを整えることが、まずは重要となる。日本国内はもとより世界各国でさまざまなプロジェクトが進められている。その概要とロボットのこれからの可能性を追ってみたい。
夢の存在「家事ロボット」が実現?
読者の皆さまもご存じのとおり、現在のロボットはもっぱら工場や物流倉庫のなかで使われている。決まった環境で、決まった作業をプログラムどおりに実行する。
一方フィクションの世界では昔から「家事ロボット」が夢の存在として登場している。実際問題、多くの家事が家電で行えるようになった今でも、細かい仕事が作業と作業の間に残り続けている。それらの雑用も含めて自動でこなしてほしいという願いは消えていない。だが家庭のなかでさまざまな作業をさせるためには、無限に近い組み合わせがある状況下で、あいまいな指示に対応して動ける能力が必要とされる。
そもそも論として「お手伝いさん」のような人間サイズのロボットを家庭に迎え入れることが本当に現実的かどうかはさておき、技術として追求するための研究は今でもあちこちで進められている。ロボットと人間のインタラクション、日常を想定したシーンのなかでロボットにタスクをさせる競技大会「
ロボカップ@Home 」はそのための試みの1つである。
以前は話者推定などに苦労していたが、昨今はそこに苦労することはなくなった。また状況の認識にもChatGPTなどでおなじみ大規模言語モデル(LLM)が活用されるようになり、競技で競うべき内容も変わりつつあるようだ。ただ、大規模言語モデルがあれば何でもできるという話でもなく、汎用サービスロボットへの道のりはまだ遠い。ロボカップでも、基本となる物体データや、異なるロボットに転移学習させることができる共通スキルのモデルをそろえて共有しようといった動きもあると聞く。
RoboCup 2024 @Homeの予選ビデオ
スタンフォード大学 Vision and Learning Labなどによる「
BEHAVIOR-1K 」では、洗濯や片付け、テーブルセッティングなど、1000の日常的な家事活動を「身体化人工知能(Embodied Artificial Intelligence、EAI)」でこなすことを目指すプロジェクトが進行している。「OMNIGIBSON」というリアルかつ物理的なシミュレーション環境を活用する。
「BEHAVIOR-1K」は2つのコンポーネントからなる。1つ目は8つのシーンタイプ、家やオフィス、レストランや庭など50のインタラクティブシーン、注釈付きの1900以上のオブジェクト・タイプ、9000以上のオブジェクト・モデルを含む、日常活動の定義からなるデータセットだ。
2つ目が「
OMNIGIBSON 」環境である。これはデジタルツイン開発などに用いられているNVIDIAのメタバースプラットフォーム「Omniverse」をベースとして開発されたシミュレーション環境で、柔軟なマテリアルと変形可能なボディ、リアルな流体と熱エフェクトなどもサポートする。
この環境を使って、人間本位、多様性、リアリズムを元にしたロボット学習ソリューションの研究開発を目指すという。なお「BEHAVIOR」は「Benchmark for Everyday Household Activities in Virtual, Interactive, and EcOlogical EnviRonments」の略だ。
似たような考え方のプロジェクトは世界各国で行われている。今回はそのような試みをいくつか紹介しておきたい。どれでも良いので成功してもらいたい。
なお、本連載では2023年4月にも「
大規模言語モデルでロボットはどう進化するのか、いい意味で「予測不可能」な未来とは 」でこの話題を取り上げている。今回はその続きだと思ってもらいたい。ただ、この分野の発展は本当に早いので、あくまでスナップショットの1枚だと思ってもらったほうがいいかもしれない。
Google DeepMindのロボット工学モデル 「RT-X」
話をいったん基本的なところに戻す。現在「大規模基盤モデル」の活用が注目されている。タスクごとに個別に詳細なプログラミングを行ってロボットを動作させるのではなく、乱雑な日常空間にあるようなさまざまな作業、いわゆる汎用作業に適応させる手法としての活用だ。
RT-Xのアニメーション
「大規模基盤モデル」とは多種多様なデータで学習させた大規模ニューラルネットワークである。基盤モデルを元に「ファインチューニング」することで、さまざまなタスクに適応させることができる。
計算量とデータ量とパラメータ数を大規模にすることで、大規模言語モデルは飛躍的に性能を伸ばし、多様なタスクに対応できるようになった。仕組みとしては確率モデルなのだが、実際に実現できていることは驚きとしか言いようがない。
しかも猛烈な速度で進化し続けている。OpenAIが2024年5月13日に発表した最新モデル「GPT-4o」との会話はまるで人間のようだ。リアルタイムで逐次通訳までやってくれる。学習データの偏りによるのか、日本語の発話には外国人訛(なま)りがあり、性能も英語よりも劣るようだが、OpenAIは日本にも拠点を設けているので、今後の発展に期待したい。
GPT-4oのイントロダクション
GPT-4oの話はいったん横に置いておき、ロボットの話に戻ろう。同様に、大規模な確率モデルを使うことでロボットに周囲の環境や求められているタスク目標を認識・理解させたり、動作させるためのコードを自動生成させて、タスクを実行させたりしようという考え方がある。たとえばロボットの知覚処理に大規模モデルを使うことは容易に想像できる。
Google DeepMindは各国の数十の大学と共同で「RT-X」というプロジェクトを提案している。「RT」はRobotics Transformerの略で、Transformerアーキテクチャーをベースとしていることを意味する。RT-Xは2つのTransformetモデルから構成される。リアルワールドのロボットから学習させたRT-1-Xと、Webとロボットのデータから自然言語に応答できるようにしたRT-2-Xというモデルだ。2つのモデルを組み合わせることで高い汎化(はんか)性能を持たせられるという。
DeepMindは異なるロボットから収集した多様な動作や視覚データなどからなる「Open X-Embodiment」という巨大データセットを作り、あいまいな自然言語にしたがっていろいろなタスクに適用できる動作モデルを作ろうとしている。詳細はこちらの
ブログ で解説されているが、100万以上のエピソード、500以上のスキルと15万以上のタスクを実証する22種類のロボットからデータを収集した包括的なデータセットだという。
このデータセットを使ってRT-1-Xを訓練し、ものをつかんだり移動させたりさせる実験を行ったところ、従来のモデルよりも50%ほど成功率が高くなったとされている。RT-2-Xのほうは別のロボットの別のデータセットを使って訓練したら3倍の能力を発揮した。また、元のモデルにはなかった空間理解、指示の理解の能力を見せたという。 たとえば「move apple on cloth(リンゴを布の上に)」と「move apple near cloth(リンゴを布の近くに)」という指示では、ロボットが取るべきアームの軌道は異なるが、それに対応できたというのだ。
つまり、ほかのロボットのデータを組み合わせると、ロボットがより賢くなる可能性があるというわけだ。「多くのデータを集めれば集めるほどロボットを賢くすることができるのではないか?」という考え方は以前からあったのだが、それが本当になりつつあるのかもしれない。
なお、5月に横浜で行われたロボティクスのトップカンファレンス「
ICRA2024 」で「RT-X」は
ベストペーパー賞を獲得 した。ただし、実際に試すとそれほどうまくは動かないとも聞く。
【次ページ】NVIDIAのヒューマノイドプロジェクト「GR00T」
関連タグ