ようこそゲストさん

ビジネス+ITを始める

未来の製造業を新定義するメディア

ログイン

無料登録

閉じる

トップページ
製造業種別
ロボティクス
ロボットは大規模基盤モデルでどう変わる？まだまだ「賢くなる」、最新研究の数々

会員限定
2024/05/30 掲載

ロボットは大規模基盤モデルでどう変わる？まだまだ「賢くなる」、最新研究の数々

ありがとうございます！
いいね！した記事一覧をみる

会員になると、いいね！でマイページに保存できます。

ロボティクス

|

タグをもっとみる

大規模基盤モデルを使ってロボットに世界を理解させ、汎用（はんよう）性を持たせようとする試みが盛んになってきた。目指すところは、日常言語による指示の意図を適切に理解し、初めての環境にも対応して作業が行える「汎用ロボット」の実現だ。物体認識の研究発展において大規模画像データベースの「ImageNet」が重要な役割を果たしたように、汎用ロボット実現のためにも学習用データセットを整えることが、まずは重要となる。日本国内はもとより世界各国でさまざまなプロジェクトが進められている。その概要とロボットのこれからの可能性を追ってみたい。

執筆：サイエンスライター森山和道

「Dry-AIREC」。JSTムーンショット型研究開発事業：目標3（1人に1台一生寄り添うスマートロボット）では、AIとロボットの共進化で人と共生する汎用（はんよう）ロボットの開発を目指している。これは横浜で5月に開催されたロボティクスとオートメーションの国際会議「IEEE ICRA2024」に出展されたときの様子

（写真：筆者撮影）

夢の存在「家事ロボット」が実現？

1ページ目を1分でまとめた動画

　読者の皆さまもご存じのとおり、現在のロボットはもっぱら工場や物流倉庫のなかで使われている。決まった環境で、決まった作業をプログラムどおりに実行する。

　一方フィクションの世界では昔から「家事ロボット」が夢の存在として登場している。実際問題、多くの家事が家電で行えるようになった今でも、細かい仕事が作業と作業の間に残り続けている。それらの雑用も含めて自動でこなしてほしいという願いは消えていない。だが家庭のなかでさまざまな作業をさせるためには、無限に近い組み合わせがある状況下で、あいまいな指示に対応して動ける能力が必要とされる。

　そもそも論として「お手伝いさん」のような人間サイズのロボットを家庭に迎え入れることが本当に現実的かどうかはさておき、技術として追求するための研究は今でもあちこちで進められている。ロボットと人間のインタラクション、日常を想定したシーンのなかでロボットにタスクをさせる競技大会「ロボカップ@Home」はそのための試みの1つである。

　以前は話者推定などに苦労していたが、昨今はそこに苦労することはなくなった。また状況の認識にもChatGPTなどでおなじみ大規模言語モデル（LLM）が活用されるようになり、競技で競うべき内容も変わりつつあるようだ。ただ、大規模言語モデルがあれば何でもできるという話でもなく、汎用サービスロボットへの道のりはまだ遠い。ロボカップでも、基本となる物体データや、異なるロボットに転移学習させることができる共通スキルのモデルをそろえて共有しようといった動きもあると聞く。

RoboCup 2024 @Homeの予選ビデオ

　スタンフォード大学 Vision and Learning Labなどによる「BEHAVIOR-1K」では、洗濯や片付け、テーブルセッティングなど、1000の日常的な家事活動を「身体化人工知能（Embodied Artificial Intelligence、EAI）」でこなすことを目指すプロジェクトが進行している。「OMNIGIBSON」というリアルかつ物理的なシミュレーション環境を活用する。

　「BEHAVIOR-1K」は2つのコンポーネントからなる。1つ目は8つのシーンタイプ、家やオフィス、レストランや庭など50のインタラクティブシーン、注釈付きの1900以上のオブジェクト・タイプ、9000以上のオブジェクト・モデルを含む、日常活動の定義からなるデータセットだ。

　2つ目が「OMNIGIBSON」環境である。これはデジタルツイン開発などに用いられているNVIDIAのメタバースプラットフォーム「Omniverse」をベースとして開発されたシミュレーション環境で、柔軟なマテリアルと変形可能なボディ、リアルな流体と熱エフェクトなどもサポートする。

　この環境を使って、人間本位、多様性、リアリズムを元にしたロボット学習ソリューションの研究開発を目指すという。なお「BEHAVIOR」は「Benchmark for Everyday Household Activities in Virtual, Interactive, and EcOlogical EnviRonments」の略だ。

　似たような考え方のプロジェクトは世界各国で行われている。今回はそのような試みをいくつか紹介しておきたい。どれでも良いので成功してもらいたい。

　なお、本連載では2023年4月にも「大規模言語モデルでロボットはどう進化するのか、いい意味で「予測不可能」な未来とは」でこの話題を取り上げている。今回はその続きだと思ってもらいたい。ただ、この分野の発展は本当に早いので、あくまでスナップショットの1枚だと思ってもらったほうがいいかもしれない。

編集部おすすめ記事

創業60年超えの町工場が「システム総刷新」、大失敗を経て挑んだ「6つの改革」とは

Google DeepMindのロボット工学モデル「RT-X」

　話をいったん基本的なところに戻す。現在「大規模基盤モデル」の活用が注目されている。タスクごとに個別に詳細なプログラミングを行ってロボットを動作させるのではなく、乱雑な日常空間にあるようなさまざまな作業、いわゆる汎用作業に適応させる手法としての活用だ。

RT-Xのアニメーション

　「大規模基盤モデル」とは多種多様なデータで学習させた大規模ニューラルネットワークである。基盤モデルを元に「ファインチューニング」することで、さまざまなタスクに適応させることができる。

　計算量とデータ量とパラメータ数を大規模にすることで、大規模言語モデルは飛躍的に性能を伸ばし、多様なタスクに対応できるようになった。仕組みとしては確率モデルなのだが、実際に実現できていることは驚きとしか言いようがない。

　しかも猛烈な速度で進化し続けている。OpenAIが2024年5月13日に発表した最新モデル「GPT-4o」との会話はまるで人間のようだ。リアルタイムで逐次通訳までやってくれる。学習データの偏りによるのか、日本語の発話には外国人訛（なま）りがあり、性能も英語よりも劣るようだが、OpenAIは日本にも拠点を設けているので、今後の発展に期待したい。

GPT-4oのイントロダクション

　GPT-4oの話はいったん横に置いておき、ロボットの話に戻ろう。同様に、大規模な確率モデルを使うことでロボットに周囲の環境や求められているタスク目標を認識・理解させたり、動作させるためのコードを自動生成させて、タスクを実行させたりしようという考え方がある。たとえばロボットの知覚処理に大規模モデルを使うことは容易に想像できる。

　Google DeepMindは各国の数十の大学と共同で「RT-X」というプロジェクトを提案している。「RT」はRobotics Transformerの略で、Transformerアーキテクチャーをベースとしていることを意味する。RT-Xは2つのTransformetモデルから構成される。リアルワールドのロボットから学習させたRT-1-Xと、Webとロボットのデータから自然言語に応答できるようにしたRT-2-Xというモデルだ。2つのモデルを組み合わせることで高い汎化（はんか）性能を持たせられるという。

　DeepMindは異なるロボットから収集した多様な動作や視覚データなどからなる「Open X-Embodiment」という巨大データセットを作り、あいまいな自然言語にしたがっていろいろなタスクに適用できる動作モデルを作ろうとしている。詳細はこちらのブログで解説されているが、100万以上のエピソード、500以上のスキルと15万以上のタスクを実証する22種類のロボットからデータを収集した包括的なデータセットだという。

　このデータセットを使ってRT-1-Xを訓練し、ものをつかんだり移動させたりさせる実験を行ったところ、従来のモデルよりも50％ほど成功率が高くなったとされている。RT-2-Xのほうは別のロボットの別のデータセットを使って訓練したら3倍の能力を発揮した。また、元のモデルにはなかった空間理解、指示の理解の能力を見せたという。たとえば「move apple on cloth（リンゴを布の上に）」と「move apple near cloth（リンゴを布の近くに）」という指示では、ロボットが取るべきアームの軌道は異なるが、それに対応できたというのだ。

　つまり、ほかのロボットのデータを組み合わせると、ロボットがより賢くなる可能性があるというわけだ。「多くのデータを集めれば集めるほどロボットを賢くすることができるのではないか？」という考え方は以前からあったのだが、それが本当になりつつあるのかもしれない。

　なお、5月に横浜で行われたロボティクスのトップカンファレンス「ICRA2024」で「RT-X」はベストペーパー賞を獲得した。ただし、実際に試すとそれほどうまくは動かないとも聞く。【次ページ】NVIDIAのヒューマノイドプロジェクト「GR00T」

ロボティクス

ロボットは大規模基盤モデルでどう変わる？まだまだ「賢くなる」、最新研究の数々

夢の存在「家事ロボット」が実現？

Google DeepMindのロボット工学モデル「RT-X」

食品製造の人手不足解消の次の一手は？FOOMA JAPAN 2023で見た最新ロボット活用

熟練技をロボットが再現、パナソニック「エアコン室外機外装自動分解システム」のスゴさ

「Unity」「Unreal Engine」とは？ 2大ゲームエンジンの仕組み・活用事例を徹底解説

関連コンテンツ

ゲームエンジン「Unity」がデジタルツインで台頭、川重・京セラ・ニコンが支持するワケ

いまだ「人手頼み」物流業界の深刻、これからの本当の危機をロボットは支えられるか

ロボットが人間の「能力拡張」と「瞬間移動」を可能にする時代へ。「生成AI」で身近に

花王・豊橋工場の次世代倉庫のすべて、完全自動/無人化・少量多品種対応が可能なワケ

アイリスオーヤマ自社製造「清掃ロボット」のすべて、売上1,000億円への目算

中国格安協働ロボの快進撃、「あれ見たか」業界関係者の注目集める理由

製造現場視点の「計測と制御」オムロンら提案、AI時代の人と機械の協調生産ライン

パナソニックコネクトの製造業ノウハウ活かすソフトウェア・デファインドな物流とは

自動化しないほうがリスクの時代…オートストア・オカムラ語る、製造業の未来

生成AIで「ロボット」はここまで進化した、早大尾形哲也教授が語る「2050年の世界」

無法地帯だった「横浜の町工場」が大激変、5年かけた「職場と人材」の大改革とは

現場は阿鼻叫喚「物流の2024年問題」、AIやロボットの導入が喫緊の課題であるワケ

創業60年超えの町工場が「システム総刷新」、大失敗を経て挑んだ「6つの改革」とは

デンソーが開発する「生成AIロボット」とは、トヨタ生産方式で激変する「未来の製造」

自動車メーカーの「人型ロボット」競争が過熱中、中国EV工場「9割自動化」の凄い実態

人気のタグ

ロボットは大規模基盤モデルでどう変わる？まだまだ「賢くなる」、最新研究の数々

夢の存在「家事ロボット」が実現？

Google DeepMindのロボット工学モデル 「RT-X」

食品製造の人手不足解消の次の一手は？FOOMA JAPAN 2023で見た最新ロボット活用

熟練技をロボットが再現、パナソニック「エアコン室外機外装自動分解システム」のスゴさ

「Unity」「Unreal Engine」とは？ 2大ゲームエンジンの仕組み・活用事例を徹底解説

関連コンテンツ

ゲームエンジン「Unity」がデジタルツインで台頭、川重・京セラ・ニコンが支持するワケ

いまだ「人手頼み」物流業界の深刻、これからの本当の危機をロボットは支えられるか

ロボットが人間の「能力拡張」と「瞬間移動」を可能にする時代へ。「生成AI」で身近に

花王・豊橋工場の次世代倉庫のすべて、完全自動/無人化・少量多品種対応が可能なワケ

アイリスオーヤマ自社製造「清掃ロボット」のすべて、売上1,000億円への目算

中国格安協働ロボの快進撃、「あれ見たか」業界関係者の注目集める理由

製造現場視点の「計測と制御」オムロンら提案、AI時代の人と機械の協調生産ライン

パナソニック コネクトの製造業ノウハウ活かすソフトウェア・デファインドな物流とは

自動化しないほうがリスクの時代…オートストア・オカムラ語る、製造業の未来

生成AIで「ロボット」はここまで進化した、早大 尾形哲也教授が語る「2050年の世界」

無法地帯だった「横浜の町工場」が大激変、5年かけた「職場と人材」の大改革とは

現場は阿鼻叫喚「物流の2024年問題」、AIやロボットの導入が喫緊の課題であるワケ

創業60年超えの町工場が「システム総刷新」、大失敗を経て挑んだ「6つの改革」とは

デンソーが開発する「生成AIロボット」とは、トヨタ生産方式で激変する「未来の製造」

自動車メーカーの「人型ロボット」競争が過熱中、中国EV工場「9割自動化」の凄い実態

人気のタグ

Google DeepMindのロボット工学モデル「RT-X」

パナソニックコネクトの製造業ノウハウ活かすソフトウェア・デファインドな物流とは

生成AIで「ロボット」はここまで進化した、早大尾形哲也教授が語る「2050年の世界」