- 会員限定
- 2023/04/04 掲載
大規模言語モデルでロボットはどう進化するのか、いい意味で「予測不可能」な未来とは
「大規模言語モデル」「基盤モデル」の衝撃
2022年11月の「ChatGPT」登場以来、「大規模言語モデル(Large Language Models、LLM)」、または「基盤モデル(Foundation Model)」が注目を集めている。「ChatGPT」は従来にない滑らかな返答を生成することで注目されたが、2023年3月に登場した「GPT-4」はさらに大幅に性能が向上。一般人も専門家も大いに興奮している状態だ。これがどういうものなのかという話はすでに多くの解説が出ているので詳細は省くが、一応、かいつまんで触れておく。「言語モデル」とは要するに「ある文章が来たときに次にどういう単語が来るか」を予測する仕組みのことだ。そして「大規模言語モデル」とはそれの大規模版だ。GPT-3は、45TBのテキストデータを使って、1750億のパラメータを学習させたという。
つまり「大規模言語モデル」とは大量のテキストデータで学習した大規模ネットワークのことである。それをさらに、少数のデータでファインチューンすることで転移学習させて特定のタスクが可能になる。だから「基盤モデル」とも呼ばれている。この言い方は2021年にスタンフォード大のグループが名づけた。GPT以外にもPaLM、GLaM、LaMDA、Gopher、Megatron-Turing NLGなどがある。
技術的なポイントは、Googleが2017年に発表した深層学習モデル「Transformer」にある。データ系列のどの部分を重視するか計算する「注意機構」を持ったアーキテクチャーであるTransformerを使うことで、従来のモデルと違って、長文を入力されても、うまい出力が出せるようになった。
基盤モデルはパラメータ数を大きくすればするほど、性能が向上する。つまり大きいモデルほど性能が高い。しかもどうやら、段違いに性能が良くなるポイントがあるらしい(詳細はNVIDIAのブログなどを参照してほしい)。これがなぜなのか、詳細はまだ研究が続けられてる段階である。
より詳しいことを知りたい方は、これらのキーワードを検索するなり、それこそ「ChatGPT」に質問してもらいたい。質問の仕方次第だが、さらさらと答えてくれる。ただし真偽の確認は自分で判断する必要がある。しかし「嘘を言いがち」という課題(AIの幻覚「ハルシネーション」と呼ばれる)も、「GPT-4」になって大幅に改善された。専門的な領域になればなるほど、違いはわかるらしい。
では、今後はどうなるのか? 日々新しい使い方が発見されているのでさっぱりわからないが、どんどん前へ進んでいることは間違いない。
基盤モデルとその活用自体は、今ではテレビのワイドショーでも取り上げられている「ChatGPT」登場のしばらく前から、ビジネス面も含めて話題になり始めていた。たとえばIBMは「これからのビジネスの中核は基盤モデルに置く」と我々メディアにも言っていた。だがここまで、一般の人も含めて広くさまざまな分野で使えるようなものになるとは、多くの人が考えていなかったのではないだろうか。開発した当事者であるOpen AIの中でも、そんな話があったそうだ。だがすでに時代は動き出した。
ロボットとの対話は格段に豊かになる?
さて、本題に入りたい。大規模言語モデルとロボットとの関係である。ロボットのタスクにも大規模言語モデルは適用可能であり、研究は始まってる。川崎重工は、記号創発ロボティクスの研究を行っている大阪大学基礎工学研究科の長井研究室と共同で、言語モデルをロボットとの対話に応用する研究を進めている。ヒューマノイドロボット「Kaleido Friends」による対話デモは、2022年夏に日本科学未来館の一般公開イベントでも公開された。「Kaleido Friends」はちょっとした立ち話のような雑談をこなした。
こういう使い方はイメージしやすい。対話するタイプのコミュニケーションロボットにおいては、その対話部分をそっくりそのままアップデートしてしまえばいい。対話の間が空いてしまうことを懸念する声もあるが、それ以上の価値がある返答ができるようになるし、その間をごまかす手段はいくらでも考えられる。身ぶりで間をつなげるロボットならなおさらだ。遠からず、あちこちで取り組みが始まるだろう。
音声対話のデータが収集されれば、より面白い会話ができるようになるかもしれない。現状のChatGPTでさえ、かなりいい加減な質問にも、こちらの意図を推定して答えてくれるようになっている。これが音声でできるようになったら、いよいよ本格的にコミュニケーションロボットの時代が来るかもしれない。興味深いことに、そもそもなぜChatGPTがうまく対話を生成できるのかよくわかってないようだ。大規模言語モデルは人工物だが、それ自体が研究の対象になっている。
「腹減ったな」でスナック菓子を持ってくるロボットが実現?
では動作はどうか。Googleは「PaLM(Pathways Language Model)」という大規模言語モデルを作っている。これを使った「PaLM-SayCan」というプロジェクトの成果も公開されている。これは自然言語による指令をロボットが聞いて、必要な仕事に変換するしくみだ。たとえば「コーラをこぼした、きれいにするもの持ってきて!」といった言葉をロボットが聞いて、コーラを拭くための布巾を持ってきたりするようなことができる。「おなか減ったなあ」というと、スナック菓子を持ってくる。つまり人間による曖昧な言語指示を、自分(ロボット)のできる作業に変換して実行する仕組みである。会話と行動のマッチングだから、「SayCan」という名前がついている。
「SayCan」は強化学習を使って、今のセンサー入力からできそうなものにスコアを付けて、最終的に何をするかを決めて実行することができる。つまり、大規模言語モデルでサービスロボット的タスクをさせるための取り組みだ。
だが今は大手IT企業受難の時代でもある。Google(親会社のアルファベット)はこの取り組みを発表後、グループ会社全体の大幅なリストラの中、実際に研究を進めていた子会社のEveryday Robotsを解散。少なくとも一時的には断念してしまったかたちだ。もっともGoogle本体のロボティクスの取り組みに統合されるとのことなので、まだ継続はしているのだろう。
その証拠の1つ、と言えるのかどうかは時期的にやや微妙だが、2023年3月には「PaLM-E」という論文を発表した。この「E」は「Embodied(身体化)」の「E」で、ロボットのセンサー、身体リソースを「PaLM」につなげることを意味する。ロボットはGoogleによる画像認識モデルの「ViT(Vision Transformer)」を使った画像入力と音声を使った指令に対応できる。ロボットはかなり適当な指示に対しても自分でプランニングして何とか動き続けることができる。PaLMにほかのモデルを付け加えてマルチモーダル化することを目指している。 【次ページ】空間の意味づけも自動でできる可能性
関連コンテンツ
PR
PR
PR