脳の回路モジュールはなぜうまくつながることができるのか--沖縄科技大銅谷賢治教授

第3回全脳アーキテクチャ・シンポジウム（2）

ありがとうございます！
いいね！した記事一覧をみる

会員になると、いいね！でマイページに保存できます。

AI・生成AI

|

タグをもっとみる

山川氏のセッションのあと、沖縄科学技術大学院大学教授銅谷賢治氏が「脳の回路モジュールは、なぜうまくつながるのか？」をテーマに、脳科学と人工知能の関係について語った。銅谷氏によれば、「人間のような知能を創り出すために“学習の仕方を学習すること”や、物理世界や社会のモデルを学習しシミュレーションを行うことがチャレンジになる」という。

執筆：フリーライター井上猛雄

脳機能におけるモデルフリー／モデルベースの意思決定の研究とロボットの実験

　これまで脳科学と人工知能の研究は、互いに触発しながら進展してきた。最近では、DeepMindの研究者らが「神経科学が触発する人工知能」という論文を脳科学の専門誌Neuronに投稿するなど話題を呼んでいる。

「人間のような知能を創り出すために“学習の仕方を学習すること”や、物理世界や社会のモデルを学習しシミュレーションを行うことがチャレンジになる。我々も以前から脳でのモデルフリー／モデルベースの意思決定について研究している」（銅谷氏）

　モデルフリーの意思決定とは、経験から学び、行動価値を記憶し、直感的・反射的な行動を選択するものだ。処理は単純だが、かなり反復経験が必要となる。

　一方、モデルベースの意思決定は、行動予測のモデルを内部に持ち、やってみる前に考える脳内シミュレーションで、先読みして行動を選択する。新しい目標設定に柔軟に適応できるが、処理は複雑だ。

　モデルベースの内部モデルの重要性は、以前から強化学習の分野で指摘されている。銅谷氏はモデルベース強化学習の実験として、スマートフォンを搭載した倒立振子ロボットの例を示した。

モデルベース強化学習による倒立振子ロボットの実験。ロボットをバランスさせるために、動かしながらデータを取って内部モデルを獲得し、シミュレーションで制御を改善

　最初はランダムに動きながら、車輪の回転コマンドにボディーがどう応答するかのデータを取り内部モデルを獲得する。内部モデルを使ったシミュレーションで制御則を改善し、それをもとに制御を行い、データを取るという試行を繰り返すると、数回の試行で起き上がってバランスを取ることが可能になる。

「内部モデルは、行動から自分の身体や環境の状態変化を予測するモデルで、これを獲得すれば脳内シミュレーションをもとに行動することが可能になる。過去の状態と行動から現状を推定したり、現状から想定した行動結果を予測したり（モデルベース意思決定）、想定した任意の状態から行動の結果や原因を予測（思考、推論など）が行える。これらは人間の高度な認知行動機構の理解に重要なコンポーネントになるのではないかと思って研究している」（銅谷氏）

脳は領域ごとにつながり、領域の組み合わせによりタスクを処理する

　さて、このような脳内シミュレーションやモデルベース意思決定は脳のどんな仕組みで実現されているのか。哺乳類の脳は、小脳、大脳基底核、大脳皮質が大きな割合を占める。これらは固有の種類の学習アルゴリズムのために特化した回路なのではないか、と銅谷氏は考えている。

脳の各器官ごとの学習アルゴリズムによる機能分化。小脳は入出力関係の「教師あり学習」に、大脳基底核は報酬を予測する「強化学習」に、大脳皮質は状態表現の学「教師なし学習」に特化

「小脳は目標出力を予測する“教師あり学習”に特化した回路で、自分の身体とか外界の内部モデルを獲得するために有効だ。大脳基底核は、黒質からのドーパミン性信号による“報酬予測に基づく強化学習”に特化している。大脳皮質は、特定の出力を指定する学習信号はなくても、入力の統計的な構造を捉える状態表現の“教師なし学習”に使われていると考えられる」（銅谷氏）

　この仮定では、モデルフリーの行動選択であれば、大脳皮質の感覚表現と運動表現を、大脳基底核にある行動の価値関数でつなげれば、行動を選択できると考えられる。

　一方、モデルベースはもっと複雑だ。たとえば小脳で次の状態を予測する内部モデルが獲得されていれば、候補となる行動を大脳皮質に作業記憶として保持しておき、その結果得られるべき状態を小脳の内部モデルで予測し、その良し悪しを大脳基底核の価値関数で評価して、その評価が良ければ実行に移し、良くなければ別の候補を考える、という形で意思決定や行動選択が取れるだろう。