- 会員限定
- 2017/08/28 掲載
PFN 奥田遼介氏が解説、ディープラーニングだけでなく「強化学習」も活用する理由
教育用ロボットキットを活用してAIを学ぶ
学生時代にETロボコンで培ったノウハウを、現在の仕事でも活用しているという奥田氏。かつて開発したETロボコン用の自動パラメータ装置は、競技で使うライントレース用の倒立振子学習ロボットを釣り上げ、うまく走行できるようにパラメータをリトライで自動調節した。
「ロボットが倒れたら、釣り上げて、倒れないで上手く走れるようになるまで延々とパラメータを調整する。そのために、プログラムのリモート書き換え機能も実装している。PCからBluetoothでパラメータをロボットに転送する専用スクリプトも書いた」(奥田氏)
ご存じの方も多いだろうが、同氏が在籍するPFNは、NTT、ファナック、トヨタ自動車も出資するAIベンチャーの雄だ。製造業やヘルスケア、自動車などの産業分野に機械学習技術を適用し、実データを用いた共同R&Dプロジェクトをいくつも立ち上げている。
ディープラーニングだけでなく、強化学習も必要になる理由
まず機械学習は、目標とする問題設定に対して、実データ(教師データ)を使って繰り返し学習させることで賢くなるというものだ。たとえば、手書き文字データを入力して機械学習にかけると、その文字を精度よく認識できるようになる。一方の強化学習は、試行錯誤を通じ、環境に適した制御を獲得する。話題の深層学習(ディープラーニング)は、前出の機械学習手法のひとつであり、近年になって大きな進展が見られる分野だ。
「ディープラーニングによって画像認識率が向上し、現在では3.56%までエラー率が下がっている。同様のタスクを人間が行うと5.1%のエラーになる。つまり現在は、機械学習のほうが人間よりも画像認識の精度が高くなっている。ディープラーニングでは、100万枚の画像をデータセットとして使える。膨大な量のデータを学習させることで、人よりも精度が劇的に良くなった。ただし、画像データに対して、それが何であるかということを人間がタグ付けをしているため、その準備はかなり大変だ」(奥田氏)
たとえばロボットで動くデモをつくろうとする際には、適当なデータセットが見つからないという問題もあった。そこで、これらの課題を解決するために利用されるのが強化学習フレームワークだ。
エージェント(ロボット)に周囲情報を与え、スムーズに動けば(良い結果なら)正の報酬を、逆に何かに衝突したら(悪い結果なら)負の報酬を与える。ある状態のときに、どんな行動を取れば正解なのかを、報酬を手がかりに学習させるわけだ。こうすればデータがない環境からも、いろいろな問題に取り組んで正解を出せるようになる。
強化学習では、前処理したデータをディープラーニングやSVM(サポートベクターマシン)などの学習処理に入力し、さまざまなサービスに反映させる形だ。これがエージェントの行動となる。たとえば、ロボットやゲームAI、自動運転車の動きであったりする。それらの行動から、またデータが生み出され、多くのデータ収集し、学習させるという一連のループを回せるようになる。
【次ページ】ロボットカーの仕組みとは? どう制御しているのか
関連コンテンツ
PR
PR
PR