フィードフォワード・フィードバック方策を内包する深層強化学習

背景と目的

深層ニューラルネットワークの発展に伴い, それを関数近似器として統合した強化学習の一種「深層強化学習」が驚くべき成果を上げ始めている.
例えば,TVゲームであるArari 2600の大部分において人間と同等以上のパフォーマンスを獲得し, さらには, 最も難しいボートゲームの1つとされる囲碁において囲碁のトッププロに勝利を収める結果となり, 社会的に大きく話題になった.
また, この深層強化学習技術はロボットの制御にも活用されており, ロボットの制御器に相当する方策を人手で設計することなくロボット自身が試行錯誤しながら学習して, 例えばカメラ画像から物体の検出・認識を介することなく, ピッキングやドアを開けるといった所望の動作を直接実現している.

このような背景から, 近年問題になっている生産年齢人口の低下に対して, 人間が行ってきた作業の代替や生産性向上を目的として, 強化学習を用いたロボットの活躍が期待されている.
しかし, 深層強化学習を活用して実世界で環境のセンシングに基づいて動作するロボットを制御することは非常に困難である.
それは, 深層強化学習の方策が状態入力に基づいて行動を決定する, ある種のフィードバック(FB)制御器であることに着目すると,計測・通信などに関連する遅れやあるいは外れ値の影響を強く受けるためである.
そのため,対象とする問題やロボットのハードウェアがよりダイナミックなものとなると, フィードバック制御が間に合わずに性能を最大限に引き出せない.

そこで, 本研究では従来の深層強化学習が学習する状態入力に基づいて行動を生成するFB方策に加え, 状態入力に依存せずに行動を時間発展させていくFF方策を同時に・統一的に学習できる強化学習アルゴリズムを提案する.
従来の強化学習に状態入力に依存せずに行動を時間発展させていくフィードフォワード方策を統合する事で, 強化学習によるロボットの制御において計測・通信の遅れや外れ値に頑健かつ, ダイナミックなハードウェアや動作に対応可能にする事が本研究の目的である.

成果

FF方策及びFB方策を内包する状態遷移予測モデルと実際の方策からなる予測軌道, 実環境と最適方策からなる最適軌道との乖離度を最小化と非最適軌道との乖離度の最大化を定式化することで, FF方策とFB方策に正則化が加わり, 学習初期はFB方策を中心に軌道を改善しながら, その機能をFF方策へ転写する新しい学習則を導出した.
実機実験のため, 可変剛性機構を備えたqbmove Advacedモータを用いてヘビ型ロボットの前進行動獲得タスクを行い, 提案手法が状態依存のFB方策・行動系列依存のFF方策が共に最適な方策に改善可能なことを確認した.
以下に, 提案手法を用いたヘビ型ロボットの挙動を示す.