熟練者が示唆する安全領域を活用した安全かつ高効率な模倣学習

背景と目的

模倣学習は熟練者の振る舞いをエージェントに模倣させることで方策を学習させることができ、正確かつ効率的なタスクの学習が可能である。しかし、一般的に模倣学習では計測が困難な熟練者の行動情報を必要とするため、適用可能なタスクは限定されてしまう。より幅広いタスクに模倣学習を適用するためには状態情報のみからの模倣学習(Learning from Observation: LfO)が必要となるが、 LfOにおいては行動推定に必要なダイナミクスモデルの構築などのために環境との作用を必要とするため安全性を保証できない。

本研究ではLfOにおいてロボットが環境と相互作用する際に起こりうる危険な状態への遷移を防ぐ機構を統合し,安全かつ高効率な探索を可能とする模倣学習の実現を目指した。具体的には熟練者の状態遷移情報には危険な状態への遷移は含まれていないことに注目し、任意の事前分布に従う潜在空間を構築可能なVAEにより熟練者の経験した状態空間を形成することで、環境との作用時にロボットの直面している状態が熟練者が未経験なものかどうかを判定する外れ値検出器を構築し、LfOに統合した。これにより、安全な領域のみの探索を行うことで安全性を保証し,かつ熟練者の経験した状態空間を重点的に探索することで効率的な学習を目指した。

成果

LfOの一種であるBehavioral cloning from observation(BCO)に外れ値検出器を統合し、熟練者が経験した安全な状態空間のみを探索させることで安全かつ効率的な模倣学習を提案した。
また、VAEの最適化においてモデルの出力精度と正則化のトレードオフの問題により生じる正常データ空間の構築の困難性をFlowモデルを用いて解消し、外れ値検出の精度を向上可能であることを示した。
また、逆動力学モデルを用いたBCOにおいて、方策学習の教師信号となる熟練者の行動を逆動力学モデルが予測不可能な状態空間を外れ値として検出する外れ値検出機構を追加し、検出結果に基づいてエージェントの方策学習の方針を決定することで方策の性能が向上することを示した。
以下に提案手法の概念図と、提案手法を用いて学習した文字書きロボットの様子を示す。