見かけ上の誤差に頑健な方策転移学習

背景と目的

近年,視覚情報と行動の規則である方策の対応を学ぶ強化学習が注目を集めている.
実環境での学習は高コストなため,シミュレーションで学習した方策を実環境に転移したい.
しかし,シミュレーションと実環境間の見かけ上の誤差により,end-to-endな方策を実環境に転移することは難しい.

そこで本研究では,シミュレーションと実環境の見かけ上の誤差と方策の性能低下に頑健な特徴量を抽出し,
抽出された特徴量でシミュレーションで学習を行うことで,実環境に転移可能な方策を学習する手法を提案した.

成果

本研究では,シミュレーションで学習した方策を実環境に転移して,提案法の有効性の検証を行った.
実験では,ロボットの手先を経由地点を通過させ目標地点まで運ぶタスクを行った.
以下の図が方策を学習したシミュレーション環境と方策を転移した実環境である.

以下の図は実験結果を示している.
直接転移や主成分分析を用いた転移ではタスクは成功しなかったが,提案法を用いることで,
経由地点を通過し目標地点まで手先を運ぶことが出来た.