ガウス過程方策を用いた方策探索とロボットによる布操作タスクへの適用

背景と目的

 近年, 経験データから試行錯誤を通して行動を最適化する手法として, 強化学習が注目を浴びている. 特に, 不確実な環境下でロボットが知的かつ頑健にタスクを遂行するためには, ロボットや環境のシステムといった未知のモデルを確率モデルで表現する必要があるため, 強化学習による研究が数多く行われている. しかし, ロボットの状態は多くの場合, 連続かつ高次元であるので, 強化学習をロボットの運用に適用するのは容易ではない.

 そこで, 本研究では, 強化学習の中でも連続かつ高次元な状態を扱える, ガウス過程(GP)方策を用いた方策探索を提案する. 具体的には, 2つの手法を提案する. 1つ目に, データの効率的使用と過学習の回避を目標に, スパースガウス過程方策を用いた変分推論法を提案する(提案法1). 2つ目に, ガウス過程方策の単峰性という課題を解決するために, 重複混合ガウス過程方策を用いた方策探索を提案する(提案法2).

成果

 提案法1の有効性を確認するために, 人工衛星を月の上に静止させるシミュレーション実験を行った. 学習曲線において, 従来法(GP方策)よりも提案法1は学習率が向上した. また, 計算時間に関しても, ガウス分布の形で得られる行動の平均と分散に必要な計算時間が従来法よりも短縮した.

 次に, 提案法2の有効性を確認するために, 時刻1〜3におかれた黒壁の間(スリット)を通り抜けるシミュレーション実験を行った. この問題では各時刻に複数のスリットが設置されており, 最適行動が複数存在する多峰な問題となっている. 従来法と提案法2で比較実験を行った結果, 従来法は単峰な学習結果が得られたのに対し, 提案法は多峰な学習結果が得られた. また, 得られた方策に関しても提案法では赤と青で示すような複数の行動の予測が行われていた. 学習率に関しても, 提案法2は多峰性を考慮しているため, 従来法よりも報酬値が向上していることが確認できた.

 最後に, 提案法1を用いて, 双腕ロボットによる布展開タスクを行った. 緑のゴムで布に取り付けられた棒を, ロボットが操作することで間接的に布を操作する. 3回の実機実験の結果, 全ての学習において報酬値が向上した. また, 学習によって得られたロボットの行動より, 試行回数の増加に伴って, 布の展開操作を学習できた.