離散値入力制御のための強化学習量子化器

背景

我々がシステムを制御するとき,制御理論を用いて目的に即した制御器を設計することがしばしば行われる.しかし,従来の制御理論は連続値の入力を前提としており,制御対象への入力が離散値制約を持つ場合に有効ではない.そこで,量子化器を適切に設計して,連続値の入力を離散値に変換するという方法が考えられる.このとき,全く違う入力に変換されるため,出力に望ましくない劣化が生じてしまうが,制御対象に適合した量子化器を用いれば劣化を最小化できることが知られている.

そのような量子化器を設計する一つの手法として,最適動的量子化器が提案されている.これは,制御対象のモデル情報を陽に用いて動的量子化器のパラメータを決定するというものである.言い換えればモデルベーストな手法であるため,制御対象の正確なモデル情報が得られなければ適用が難しいという問題がある.

目的

本研究では,モデルを使用せずに,入出力データのみに着目したモデルフリーな量子化器設計手法を提案する.モデル不要である他,制御対象の線形性・非線形性を問わないといった利点が挙げられる.

提案手法

非線形プレフィルタと動的量子化器の結合系からなるシステムを提案する.動的量子化器は given とし,非線形プレフィルタを強化学習を用いて適切に設計する.このとき,下図の誤差システムを与え,上段の離散値入力システムと下段の連続値入力システムの誤差が最小化されるようにπを決定する.

成果

不正確なモデルを用いて設計された最適動的量子化器とモデルフリーな提案手法による結果をそれぞれ下図に示す.提案手法の方が連続値入力システムでの出力に対する劣化が小さく,有効性が確認できたと言える.