講演抄録/キーワード |
講演名 |
2022-03-09 14:20
ベータダイバージェンスを用いたロバスト自然方策勾配法 ○小久保燎太・福永修一(都立産技高専) IBISML2021-46 |
抄録 |
(和) |
自然方策勾配法のなかでも,逆行列を計算することなく自然方策勾配を推定できる手法として,自然TD学習がある.本研究では,ベータダイバージェンスを用いて自然TD学習を報酬の外れ値に対してロバスト化した手法を提案した.ベータダイバージェンスとは,真の分布と推定分布の近さを測る基準である.この基準の最小化により外れ値に対してロバストな推定アルゴリズムが導出される.提案手法では,自然TD学習で用いる誤差関数のベータダイバージェンスを考えている.そして,それらのベータダイバージェンスを勾配法で最小化する際に導かれる重み関数を用いている.この重み関数によって,外れ値の影響を抑えたパラメータの推定を行っている.提案手法の有効性を,1次元線形システムの制御問題と倒立振子の制御問題のシミュレーションによって示した. |
(英) |
|
キーワード |
(和) |
強化学習 / 自然方策勾配法 / ベータダイバージェンス / / / / / |
(英) |
/ / / / / / / |
文献情報 |
信学技報, vol. 121, no. 419, IBISML2021-46, pp. 53-60, 2022年3月. |
資料番号 |
IBISML2021-46 |
発行日 |
2022-03-01 (IBISML) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
IBISML2021-46 |