講演抄録/キーワード |
講演名 |
2017-11-10 13:00
報酬重み付き密度推定による階層強化学習 ○長 隆之(東大/理研)・杉山 将(理研/東大) IBISML2017-67 |
抄録 |
(和) |
複数のモードを持つ報酬関数に対して最適な方策を学習するための階層強化学習の手法を提案する.階層強化学習においては,複数の下層方策を学習し,与えられた条件に応じて適切な下層方策を選択する上層方策を学習することが必要になる.提案手法では,報酬重み付き密度推定を介して下層方策の数および配置を自動的に決定する.本研究では,軌道計画などのタスクに提案する階層強化学習法を適用し,その性能を示す. |
(英) |
We propose a hierarchical reinforcement learning (HRL) methods for learning the optimal policy from a multi-modal reward function. The goal of HRL is to learn a hierarchical policy where multiple lower-level policies represent different strategies and an upper-level policy selects the best lower-level policy for a given context. Our proposed method automatically determines the number and the locations of lower-level policies based on return-weighted density estimation. In this study, we demonstrate the performance of the proposed method in motion planning tasks. |
キーワード |
(和) |
階層強化学習 / 軌道計画 / / / / / / |
(英) |
Hierarchical reinforcement learning / Motion planning / / / / / / |
文献情報 |
信学技報, vol. 117, no. 293, IBISML2017-67, pp. 243-249, 2017年11月. |
資料番号 |
IBISML2017-67 |
発行日 |
2017-11-02 (IBISML) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
IBISML2017-67 |