講演抄録/キーワード |
講演名 |
2008-03-13 15:20
選択的不感化ニューラルネットを用いた強化学習の効率化 ○森田昌彦・新保智之・蓮尾高志・山根 健(筑波大) NC2007-172 |
抄録 |
(和) |
強化学習は,状態空間が広いと学習に非常に時間がかかるという深刻な問題を抱えているが,その最大の原因は価値関数を効率的に近似する方法がないことにある.本報告では,選択的不感化ニューラルネットを用いて関数近似器を構成することによってこの問題の解決を図る.本手法を 4次元の連続状態空間をもつ台車型倒立振子の安定化制御に適用したところ,学習効率が大幅に向上すると共に制御の安定性も向上することがわかった.このことは,構成した関数近似器が高い汎化能力をもつと共に分解能の点でも優れていることを示している. |
(英) |
Existing reinforcement learning (RL) systems have a serious problem that they require an extremely long time for learning particularly when the state space is continuous and high dimensional.To overcome this problem, we propose a method of using a selective desensitization neural network (SDNN) for approximating the value function. We applied this method to stabilizing control of a cart-type inverted pendulum and found that the efficiency of learning and the stability of control were greatly improved. This result indicates that the SDNN function approximator has high generalization ability as well as good resolution of approximation. |
キーワード |
(和) |
非線形関数近似 / 選択的不感化 / Q学習 / 台車型倒立振子 / / / / |
(英) |
nonlinear function approximation / selective desensitization / Q-learning / cart-type inverted pendulum / / / / |
文献情報 |
信学技報, vol. 107, no. 542, NC2007-172, pp. 355-359, 2008年3月. |
資料番号 |
NC2007-172 |
発行日 |
2008-03-05 (NC) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NC2007-172 |