講演抄録/キーワード |
講演名 |
2014-03-18 13:40
行動価値に集約状態の価値を利用した環境変化に柔軟なShaping強化学習 ○岡 晋之介・村越一支(豊橋技科大) NC2013-138 |
抄録 |
(和) |
Shaping強化学習は,目標行動に向けて容易な行動から複雑な行動へと誘導的にShaping報酬という強化信号を与えることで,学習の収束を早める手法である.
具体的な手法として,複数状態を一つの状態に集約することでShaping報酬をオンラインに与える手法が提案されている(Grze'{s} and Kudenko, 2010).
しかしこの手法は,試行錯誤によって偶然目標行動から遠ざかる行動を行った際に負のShaping報酬が発生してしまう問題点があり,何らかの外的要因により変化した環境における再学習に悪影響を及ぼす可能性がある.
この問題点を改善するため,本研究では行動選択機構に遷移先の集約状態の価値を追加する手法を導入する.
この改善により環境の変化する迷路問題での計算機実験において,従来手法の問題点を改善し,環境変化においても確実に学習を行うことができていることを確認した. |
(英) |
Shaping reinforcement learning is a method to speed up the learning process by providing additional shaping reward that leads an agent from simple to complicated actions toward its goals.
As a method implementing specifically, the online learning of reward shaping by aggregating plural states into one abstract state was proposed (Grze'{s} and Kudenko, 2010).
However, in their method, a negative shaping reward is provided when the agent leaves the goal.
This has a possibility to exert a bad influence on relearning process in the changed environment due to external causes.
In order to address that question, we propose a learning method to include the value of the next aggregating state to the action selection function.
We confirmed effectiveness that our method could solve the learning failure of the conventional method in the changed environment. |
キーワード |
(和) |
強化学習 / Shaping報酬 / 再学習 / 環境変化 / / / / |
(英) |
reinforcement learning / shaping reward / relearning / environmental change / / / / |
文献情報 |
信学技報, vol. 113, no. 500, NC2013-138, pp. 287-292, 2014年3月. |
資料番号 |
NC2013-138 |
発行日 |
2014-03-10 (NC) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NC2013-138 |