お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2014-03-18 13:40
行動価値に集約状態の価値を利用した環境変化に柔軟なShaping強化学習
岡 晋之介村越一支豊橋技科大NC2013-138
抄録 (和) Shaping強化学習は,目標行動に向けて容易な行動から複雑な行動へと誘導的にShaping報酬という強化信号を与えることで,学習の収束を早める手法である.
具体的な手法として,複数状態を一つの状態に集約することでShaping報酬をオンラインに与える手法が提案されている(Grze'{s} and Kudenko, 2010).
しかしこの手法は,試行錯誤によって偶然目標行動から遠ざかる行動を行った際に負のShaping報酬が発生してしまう問題点があり,何らかの外的要因により変化した環境における再学習に悪影響を及ぼす可能性がある.
この問題点を改善するため,本研究では行動選択機構に遷移先の集約状態の価値を追加する手法を導入する.
この改善により環境の変化する迷路問題での計算機実験において,従来手法の問題点を改善し,環境変化においても確実に学習を行うことができていることを確認した. 
(英) Shaping reinforcement learning is a method to speed up the learning process by providing additional shaping reward that leads an agent from simple to complicated actions toward its goals.
As a method implementing specifically, the online learning of reward shaping by aggregating plural states into one abstract state was proposed (Grze'{s} and Kudenko, 2010).
However, in their method, a negative shaping reward is provided when the agent leaves the goal.
This has a possibility to exert a bad influence on relearning process in the changed environment due to external causes.
In order to address that question, we propose a learning method to include the value of the next aggregating state to the action selection function.
We confirmed effectiveness that our method could solve the learning failure of the conventional method in the changed environment.
キーワード (和) 強化学習 / Shaping報酬 / 再学習 / 環境変化 / / / /  
(英) reinforcement learning / shaping reward / relearning / environmental change / / / /  
文献情報 信学技報, vol. 113, no. 500, NC2013-138, pp. 287-292, 2014年3月.
資料番号 NC2013-138 
発行日 2014-03-10 (NC) 
ISSN Print edition: ISSN 0913-5685    Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード NC2013-138

研究会情報
研究会 NC MBE  
開催期間 2014-03-17 - 2014-03-18 
開催地(和) 玉川大学 
開催地(英) Tamagawa University 
テーマ(和) ME,一般 
テーマ(英)  
講演論文情報の詳細
申込み研究会 NC 
会議コード 2014-03-NC-MBE 
本文の言語 日本語 
タイトル(和) 行動価値に集約状態の価値を利用した環境変化に柔軟なShaping強化学習 
サブタイトル(和)  
タイトル(英) Flexible shaping reinforcement learning for environmental changing by using value of aggregating state to state-action value 
サブタイトル(英)  
キーワード(1)(和/英) 強化学習 / reinforcement learning  
キーワード(2)(和/英) Shaping報酬 / shaping reward  
キーワード(3)(和/英) 再学習 / relearning  
キーワード(4)(和/英) 環境変化 / environmental change  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 岡 晋之介 / Shinnosuke Oka / オカ シンノスケ
第1著者 所属(和/英) 豊橋技術科学大学 (略称: 豊橋技科大)
Toyohashi University of Technology (略称: Toyohashi Univ. Tech.)
第2著者 氏名(和/英/ヨミ) 村越 一支 / Kazushi Murakoshi / ムラコシ カズシ
第2著者 所属(和/英) 豊橋技術科学大学 (略称: 豊橋技科大)
Toyohashi University of Technology (略称: Toyohashi Univ. Tech.)
第3著者 氏名(和/英/ヨミ) / /
第3著者 所属(和/英) (略称: )
(略称: )
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2014-03-18 13:40:00 
発表時間 20分 
申込先研究会 NC 
資料番号 NC2013-138 
巻番号(vol) vol.113 
号番号(no) no.500 
ページ範囲 pp.287-292 
ページ数
発行日 2014-03-10 (NC) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会