お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2017-03-13 10:25
行動履歴データによる行動方策学習者の探索戦略変化の推定
内田滋穂里大羽成征石井 信京大NC2016-65
抄録 (和) 強化学習は,目的に合う方策を未知の環境との相互作用に基づく学習によって決める機械学習手法であり,ヒトを含む動物による自律的な意思決定モデルとして利用される.
動物の学習は,新奇性の高い行動(探索的行動)を通して環境の知識を蓄積したのちに,現在の知識に基づく最適な行動(搾取的行動)へと移り変わるとされる.
同様に,強化学習エージェントも,学習時において探索的行動から搾取的行動にその行動戦略を変化させる考えられる.
本研究では,行動選択の特徴を与える行動方策のハイパーパラメタに着目し,このハイパーパラメタとその変化のタイミングをエージェントの学習過程の状態・行動の履歴から推定する手法を提案する.
これにより,学習過程における方策の変化(行動戦略)を状態・行動の履歴から推定することが可能となる.
人工データを用いて実験を行ったところ, ハイパーパラメタとその変化のタイミングの推定が行えることが分かった. 
(英) Reinforcement learning (RL) is a model of learning process of animals and intelligent agents to obtain the optimal behavioral policy based on interactions with unknown environments.
Inverse reinforcement learning (IRL) is its opposite, in which the characteristics like reward function of the RL agent are estimated based on the history of the agent's behaviors.
In the uncertain environment, the RL agent needs to balance between the currently good behavioral policy (exploitation) and an exploration policy for resolving the uncertainty of the environment (exploration).
The existing IRL methods were not appropriate to identify the RL agent's characteristics when it is taking a mixed strategy performing exploitation and exploration depending on its situation.
In this study, we proposed a new IRL method that enabled dissociation of different behavioral policies but with the common reward function.
Our computer simulation showed that, our method successfully identifies not only the timing of the policy change, but also the other RL parameters like behavioral randomness and the common reward function, only from the agent's behaviors.
キーワード (和) 強化学習 / 逆強化学習 / 行動戦略 / / / / /  
(英) Reinforcement learning / Inverse reinforcement learning / Behavior strategy / / / / /  
文献情報 信学技報, vol. 116, no. 521, NC2016-65, pp. 7-12, 2017年3月.
資料番号 NC2016-65 
発行日 2017-03-06 (NC) 
ISSN Print edition: ISSN 0913-5685    Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード NC2016-65

研究会情報
研究会 MBE NC  
開催期間 2017-03-13 - 2017-03-14 
開催地(和) 機械振興会館 
開催地(英) Kikai-Shinko-Kaikan Bldg. 
テーマ(和) ME, 一般 
テーマ(英)  
講演論文情報の詳細
申込み研究会 NC 
会議コード 2017-03-MBE-NC 
本文の言語 日本語 
タイトル(和) 行動履歴データによる行動方策学習者の探索戦略変化の推定 
サブタイトル(和)  
タイトル(英) Estimation of the change of agent's behavior strategy using state-action history 
サブタイトル(英)  
キーワード(1)(和/英) 強化学習 / Reinforcement learning  
キーワード(2)(和/英) 逆強化学習 / Inverse reinforcement learning  
キーワード(3)(和/英) 行動戦略 / Behavior strategy  
キーワード(4)(和/英) /  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 内田 滋穂里 / Shihori Uchida / ウチダ シホリ
第1著者 所属(和/英) 京都大学 (略称: 京大)
Kyoto University (略称: Kyoto Univ.)
第2著者 氏名(和/英/ヨミ) 大羽 成征 / Shigeyuki Oba / オオバ シゲユキ
第2著者 所属(和/英) 京都大学 (略称: 京大)
Kyoto University (略称: Kyoto Univ.)
第3著者 氏名(和/英/ヨミ) 石井 信 / Shin Ishii / イシイ シン
第3著者 所属(和/英) 京都大学 (略称: 京大)
Kyoto University (略称: Kyoto Univ.)
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2017-03-13 10:25:00 
発表時間 25分 
申込先研究会 NC 
資料番号 NC2016-65 
巻番号(vol) vol.116 
号番号(no) no.521 
ページ範囲 pp.7-12 
ページ数
発行日 2017-03-06 (NC) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会