お知らせ 研究会の開催と会場に参加される皆様へのお願い(2022年6月開催~)
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2022-01-23 10:55
強化学習における報酬志向な環境推定
高橋春輝工学院大)・深井朋樹沖縄科技大)・酒井 裕玉川大)・竹川高志工学院大NC2021-42
抄録 (和) ディープニューラルネットワークの発展によりさまざまな強化学習問題において人間を超えるパフォーマ ンスの達成が可能になってきた.しかしながら,パフォーマンス向上のトレードオフとして,説明可能性や戦略学習に要する時間の増加が実応用への課題となっている.一方,バンディット問題を応用した人に対する実験では,複雑な観測値を報酬予測に適した状態に次元削減することで,最適な行動の学習速度の向上が議論されている.そこで本研究では,複雑な観測を報酬予測が行える少ない状態に縮約することで,簡潔な状態遷移の推定を目指し,報酬志向な環境推定モデルを提案する.これにより,簡潔な状態遷移の表現による説明可能性と戦略の学習速度の向上を図る.加えて,トンプソンサンプリングを用いたモデルベースな意思決定手法も提案する.結果では,報酬志向な環境推定モデルによる状態の次元削減と戦略の学習についてシミュレーションにより議論する. 
(英) Experiments on humans using the bandit problem have shown that dimensionality reduction of complex observations to a state suitable for reward prediction can improve the speed of learning optimal behavior. Therefore, we propose reward-oriented environment inference that reduces the complicated observation to the state representation suitable for reward prediction. In addition, we also propose a model-based decision-making method using Thompson sampling. In the results, we discuss the dimensionality reduction of states and learning of strategies by a reward-oriented environment estimation model
through simulation.
キーワード (和) 変分ベイズ / 強化学習 / トンプソンサンプリング / 次元削減 / 環境推定 / / /  
(英) variational inference / reinforcement learning / thompson sampling / dimensionality reduction / environment inference / / /  
文献情報 信学技報, vol. 121, no. 338, NC2021-42, pp. 49-54, 2022年1月.
資料番号 NC2021-42 
発行日 2022-01-14 (NC) 
ISSN Print edition: ISSN 0913-5685  Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード NC2021-42

研究会情報
研究会 NLP MICT MBE NC  
開催期間 2022-01-21 - 2022-01-23 
開催地(和) オンライン開催 
開催地(英) Online 
テーマ(和) NC, ME,MICT,NLP, 一般 
テーマ(英)  
講演論文情報の詳細
申込み研究会 NC 
会議コード 2022-01-NLP-MICT-MBE-NC 
本文の言語 日本語 
タイトル(和) 強化学習における報酬志向な環境推定 
サブタイトル(和)  
タイトル(英) Reward-oriented Environment Inference on Reinforcement Learning 
サブタイトル(英)  
キーワード(1)(和/英) 変分ベイズ / variational inference  
キーワード(2)(和/英) 強化学習 / reinforcement learning  
キーワード(3)(和/英) トンプソンサンプリング / thompson sampling  
キーワード(4)(和/英) 次元削減 / dimensionality reduction  
キーワード(5)(和/英) 環境推定 / environment inference  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 高橋 春輝 / Kazuki Takahashi / タカハシ カズキ
第1著者 所属(和/英) 工学院大学 (略称: 工学院大)
Kogakuin University (略称: Kogakuin Univ.)
第2著者 氏名(和/英/ヨミ) 深井 朋樹 / Tomoki Fukai / フカイ トモキ
第2著者 所属(和/英) 沖縄科学技術大学院大学 (略称: 沖縄科技大)
Okinawa Institute of Science and Technology Graduate University (略称: OIST)
第3著者 氏名(和/英/ヨミ) 酒井 裕 / Yutaka Sakai / サカイ ユタカ
第3著者 所属(和/英) 玉川大学 (略称: 玉川大)
Tamagawa University (略称: Tamagawa Univ.)
第4著者 氏名(和/英/ヨミ) 竹川 高志 / Takashi Takekawa / タケカワ タカシ
第4著者 所属(和/英) 工学院大学 (略称: 工学院大)
Kogakuin University (略称: Kogakuin Univ.)
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2022-01-23 10:55:00 
発表時間 25分 
申込先研究会 NC 
資料番号 NC2021-42 
巻番号(vol) vol.121 
号番号(no) no.338 
ページ範囲 pp.49-54 
ページ数
発行日 2022-01-14 (NC) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会