お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2012-06-19 11:30
情報理論的観点からのソフトマックス行動選択における変数設定の改良
岩田一貴広島市大IBISML2012-4
抄録 (和) 強化学習における行動選択の政策を表す際に最もよく使われるソフトマックス行動選択に焦点を当てる.
様々な文献で提案されているような複雑な行動選択方法に比べて,ソフトマックス行動選択は実装が容易で,調整が必要なパラメータが本質的にただ一つのみで扱いやすいという利点がある.
にもかかわらず,環境に合わせてそのパラメータを適当に調整すれば,実際には十分に機能する.
そこで,本論文では,そのパラメータ調整にかかるコストを軽減させるため,最良パラメータ周辺の帯域幅が広がるようにソフトマックス行動選択の変数設定方法を改良する.
様々なタイプのタスクを用いて,その変数設定方法が最良パラメータ周辺の帯域幅を広げるのに有効であることを示す. 
(英) We focus on softmax selection which is the most popular description of the policy for action selection in reinforcement learning.
Compared with other sophisticated methods in the literature, it is easy to implement and simple because there is essentially only one parameter that needs to be tuned.
Moreover, it is often adequate in practice when the parameter is set appropriately for the environment.
In this paper, we improve its variable setting to extend the bandwidth around the best parameter so that we can save time and cost in the implementation and parameter-tuning.
Using various types of tasks, we show that our setting is effective in extending the bandwidth.
キーワード (和) 強化学習 / ソフトマックス行動選択 / 情報理論 / / / / /  
(英) reinforcement learning / softmax selection / information theory / / / / /  
文献情報 信学技報, vol. 112, no. 83, IBISML2012-4, pp. 23-30, 2012年6月.
資料番号 IBISML2012-4 
発行日 2012-06-12 (IBISML) 
ISSN Print edition: ISSN 0913-5685    Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
査読に
ついて
本技術報告は査読を経ていない技術報告であり,推敲を加えられていずれかの場に発表されることがあります.
PDFダウンロード IBISML2012-4

研究会情報
研究会 IBISML  
開催期間 2012-06-19 - 2012-06-20 
開催地(和) 京都キャンパスプラザ 
開催地(英) Campus plaza Kyoto 
テーマ(和) 機械学習一般とその応用 
テーマ(英) General topics on machine learning and its application 
講演論文情報の詳細
申込み研究会 IBISML 
会議コード 2012-06-IBISML 
本文の言語 英語(日本語タイトルあり) 
タイトル(和) 情報理論的観点からのソフトマックス行動選択における変数設定の改良 
サブタイトル(和)  
タイトル(英) Improving the Variable Setting of Softmax Selection From an Information-Theoretic Viewpoint 
サブタイトル(英)  
キーワード(1)(和/英) 強化学習 / reinforcement learning  
キーワード(2)(和/英) ソフトマックス行動選択 / softmax selection  
キーワード(3)(和/英) 情報理論 / information theory  
キーワード(4)(和/英) /  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 岩田 一貴 / Kazunori Iwata / イワタ カズノリ
第1著者 所属(和/英) 広島市立大学 (略称: 広島市大)
Hiroshima City University (略称: Hiroshima City Univ.)
第2著者 氏名(和/英/ヨミ) / /
第2著者 所属(和/英) (略称: )
(略称: )
第3著者 氏名(和/英/ヨミ) / /
第3著者 所属(和/英) (略称: )
(略称: )
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2012-06-19 11:30:00 
発表時間 30分 
申込先研究会 IBISML 
資料番号 IBISML2012-4 
巻番号(vol) vol.112 
号番号(no) no.83 
ページ範囲 pp.23-30 
ページ数
発行日 2012-06-12 (IBISML) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会