情報理論的観点からのソフトマックス行動選択における変数設定の改良

岩田,一貴

お知らせ 2023年度・2024年度学生員会費割引キャンペーン実施中です
お知らせ技術研究報告と和文論文誌Ｃの同時投稿施策(掲載料1割引き)について
お知らせ電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について

電子情報通信学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
[ログイン]
技報アーカイブ

トップに戻る

前のページに戻る

[Japanese] / [English]

講演抄録／キーワード
講演名		2012-06-19 11:30 情報理論的観点からのソフトマックス行動選択における変数設定の改良 ○岩田一貴（広島市大） IBISML2012-4
抄録	（和）	強化学習における行動選択の政策を表す際に最もよく使われるソフトマックス行動選択に焦点を当てる．様々な文献で提案されているような複雑な行動選択方法に比べて，ソフトマックス行動選択は実装が容易で，調整が必要なパラメータが本質的にただ一つのみで扱いやすいという利点がある．にもかかわらず，環境に合わせてそのパラメータを適当に調整すれば，実際には十分に機能する．そこで，本論文では，そのパラメータ調整にかかるコストを軽減させるため，最良パラメータ周辺の帯域幅が広がるようにソフトマックス行動選択の変数設定方法を改良する．様々なタイプのタスクを用いて，その変数設定方法が最良パラメータ周辺の帯域幅を広げるのに有効であることを示す．
	（英）	We focus on softmax selection which is the most popular description of the policy for action selection in reinforcement learning. Compared with other sophisticated methods in the literature, it is easy to implement and simple because there is essentially only one parameter that needs to be tuned. Moreover, it is often adequate in practice when the parameter is set appropriately for the environment. In this paper, we improve its variable setting to extend the bandwidth around the best parameter so that we can save time and cost in the implementation and parameter-tuning. Using various types of tasks, we show that our setting is effective in extending the bandwidth.
キーワード	（和）	強化学習 / ソフトマックス行動選択 / 情報理論 / / / / /
	（英）	reinforcement learning / softmax selection / information theory / / / / /
文献情報		信学技報, vol. 112, no. 83, IBISML2012-4, pp. 23-30, 2012年6月.
資料番号		IBISML2012-4
発行日		2012-06-12 (IBISML)
ISSN		Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380
著作権について		技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します．(許諾番号：10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
査読について		本技術報告は査読を経ていない技術報告であり，推敲を加えられていずれかの場に発表されることがあります．
PDFダウンロード		IBISML2012-4

研究会情報
研究会	IBISML
開催期間	2012-06-19 - 2012-06-20
開催地（和）	京都キャンパスプラザ
開催地（英）	Campus plaza Kyoto
テーマ（和）	機械学習一般とその応用
テーマ（英）	General topics on machine learning and its application
講演論文情報の詳細
申込み研究会	IBISML
会議コード	2012-06-IBISML
本文の言語	英語（日本語タイトルあり）
タイトル（和）	情報理論的観点からのソフトマックス行動選択における変数設定の改良
サブタイトル（和）
タイトル（英）	Improving the Variable Setting of Softmax Selection From an Information-Theoretic Viewpoint
サブタイトル（英）
キーワード(1)（和/英）	強化学習 / reinforcement learning
キーワード(2)（和/英）	ソフトマックス行動選択 / softmax selection
キーワード(3)（和/英）	情報理論 / information theory
キーワード(4)（和/英）	/
キーワード(5)（和/英）	/
キーワード(6)（和/英）	/
キーワード(7)（和/英）	/
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	岩田一貴 / Kazunori Iwata / イワタカズノリ
第1著者所属（和/英）	広島市立大学 (略称：広島市大) Hiroshima City University (略称： Hiroshima City Univ.)
第2著者氏名（和/英/ヨミ）	/ /
第2著者所属（和/英）	(略称： ) (略称： )
第3著者氏名（和/英/ヨミ）	/ /
第3著者所属（和/英）	(略称： ) (略称： )
第4著者氏名（和/英/ヨミ）	/ /
第4著者所属（和/英）	(略称： ) (略称： )
第5著者氏名（和/英/ヨミ）	/ /
第5著者所属（和/英）	(略称： ) (略称： )
第6著者氏名（和/英/ヨミ）	/ /
第6著者所属（和/英）	(略称： ) (略称： )
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
講演者	第1著者
発表日時	2012-06-19 11:30:00
発表時間	30分
申込先研究会	IBISML
資料番号	IBISML2012-4
巻番号（vol）	vol.112
号番号（no）	no.83
ページ範囲	pp.23-30
ページ数	8
発行日	2012-06-12 (IBISML)

[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]

IEICE / 電子情報通信学会