講演抄録/キーワード |
講演名 |
2012-06-19 11:30
情報理論的観点からのソフトマックス行動選択における変数設定の改良 ○岩田一貴(広島市大) IBISML2012-4 |
抄録 |
(和) |
強化学習における行動選択の政策を表す際に最もよく使われるソフトマックス行動選択に焦点を当てる.
様々な文献で提案されているような複雑な行動選択方法に比べて,ソフトマックス行動選択は実装が容易で,調整が必要なパラメータが本質的にただ一つのみで扱いやすいという利点がある.
にもかかわらず,環境に合わせてそのパラメータを適当に調整すれば,実際には十分に機能する.
そこで,本論文では,そのパラメータ調整にかかるコストを軽減させるため,最良パラメータ周辺の帯域幅が広がるようにソフトマックス行動選択の変数設定方法を改良する.
様々なタイプのタスクを用いて,その変数設定方法が最良パラメータ周辺の帯域幅を広げるのに有効であることを示す. |
(英) |
We focus on softmax selection which is the most popular description of the policy for action selection in reinforcement learning.
Compared with other sophisticated methods in the literature, it is easy to implement and simple because there is essentially only one parameter that needs to be tuned.
Moreover, it is often adequate in practice when the parameter is set appropriately for the environment.
In this paper, we improve its variable setting to extend the bandwidth around the best parameter so that we can save time and cost in the implementation and parameter-tuning.
Using various types of tasks, we show that our setting is effective in extending the bandwidth. |
キーワード |
(和) |
強化学習 / ソフトマックス行動選択 / 情報理論 / / / / / |
(英) |
reinforcement learning / softmax selection / information theory / / / / / |
文献情報 |
信学技報, vol. 112, no. 83, IBISML2012-4, pp. 23-30, 2012年6月. |
資料番号 |
IBISML2012-4 |
発行日 |
2012-06-12 (IBISML) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
査読に ついて |
本技術報告は査読を経ていない技術報告であり,推敲を加えられていずれかの場に発表されることがあります. |
PDFダウンロード |
IBISML2012-4 |