講演抄録/キーワード |
講演名 |
2012-07-30 11:10
強化学習におけるエントロピーを用いた空間分割方法の変更タイミングの決定 ○小森祐希・野津 亮・本多克宏・市橋秀友(阪府大) NC2012-15 |
抄録 |
(和) |
強化学習の代表的な手法であるQ学習では,連続状態空間や連続行動空間を扱う際,空間の離散化を行う必要がある.本研究では,より適した離散化を行うために,空間分割方法を学習の進度に応じて変更させた.また,自動的に適切な変更タイミングを定めるために,学習残余エントロピーを求めて指標とする手法を提案し,考察を行った. |
(英) |
We tested a single pendulum simulation and observed the influence of the several situation space segmentation patterns in reinforcement learning processes in order to propose new determination of the change timing of space segmentation. Its segmentation is performed by Segmentation and Integration method or Contraction Method. Additionally, the entropy, which was dened on action values' distributions was used to get the timing of the changing space segmentation. Simulation results were shown to demonstrate the influence and adaptability of the proposed method. |
キーワード |
(和) |
強化学習 / 連続空間の離散化 / エントロピー / / / / / |
(英) |
Reinforcement learning / Space segmentation / Entropy / / / / / |
文献情報 |
信学技報, vol. 112, no. 168, NC2012-15, pp. 9-12, 2012年7月. |
資料番号 |
NC2012-15 |
発行日 |
2012-07-23 (NC) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NC2012-15 |