講演抄録/キーワード |
講演名 |
2008-11-06 14:15
高次元行動空間における強化学習 ~ 主成分分析による行動空間圧縮 ~ ○佐藤仁樹(公立はこだて未来大) NLP2008-64 |
抄録 |
(和) |
予備制御器から得られた行動の主成分分析に基づき,高次元行動空間を圧縮する方法を提案する.まず,適当な予備制御器を用いて環境の行動空間における行動を決定する.次に,この行動に対して主成分分析を行う.環境の行動空間は,主成分分析により得られた主軸行列を用いて圧縮される.そこで,強化学習を用いた主制御器により,圧縮された行動空間における行動を決定し,主軸行列を用いて環境の行動空間に写像する.これにより,環境の行動空間より低次元な行動空間で強化学習を実行できる.本手法をダイナミックルーチング問題に適用し,本手法の有効性を示す. |
(英) |
Adaptive basis construction, state space compression, and action space compression are used to extend reinforcement learning for controlling an environment with high-dimensional state and action spaces. First, an appropriate pre-controller determines actions in the original action space, and the statistics of the actions are measured. Next, the principal axis matrix of the actions is computed using principal component analysis. The original action space can be compressed using the principal axis matrix. The original state space is also compressed using state space compression based on reward-weighted principal component analysis, and an orthonormal basis is adaptively constructed using adaptive basis construction based on the activity-oriented index allocation. Finally, a main controller based on reinforcement learning determines an action in the compressed action space, and an action in the original action space is computed from the action in the compressed action space using the principal axis matrix. Computer simulation of routing problems showed that the reinforcement learning worked well and that the routing algorithm using it was robust. |
キーワード |
(和) |
圧縮 / 関数近似 / 多変量解析 / 強化学習 / ロバストルーチング / / / |
(英) |
compression / function approximation / multivariate analysis / reinforcement learning / robust routing / / / |
文献情報 |
信学技報, vol. 108, no. 276, NLP2008-64, pp. 37-42, 2008年11月. |
資料番号 |
NLP2008-64 |
発行日 |
2008-10-30 (NLP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NLP2008-64 |