講演抄録/キーワード |
講演名 |
2007-06-15 09:25
内部状態を用いた強化学習によるマルチエージェント系における協調行動の獲得 ○谷口雄基・森 健・石井 信(奈良先端大) NC2007-15 |
抄録 |
(和) |
本報告では, 内部状態を用いた強化学習法により, 部分観測環境のもとでマルチエージェントによる協調行動が効率良く実現できることを実験により示す. ここでは, マルコフ性を持つ内部状態を方策の入力変数として導入し, その遷移確率を方策勾配法により学習する. 各エージェントは他のエージェントと環境のダイナミクスの特徴を内部状態遷移モデルとして抽出し, そのモデルを用いることで, 最適な協調行動をとることができるようになる. コンピュータシミュレーションにより, 各エージェントが適切な内部状態モデルを学習し, 最適な方策を学習できることを示す. また, 内部状態を用いる手法が, 観測を記憶するためのメモリを用いた手法より優れていることを示す. |
(英) |
In this article, we apply a policy gradient-based reinforcement learning to allowing multiple agents to perform cooperative actions in a partially observable environment. We introduce an auxiliary state variable, an internal state, whose stochastic process is Markov, for extracting important features of multi-agent's dynamics. Computer simulations show that every agent can identify an appropriate internal state model and acquire a good policy; this approach is shown to be more effective than a traditional memory-based method. |
キーワード |
(和) |
部分観測環境 / 内部状態 / 方策勾配法 / マルチエージェントシステム / 協調行動 / / / |
(英) |
Partially observable environments / Internal state / Policy gradient method / Multi-agent system / Cooperative action / / / |
文献情報 |
信学技報, vol. 107, no. 92, NC2007-15, pp. 41-45, 2007年6月. |
資料番号 |
NC2007-15 |
発行日 |
2007-06-07 (NC) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NC2007-15 |