内部状態を用いた強化学習によるマルチエージェント系における協調行動の獲得

谷口,雄基; 森,健; 石井,信

ご案内入会して研究会活動をもっとお得に！研究会参加費・年間登録費が会員価格になります。
お知らせ【重要】研究会参加費の支払いおよび原稿アップロード手続きの変更に関するご案内

電子情報通信学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
[ログイン]
技報アーカイブ

トップに戻る

前のページに戻る

[Japanese] / [English]

講演抄録／キーワード
講演名		2007-06-15 09:25 内部状態を用いた強化学習によるマルチエージェント系における協調行動の獲得 ○谷口雄基・森　健・石井　信（奈良先端大） NC2007-15
抄録	（和）	本報告では, 内部状態を用いた強化学習法により, 部分観測環境のもとでマルチエージェントによる協調行動が効率良く実現できることを実験により示す. ここでは, マルコフ性を持つ内部状態を方策の入力変数として導入し, その遷移確率を方策勾配法により学習する. 各エージェントは他のエージェントと環境のダイナミクスの特徴を内部状態遷移モデルとして抽出し, そのモデルを用いることで, 最適な協調行動をとることができるようになる. コンピュータシミュレーションにより, 各エージェントが適切な内部状態モデルを学習し, 最適な方策を学習できることを示す. また, 内部状態を用いる手法が, 観測を記憶するためのメモリを用いた手法より優れていることを示す.
	（英）	In this article, we apply a policy gradient-based reinforcement learning to allowing multiple agents to perform cooperative actions in a partially observable environment. We introduce an auxiliary state variable, an internal state, whose stochastic process is Markov, for extracting important features of multi-agent's dynamics. Computer simulations show that every agent can identify an appropriate internal state model and acquire a good policy; this approach is shown to be more effective than a traditional memory-based method.
キーワード	（和）	部分観測環境 / 内部状態 / 方策勾配法 / マルチエージェントシステム / 協調行動 / / /
	（英）	Partially observable environments / Internal state / Policy gradient method / Multi-agent system / Cooperative action / / /
文献情報		信学技報, vol. 107, no. 92, NC2007-15, pp. 41-45, 2007年6月.
資料番号		NC2007-15
発行日		2007-06-07 (NC)
ISSN		Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380
著作権について		技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します．(許諾番号：10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード		NC2007-15

研究会情報
研究会	NC
開催期間	2007-06-14 - 2007-06-15
開催地（和）	沖縄科学技術研究基盤整備機構
開催地（英）	OIST Seaside House
テーマ（和）	機械学習によるバイオデータマインニング，一般
テーマ（英）
講演論文情報の詳細
申込み研究会	NC
会議コード	2007-06-NC
本文の言語	日本語
タイトル（和）	内部状態を用いた強化学習によるマルチエージェント系における協調行動の獲得
サブタイトル（和）
タイトル（英）	Reinforcement Learning for Cooperative Actions in a Partially Observable Multi-Agent System
サブタイトル（英）
キーワード(1)（和/英）	部分観測環境 / Partially observable environments
キーワード(2)（和/英）	内部状態 / Internal state
キーワード(3)（和/英）	方策勾配法 / Policy gradient method
キーワード(4)（和/英）	マルチエージェントシステム / Multi-agent system
キーワード(5)（和/英）	協調行動 / Cooperative action
キーワード(6)（和/英）	/
キーワード(7)（和/英）	/
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	谷口雄基 / Yuki Taniguchi / タニグチユウキ
第1著者所属（和/英）	奈良先端科学技術大学院大学 (略称：奈良先端大) Nara Institute of Science and Technology (略称： NAIST)
第2著者氏名（和/英/ヨミ）	森健 / Takeshi Mori / モリタケシ
第2著者所属（和/英）	奈良先端科学技術大学院大学 (略称：奈良先端大) Nara Institute of Science and Technology (略称： NAIST)
第3著者氏名（和/英/ヨミ）	石井信 / Shin Ishii / イシイシン
第3著者所属（和/英）	奈良先端科学技術大学院大学 (略称：奈良先端大) Nara Institute of Science and Technology (略称： NAIST)
第4著者氏名（和/英/ヨミ）	/ /
第4著者所属（和/英）	(略称： ) (略称： )
第5著者氏名（和/英/ヨミ）	/ /
第5著者所属（和/英）	(略称： ) (略称： )
第6著者氏名（和/英/ヨミ）	/ /
第6著者所属（和/英）	(略称： ) (略称： )
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
第21著者氏名（和/英/ヨミ）	/ /
第21著者所属（和/英）	(略称： ) (略称： )
第22著者氏名（和/英/ヨミ）	/ /
第22著者所属（和/英）	(略称： ) (略称： )
第23著者氏名（和/英/ヨミ）	/ /
第23著者所属（和/英）	(略称： ) (略称： )
第24著者氏名（和/英/ヨミ）	/ /
第24著者所属（和/英）	(略称： ) (略称： )
第25著者氏名（和/英/ヨミ）	/ /
第25著者所属（和/英）	(略称： ) (略称： )
第26著者氏名（和/英/ヨミ）	/ /
第26著者所属（和/英）	(略称： ) (略称： )
第27著者氏名（和/英/ヨミ）	/ /
第27著者所属（和/英）	(略称： ) (略称： )
第28著者氏名（和/英/ヨミ）	/ /
第28著者所属（和/英）	(略称： ) (略称： )
第29著者氏名（和/英/ヨミ）	/ /
第29著者所属（和/英）	(略称： ) (略称： )
第30著者氏名（和/英/ヨミ）	/ /
第30著者所属（和/英）	(略称： ) (略称： )
第31著者氏名（和/英/ヨミ）	/ /
第31著者所属（和/英）	(略称： ) (略称： )
第32著者氏名（和/英/ヨミ）	/ /
第32著者所属（和/英）	(略称： ) (略称： )
第33著者氏名（和/英/ヨミ）	/ /
第33著者所属（和/英）	(略称： ) (略称： )
第34著者氏名（和/英/ヨミ）	/ /
第34著者所属（和/英）	(略称： ) (略称： )
第35著者氏名（和/英/ヨミ）	/ /
第35著者所属（和/英）	(略称： ) (略称： )
第36著者氏名（和/英/ヨミ）	/ /
第36著者所属（和/英）	(略称： ) (略称： )
講演者	第1著者
発表日時	2007-06-15 09:25:00
発表時間	25分
申込先研究会	NC
資料番号	NC2007-15
巻番号（vol）	vol.107
号番号（no）	no.92
ページ範囲	pp.41-45
ページ数	5
発行日	2007-06-07 (NC)

[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]

IEICE / 電子情報通信学会