お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2007-06-15 09:25
内部状態を用いた強化学習によるマルチエージェント系における協調行動の獲得
谷口雄基森 健石井 信奈良先端大NC2007-15
抄録 (和) 本報告では, 内部状態を用いた強化学習法により, 部分観測環境のもとでマルチエージェントによる協調行動が効率良く実現できることを実験により示す. ここでは, マルコフ性を持つ内部状態を方策の入力変数として導入し, その遷移確率を方策勾配法により学習する. 各エージェントは他のエージェントと環境のダイナミクスの特徴を内部状態遷移モデルとして抽出し, そのモデルを用いることで, 最適な協調行動をとることができるようになる. コンピュータシミュレーションにより, 各エージェントが適切な内部状態モデルを学習し, 最適な方策を学習できることを示す. また, 内部状態を用いる手法が, 観測を記憶するためのメモリを用いた手法より優れていることを示す. 
(英) In this article, we apply a policy gradient-based reinforcement learning to allowing multiple agents to perform cooperative actions in a partially observable environment. We introduce an auxiliary state variable, an internal state, whose stochastic process is Markov, for extracting important features of multi-agent's dynamics. Computer simulations show that every agent can identify an appropriate internal state model and acquire a good policy; this approach is shown to be more effective than a traditional memory-based method.
キーワード (和) 部分観測環境 / 内部状態 / 方策勾配法 / マルチエージェントシステム / 協調行動 / / /  
(英) Partially observable environments / Internal state / Policy gradient method / Multi-agent system / Cooperative action / / /  
文献情報 信学技報, vol. 107, no. 92, NC2007-15, pp. 41-45, 2007年6月.
資料番号 NC2007-15 
発行日 2007-06-07 (NC) 
ISSN Print edition: ISSN 0913-5685    Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード NC2007-15

研究会情報
研究会 NC  
開催期間 2007-06-14 - 2007-06-15 
開催地(和) 沖縄科学技術研究基盤整備機構 
開催地(英) OIST Seaside House 
テーマ(和) 機械学習によるバイオデータマインニング,一般 
テーマ(英)  
講演論文情報の詳細
申込み研究会 NC 
会議コード 2007-06-NC 
本文の言語 日本語 
タイトル(和) 内部状態を用いた強化学習によるマルチエージェント系における協調行動の獲得 
サブタイトル(和)  
タイトル(英) Reinforcement Learning for Cooperative Actions in a Partially Observable Multi-Agent System 
サブタイトル(英)  
キーワード(1)(和/英) 部分観測環境 / Partially observable environments  
キーワード(2)(和/英) 内部状態 / Internal state  
キーワード(3)(和/英) 方策勾配法 / Policy gradient method  
キーワード(4)(和/英) マルチエージェントシステム / Multi-agent system  
キーワード(5)(和/英) 協調行動 / Cooperative action  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 谷口 雄基 / Yuki Taniguchi / タニグチ ユウキ
第1著者 所属(和/英) 奈良先端科学技術大学院大学 (略称: 奈良先端大)
Nara Institute of Science and Technology (略称: NAIST)
第2著者 氏名(和/英/ヨミ) 森 健 / Takeshi Mori / モリ タケシ
第2著者 所属(和/英) 奈良先端科学技術大学院大学 (略称: 奈良先端大)
Nara Institute of Science and Technology (略称: NAIST)
第3著者 氏名(和/英/ヨミ) 石井 信 / Shin Ishii / イシイ シン
第3著者 所属(和/英) 奈良先端科学技術大学院大学 (略称: 奈良先端大)
Nara Institute of Science and Technology (略称: NAIST)
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2007-06-15 09:25:00 
発表時間 25分 
申込先研究会 NC 
資料番号 NC2007-15 
巻番号(vol) vol.107 
号番号(no) no.92 
ページ範囲 pp.41-45 
ページ数
発行日 2007-06-07 (NC) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会