A3Cにおける決定論的方策勾配の導入

高萩,悠; 山内,ゆかり

ご案内入会して研究会活動をもっとお得に！研究会参加費・年間登録費が会員価格になります。
お知らせ【重要】研究会参加費の支払いおよび原稿アップロード手続きの変更に関するご案内

電子情報通信学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
[ログイン]
技報アーカイブ

トップに戻る

前のページに戻る

[Japanese] / [English]

講演抄録／キーワード
講演名		2021-03-04 16:50 A3Cにおける決定論的方策勾配の導入 ○高萩　悠・山内ゆかり（日大） NC2020-63
抄録	（和）	Mnihらは，Asynchronous Advantage Actor-Critic （A3C）と呼ばれる学習手法を提起した．この手法は複数のエージェントを用いて非同期に探索し，行動選択の方策を評価し，その方策を更新する．複数エージェントで分散的に学習するため，学習時間を従来の強化学習手法よりも削減することに成功した．一方で，Silverらは決定論的な方策勾配の更新方法を提起した．方策勾配を決定論的に更新することで，確率論的に更新するよりも環境を適切に探索することができる．本研究ではA3Cの方策の更新に決定論的方策勾配を導入し，学習時間を短縮する．実験ではGrid World迷路問題で学習時間の差を比較し，提案手法の有効性を確かめる．
	（英）	Mnih et al. proposed a learning method called Asynchronous Advantage Actor-Critic (A3C). This method explores asynchronously with multiple agents, evaluates the action selection strategy, and updates the strategy. Since the learning is distributed among multiple agents, the learning time is successfully reduced compared to conventional reinforcement learning methods. On the other hand, Silver et al. proposed a deterministic method for updating the policy gradient. By updating the policy gradient deterministically, the environment can be explored more appropriately than by updating it probabilistically. In this study, we introduce the deterministic policy gradient to update the A3C strategy and reduce the learning time. In the experiments, we compare the difference in learning time on the Grid World maze problem to confirm the effectiveness of the proposed method.
キーワード	（和）	強化学習 / Asynchronous Advantage Actor-Critic / 方策勾配 / 決定論的方策勾配 / / / /
	（英）	Reinforcement Learning / Asynchronous Advantage Actor-Critic / Policy Gradient / Deterministic Policy Gradient / / / /
文献情報		信学技報, vol. 120, no. 403, NC2020-63, pp. 117-120, 2021年3月.
資料番号		NC2020-63
発行日		2021-02-24 (NC)
ISSN		Online edition: ISSN 2432-6380
著作権について		技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します．(許諾番号：10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード		NC2020-63

研究会情報
研究会	NC MBE
開催期間	2021-03-03 - 2021-03-05
開催地（和）	オンライン開催
開催地（英）	Online
テーマ（和）	NC, ME, 一般
テーマ（英）	Neuro Computing, Medical Engineering, etc.
講演論文情報の詳細
申込み研究会	NC
会議コード	2021-03-NC-MBE
本文の言語	日本語
タイトル（和）	A3Cにおける決定論的方策勾配の導入
サブタイトル（和）
タイトル（英）	A3C with Deterministic Policy Gradient
サブタイトル（英）
キーワード(1)（和/英）	強化学習 / Reinforcement Learning
キーワード(2)（和/英）	Asynchronous Advantage Actor-Critic / Asynchronous Advantage Actor-Critic
キーワード(3)（和/英）	方策勾配 / Policy Gradient
キーワード(4)（和/英）	決定論的方策勾配 / Deterministic Policy Gradient
キーワード(5)（和/英）	/
キーワード(6)（和/英）	/
キーワード(7)（和/英）	/
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	高萩悠 / Yu Takahagi / タカハギユウ
第1著者所属（和/英）	日本大学 (略称：日大) Nihon University (略称： Nihon Univ.)
第2著者氏名（和/英/ヨミ）	山内ゆかり / Yukari Yamauchi / ヤマウチユカリ
第2著者所属（和/英）	日本大学 (略称：日大) Nihon University (略称： Nihon Univ.)
第3著者氏名（和/英/ヨミ）	/ /
第3著者所属（和/英）	(略称： ) (略称： )
第4著者氏名（和/英/ヨミ）	/ /
第4著者所属（和/英）	(略称： ) (略称： )
第5著者氏名（和/英/ヨミ）	/ /
第5著者所属（和/英）	(略称： ) (略称： )
第6著者氏名（和/英/ヨミ）	/ /
第6著者所属（和/英）	(略称： ) (略称： )
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
第21著者氏名（和/英/ヨミ）	/ /
第21著者所属（和/英）	(略称： ) (略称： )
第22著者氏名（和/英/ヨミ）	/ /
第22著者所属（和/英）	(略称： ) (略称： )
第23著者氏名（和/英/ヨミ）	/ /
第23著者所属（和/英）	(略称： ) (略称： )
第24著者氏名（和/英/ヨミ）	/ /
第24著者所属（和/英）	(略称： ) (略称： )
第25著者氏名（和/英/ヨミ）	/ /
第25著者所属（和/英）	(略称： ) (略称： )
第26著者氏名（和/英/ヨミ）	/ /
第26著者所属（和/英）	(略称： ) (略称： )
第27著者氏名（和/英/ヨミ）	/ /
第27著者所属（和/英）	(略称： ) (略称： )
第28著者氏名（和/英/ヨミ）	/ /
第28著者所属（和/英）	(略称： ) (略称： )
第29著者氏名（和/英/ヨミ）	/ /
第29著者所属（和/英）	(略称： ) (略称： )
第30著者氏名（和/英/ヨミ）	/ /
第30著者所属（和/英）	(略称： ) (略称： )
第31著者氏名（和/英/ヨミ）	/ /
第31著者所属（和/英）	(略称： ) (略称： )
第32著者氏名（和/英/ヨミ）	/ /
第32著者所属（和/英）	(略称： ) (略称： )
第33著者氏名（和/英/ヨミ）	/ /
第33著者所属（和/英）	(略称： ) (略称： )
第34著者氏名（和/英/ヨミ）	/ /
第34著者所属（和/英）	(略称： ) (略称： )
第35著者氏名（和/英/ヨミ）	/ /
第35著者所属（和/英）	(略称： ) (略称： )
第36著者氏名（和/英/ヨミ）	/ /
第36著者所属（和/英）	(略称： ) (略称： )
講演者	第1著者
発表日時	2021-03-04 16:50:00
発表時間	25分
申込先研究会	NC
資料番号	NC2020-63
巻番号（vol）	vol.120
号番号（no）	no.403
ページ範囲	pp.117-120
ページ数	4
発行日	2021-02-24 (NC)

[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]

IEICE / 電子情報通信学会