講演抄録/キーワード |
講演名 |
2021-03-04 16:50
A3Cにおける決定論的方策勾配の導入 ○高萩 悠・山内ゆかり(日大) NC2020-63 |
抄録 |
(和) |
Mnihらは,Asynchronous Advantage Actor-Critic (A3C)と呼ばれる学習手法を提起した.この手法は複数のエージェントを用いて非同期に探索し,行動選択の方策を評価し,その方策を更新する.複数エージェントで分散的に学習するため,学習時間を従来の強化学習手法よりも削減することに成功した.一方で,Silverらは決定論的な方策勾配の更新方法を提起した.方策勾配を決定論的に更新することで,確率論的に更新するよりも環境を適切に探索することができる.本研究ではA3Cの方策の更新に決定論的方策勾配を導入し,学習時間を短縮する.実験ではGrid World迷路問題で学習時間の差を比較し,提案手法の有効性を確かめる. |
(英) |
Mnih et al. proposed a learning method called Asynchronous Advantage Actor-Critic (A3C). This method explores asynchronously with multiple agents, evaluates the action selection strategy, and updates the strategy. Since the learning is distributed among multiple agents, the learning time is successfully reduced compared to conventional reinforcement learning methods. On the other hand, Silver et al. proposed a deterministic method for updating the policy gradient. By updating the policy gradient deterministically, the environment can be explored more appropriately than by updating it probabilistically. In this study, we introduce the deterministic policy gradient to update the A3C strategy and reduce the learning time. In the experiments, we compare the difference in learning time on the Grid World maze problem to confirm the effectiveness of the proposed method. |
キーワード |
(和) |
強化学習 / Asynchronous Advantage Actor-Critic / 方策勾配 / 決定論的方策勾配 / / / / |
(英) |
Reinforcement Learning / Asynchronous Advantage Actor-Critic / Policy Gradient / Deterministic Policy Gradient / / / / |
文献情報 |
信学技報, vol. 120, no. 403, NC2020-63, pp. 117-120, 2021年3月. |
資料番号 |
NC2020-63 |
発行日 |
2021-02-24 (NC) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NC2020-63 |
研究会情報 |
研究会 |
NC MBE |
開催期間 |
2021-03-03 - 2021-03-05 |
開催地(和) |
オンライン開催 |
開催地(英) |
Online |
テーマ(和) |
NC, ME, 一般 |
テーマ(英) |
Neuro Computing, Medical Engineering, etc. |
講演論文情報の詳細 |
申込み研究会 |
NC |
会議コード |
2021-03-NC-MBE |
本文の言語 |
日本語 |
タイトル(和) |
A3Cにおける決定論的方策勾配の導入 |
サブタイトル(和) |
|
タイトル(英) |
A3C with Deterministic Policy Gradient |
サブタイトル(英) |
|
キーワード(1)(和/英) |
強化学習 / Reinforcement Learning |
キーワード(2)(和/英) |
Asynchronous Advantage Actor-Critic / Asynchronous Advantage Actor-Critic |
キーワード(3)(和/英) |
方策勾配 / Policy Gradient |
キーワード(4)(和/英) |
決定論的方策勾配 / Deterministic Policy Gradient |
キーワード(5)(和/英) |
/ |
キーワード(6)(和/英) |
/ |
キーワード(7)(和/英) |
/ |
キーワード(8)(和/英) |
/ |
第1著者 氏名(和/英/ヨミ) |
高萩 悠 / Yu Takahagi / タカハギ ユウ |
第1著者 所属(和/英) |
日本大学 (略称: 日大)
Nihon University (略称: Nihon Univ.) |
第2著者 氏名(和/英/ヨミ) |
山内 ゆかり / Yukari Yamauchi / ヤマウチ ユカリ |
第2著者 所属(和/英) |
日本大学 (略称: 日大)
Nihon University (略称: Nihon Univ.) |
第3著者 氏名(和/英/ヨミ) |
/ / |
第3著者 所属(和/英) |
(略称: )
(略称: ) |
第4著者 氏名(和/英/ヨミ) |
/ / |
第4著者 所属(和/英) |
(略称: )
(略称: ) |
第5著者 氏名(和/英/ヨミ) |
/ / |
第5著者 所属(和/英) |
(略称: )
(略称: ) |
第6著者 氏名(和/英/ヨミ) |
/ / |
第6著者 所属(和/英) |
(略称: )
(略称: ) |
第7著者 氏名(和/英/ヨミ) |
/ / |
第7著者 所属(和/英) |
(略称: )
(略称: ) |
第8著者 氏名(和/英/ヨミ) |
/ / |
第8著者 所属(和/英) |
(略称: )
(略称: ) |
第9著者 氏名(和/英/ヨミ) |
/ / |
第9著者 所属(和/英) |
(略称: )
(略称: ) |
第10著者 氏名(和/英/ヨミ) |
/ / |
第10著者 所属(和/英) |
(略称: )
(略称: ) |
第11著者 氏名(和/英/ヨミ) |
/ / |
第11著者 所属(和/英) |
(略称: )
(略称: ) |
第12著者 氏名(和/英/ヨミ) |
/ / |
第12著者 所属(和/英) |
(略称: )
(略称: ) |
第13著者 氏名(和/英/ヨミ) |
/ / |
第13著者 所属(和/英) |
(略称: )
(略称: ) |
第14著者 氏名(和/英/ヨミ) |
/ / |
第14著者 所属(和/英) |
(略称: )
(略称: ) |
第15著者 氏名(和/英/ヨミ) |
/ / |
第15著者 所属(和/英) |
(略称: )
(略称: ) |
第16著者 氏名(和/英/ヨミ) |
/ / |
第16著者 所属(和/英) |
(略称: )
(略称: ) |
第17著者 氏名(和/英/ヨミ) |
/ / |
第17著者 所属(和/英) |
(略称: )
(略称: ) |
第18著者 氏名(和/英/ヨミ) |
/ / |
第18著者 所属(和/英) |
(略称: )
(略称: ) |
第19著者 氏名(和/英/ヨミ) |
/ / |
第19著者 所属(和/英) |
(略称: )
(略称: ) |
第20著者 氏名(和/英/ヨミ) |
/ / |
第20著者 所属(和/英) |
(略称: )
(略称: ) |
講演者 |
第1著者 |
発表日時 |
2021-03-04 16:50:00 |
発表時間 |
25分 |
申込先研究会 |
NC |
資料番号 |
NC2020-63 |
巻番号(vol) |
vol.120 |
号番号(no) |
no.403 |
ページ範囲 |
pp.117-120 |
ページ数 |
4 |
発行日 |
2021-02-24 (NC) |
|