お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2021-03-04 16:50
A3Cにおける決定論的方策勾配の導入
高萩 悠山内ゆかり日大NC2020-63
抄録 (和) Mnihらは,Asynchronous Advantage Actor-Critic (A3C)と呼ばれる学習手法を提起した.この手法は複数のエージェントを用いて非同期に探索し,行動選択の方策を評価し,その方策を更新する.複数エージェントで分散的に学習するため,学習時間を従来の強化学習手法よりも削減することに成功した.一方で,Silverらは決定論的な方策勾配の更新方法を提起した.方策勾配を決定論的に更新することで,確率論的に更新するよりも環境を適切に探索することができる.本研究ではA3Cの方策の更新に決定論的方策勾配を導入し,学習時間を短縮する.実験ではGrid World迷路問題で学習時間の差を比較し,提案手法の有効性を確かめる. 
(英) Mnih et al. proposed a learning method called Asynchronous Advantage Actor-Critic (A3C). This method explores asynchronously with multiple agents, evaluates the action selection strategy, and updates the strategy. Since the learning is distributed among multiple agents, the learning time is successfully reduced compared to conventional reinforcement learning methods. On the other hand, Silver et al. proposed a deterministic method for updating the policy gradient. By updating the policy gradient deterministically, the environment can be explored more appropriately than by updating it probabilistically. In this study, we introduce the deterministic policy gradient to update the A3C strategy and reduce the learning time. In the experiments, we compare the difference in learning time on the Grid World maze problem to confirm the effectiveness of the proposed method.
キーワード (和) 強化学習 / Asynchronous Advantage Actor-Critic / 方策勾配 / 決定論的方策勾配 / / / /  
(英) Reinforcement Learning / Asynchronous Advantage Actor-Critic / Policy Gradient / Deterministic Policy Gradient / / / /  
文献情報 信学技報, vol. 120, no. 403, NC2020-63, pp. 117-120, 2021年3月.
資料番号 NC2020-63 
発行日 2021-02-24 (NC) 
ISSN Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード NC2020-63

研究会情報
研究会 NC MBE  
開催期間 2021-03-03 - 2021-03-05 
開催地(和) オンライン開催 
開催地(英) Online 
テーマ(和) NC, ME, 一般 
テーマ(英) Neuro Computing, Medical Engineering, etc. 
講演論文情報の詳細
申込み研究会 NC 
会議コード 2021-03-NC-MBE 
本文の言語 日本語 
タイトル(和) A3Cにおける決定論的方策勾配の導入 
サブタイトル(和)  
タイトル(英) A3C with Deterministic Policy Gradient 
サブタイトル(英)  
キーワード(1)(和/英) 強化学習 / Reinforcement Learning  
キーワード(2)(和/英) Asynchronous Advantage Actor-Critic / Asynchronous Advantage Actor-Critic  
キーワード(3)(和/英) 方策勾配 / Policy Gradient  
キーワード(4)(和/英) 決定論的方策勾配 / Deterministic Policy Gradient  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 高萩 悠 / Yu Takahagi / タカハギ ユウ
第1著者 所属(和/英) 日本大学 (略称: 日大)
Nihon University (略称: Nihon Univ.)
第2著者 氏名(和/英/ヨミ) 山内 ゆかり / Yukari Yamauchi / ヤマウチ ユカリ
第2著者 所属(和/英) 日本大学 (略称: 日大)
Nihon University (略称: Nihon Univ.)
第3著者 氏名(和/英/ヨミ) / /
第3著者 所属(和/英) (略称: )
(略称: )
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2021-03-04 16:50:00 
発表時間 25分 
申込先研究会 NC 
資料番号 NC2020-63 
巻番号(vol) vol.120 
号番号(no) no.403 
ページ範囲 pp.117-120 
ページ数
発行日 2021-02-24 (NC) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会