講演抄録/キーワード |
講演名 |
2023-01-29 14:25
レザバーアクタークリティックモデルによるロボットの連続値制御 ○湊 宏太郎・香取勇一(公立はこだて未来大) NLP2022-103 NC2022-87 |
抄録 |
(和) |
複雑な環境下で動作するロボットの制御のために,深層学習の活用が期待されているが,それには大量のデータ,学習時間,電力が必要になるという問題がある.これを解決する方法としてレザバー計算(Reservoir Computing:RC)を用いたロボット制御が提案されているが,制御信号が連続値である場合の制御方法は明らかになっていない .本研究では強化学習手法の一つであるアクタークリティック法をRCと組み合わせて,連続値による制御が要求されるロボット制御のモデルを構築する.このレザバーアクタークリティックモデルが,連続値制御が要求される車の山登りタスク(MountainCarContinuous-v0)において,うまく動作することを報告する. |
(英) |
Deep learning is expected to be utilized to control robots operating in complex environments, but this requires a large amount of data, training time, and power. Robot control using reservoir computing (RC) has been proposed as a method to solve this problem, but the control method when the control signal is a continuous value has yet to be elucidated. In this study, the actor-critic method, one of the reinforcement learning methods, is combined with RC to construct a model of robot control that requires control by continuous values. We report that the reservoir actor-critic model performs well in a car mountain climbing task (MountainCarContinuous-v0), which requires continuous-valued control. |
キーワード |
(和) |
レザバー計算 / 強化学習 / アクタークリティック法 / 連続行動空間 / / / / |
(英) |
reservoir computing / reinforcement learning / actor-critic method / continuous action space / / / / |
文献情報 |
信学技報, vol. 122, no. 374, NC2022-87, pp. 118-122, 2023年1月. |
資料番号 |
NC2022-87 |
発行日 |
2023-01-21 (NLP, NC) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NLP2022-103 NC2022-87 |
研究会情報 |
研究会 |
NC NLP |
開催期間 |
2023-01-28 - 2023-01-29 |
開催地(和) |
公立はこだて未来大学 |
開催地(英) |
Future University Hakodate |
テーマ(和) |
NC, NLP, 一般 |
テーマ(英) |
NC, NLP, etc. |
講演論文情報の詳細 |
申込み研究会 |
NC |
会議コード |
2023-01-NC-NLP |
本文の言語 |
日本語 |
タイトル(和) |
レザバーアクタークリティックモデルによるロボットの連続値制御 |
サブタイトル(和) |
|
タイトル(英) |
Continuous Value Control of Robot with Reservoir Actor-Critic Model |
サブタイトル(英) |
|
キーワード(1)(和/英) |
レザバー計算 / reservoir computing |
キーワード(2)(和/英) |
強化学習 / reinforcement learning |
キーワード(3)(和/英) |
アクタークリティック法 / actor-critic method |
キーワード(4)(和/英) |
連続行動空間 / continuous action space |
キーワード(5)(和/英) |
/ |
キーワード(6)(和/英) |
/ |
キーワード(7)(和/英) |
/ |
キーワード(8)(和/英) |
/ |
第1著者 氏名(和/英/ヨミ) |
湊 宏太郎 / Koutaro Minato / ミナト コウタロウ |
第1著者 所属(和/英) |
公立はこだて未来大学 (略称: 公立はこだて未来大)
Future University Hakodate (略称: Future Univ Hakodate) |
第2著者 氏名(和/英/ヨミ) |
香取 勇一 / Yuichi Katori / カトリ ユウイチ |
第2著者 所属(和/英) |
公立はこだて未来大学 (略称: 公立はこだて未来大)
Future University Hakodate (略称: Future Univ Hakodate) |
第3著者 氏名(和/英/ヨミ) |
/ / |
第3著者 所属(和/英) |
(略称: )
(略称: ) |
第4著者 氏名(和/英/ヨミ) |
/ / |
第4著者 所属(和/英) |
(略称: )
(略称: ) |
第5著者 氏名(和/英/ヨミ) |
/ / |
第5著者 所属(和/英) |
(略称: )
(略称: ) |
第6著者 氏名(和/英/ヨミ) |
/ / |
第6著者 所属(和/英) |
(略称: )
(略称: ) |
第7著者 氏名(和/英/ヨミ) |
/ / |
第7著者 所属(和/英) |
(略称: )
(略称: ) |
第8著者 氏名(和/英/ヨミ) |
/ / |
第8著者 所属(和/英) |
(略称: )
(略称: ) |
第9著者 氏名(和/英/ヨミ) |
/ / |
第9著者 所属(和/英) |
(略称: )
(略称: ) |
第10著者 氏名(和/英/ヨミ) |
/ / |
第10著者 所属(和/英) |
(略称: )
(略称: ) |
第11著者 氏名(和/英/ヨミ) |
/ / |
第11著者 所属(和/英) |
(略称: )
(略称: ) |
第12著者 氏名(和/英/ヨミ) |
/ / |
第12著者 所属(和/英) |
(略称: )
(略称: ) |
第13著者 氏名(和/英/ヨミ) |
/ / |
第13著者 所属(和/英) |
(略称: )
(略称: ) |
第14著者 氏名(和/英/ヨミ) |
/ / |
第14著者 所属(和/英) |
(略称: )
(略称: ) |
第15著者 氏名(和/英/ヨミ) |
/ / |
第15著者 所属(和/英) |
(略称: )
(略称: ) |
第16著者 氏名(和/英/ヨミ) |
/ / |
第16著者 所属(和/英) |
(略称: )
(略称: ) |
第17著者 氏名(和/英/ヨミ) |
/ / |
第17著者 所属(和/英) |
(略称: )
(略称: ) |
第18著者 氏名(和/英/ヨミ) |
/ / |
第18著者 所属(和/英) |
(略称: )
(略称: ) |
第19著者 氏名(和/英/ヨミ) |
/ / |
第19著者 所属(和/英) |
(略称: )
(略称: ) |
第20著者 氏名(和/英/ヨミ) |
/ / |
第20著者 所属(和/英) |
(略称: )
(略称: ) |
講演者 |
第1著者 |
発表日時 |
2023-01-29 14:25:00 |
発表時間 |
25分 |
申込先研究会 |
NC |
資料番号 |
NLP2022-103, NC2022-87 |
巻番号(vol) |
vol.122 |
号番号(no) |
no.373(NLP), no.374(NC) |
ページ範囲 |
pp.118-122 |
ページ数 |
5 |
発行日 |
2023-01-21 (NLP, NC) |
|