講演抄録/キーワード |
講演名 |
2017-06-25 11:00
大規模なPOMDPs環境におけるHPG学習法の有効性検証 ○鈴木晃平・加藤昇平(名工大) IBISML2017-9 |
抄録 |
(和) |
強化学習では,状態の混同が発生し正しく学習できない不完全知覚問題が存在する.この問題の解決法として,HQ-learningとEpisode-based Profit Sharing (EPS)がよく知られている.HQ-learningでは,状態の混同が発生している状態をサブタスクに分割することで,EPSでは,エピソード内の各状態における行動価値に報酬を等しく分配することで不完全知覚問題を解決する.しかし双方とも学習効率や局所解において欠点がある.また大規模で複雑な環境には対応していない.本稿では,PSと遺伝的アルゴリズムを組み合わせた新たな手法を提案し,その有効性を大規模環境の実験により検証する. |
(英) |
In a POMDP environment, an agent may observe the same information at more than one state. HQ-learning and Episode-based Profit Sharing (EPS) are well known methods for this problem. HQ-learning divides a POMDP environment into subtasks. EPS distributes same reward to state-action pairs in the episode when an agent achieves a goal. However, these methods have disadvantages in learning efficiency and localized solutions. In this paper, we propose a hybrid learning method combining PS and genetic algorithm. We also report the effectiveness of our method by some experiments with large sized partially observable mazes. |
キーワード |
(和) |
不完全知覚問題 / 強化学習 / 遺伝的アルゴリズム / Profit Sharing / / / / |
(英) |
POMDPs / Reinforcement Learning / Genetic Algorithm / Profit Sharing / / / / |
文献情報 |
信学技報, vol. 117, no. 110, IBISML2017-9, pp. 201-206, 2017年6月. |
資料番号 |
IBISML2017-9 |
発行日 |
2017-06-17 (IBISML) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
IBISML2017-9 |
研究会情報 |
研究会 |
NC IPSJ-BIO IBISML IPSJ-MPS |
開催期間 |
2017-06-23 - 2017-06-25 |
開催地(和) |
沖縄科学技術大学院大学 |
開催地(英) |
Okinawa Institute of Science and Technology |
テーマ(和) |
機械学習によるバイオデータマインニング、一般 |
テーマ(英) |
Machine Learning Approach to Biodata Mining, and General |
講演論文情報の詳細 |
申込み研究会 |
IBISML |
会議コード |
2017-06-NC-BIO-IBISML-MPS |
本文の言語 |
日本語 |
タイトル(和) |
大規模なPOMDPs環境におけるHPG学習法の有効性検証 |
サブタイトル(和) |
|
タイトル(英) |
Validation of the Effectiveness of HPG in Large Scale POMDP Environment |
サブタイトル(英) |
|
キーワード(1)(和/英) |
不完全知覚問題 / POMDPs |
キーワード(2)(和/英) |
強化学習 / Reinforcement Learning |
キーワード(3)(和/英) |
遺伝的アルゴリズム / Genetic Algorithm |
キーワード(4)(和/英) |
Profit Sharing / Profit Sharing |
キーワード(5)(和/英) |
/ |
キーワード(6)(和/英) |
/ |
キーワード(7)(和/英) |
/ |
キーワード(8)(和/英) |
/ |
第1著者 氏名(和/英/ヨミ) |
鈴木 晃平 / Kohei Suzuki / スズキ コウヘイ |
第1著者 所属(和/英) |
名古屋工業大学 (略称: 名工大)
Nagoya Institute of Technology (略称: NITech) |
第2著者 氏名(和/英/ヨミ) |
加藤 昇平 / Shohei Kato / カトウ ショウヘイ |
第2著者 所属(和/英) |
名古屋工業大学 (略称: 名工大)
Nagoya Institute of Technology (略称: NITech) |
第3著者 氏名(和/英/ヨミ) |
/ / |
第3著者 所属(和/英) |
(略称: )
(略称: ) |
第4著者 氏名(和/英/ヨミ) |
/ / |
第4著者 所属(和/英) |
(略称: )
(略称: ) |
第5著者 氏名(和/英/ヨミ) |
/ / |
第5著者 所属(和/英) |
(略称: )
(略称: ) |
第6著者 氏名(和/英/ヨミ) |
/ / |
第6著者 所属(和/英) |
(略称: )
(略称: ) |
第7著者 氏名(和/英/ヨミ) |
/ / |
第7著者 所属(和/英) |
(略称: )
(略称: ) |
第8著者 氏名(和/英/ヨミ) |
/ / |
第8著者 所属(和/英) |
(略称: )
(略称: ) |
第9著者 氏名(和/英/ヨミ) |
/ / |
第9著者 所属(和/英) |
(略称: )
(略称: ) |
第10著者 氏名(和/英/ヨミ) |
/ / |
第10著者 所属(和/英) |
(略称: )
(略称: ) |
第11著者 氏名(和/英/ヨミ) |
/ / |
第11著者 所属(和/英) |
(略称: )
(略称: ) |
第12著者 氏名(和/英/ヨミ) |
/ / |
第12著者 所属(和/英) |
(略称: )
(略称: ) |
第13著者 氏名(和/英/ヨミ) |
/ / |
第13著者 所属(和/英) |
(略称: )
(略称: ) |
第14著者 氏名(和/英/ヨミ) |
/ / |
第14著者 所属(和/英) |
(略称: )
(略称: ) |
第15著者 氏名(和/英/ヨミ) |
/ / |
第15著者 所属(和/英) |
(略称: )
(略称: ) |
第16著者 氏名(和/英/ヨミ) |
/ / |
第16著者 所属(和/英) |
(略称: )
(略称: ) |
第17著者 氏名(和/英/ヨミ) |
/ / |
第17著者 所属(和/英) |
(略称: )
(略称: ) |
第18著者 氏名(和/英/ヨミ) |
/ / |
第18著者 所属(和/英) |
(略称: )
(略称: ) |
第19著者 氏名(和/英/ヨミ) |
/ / |
第19著者 所属(和/英) |
(略称: )
(略称: ) |
第20著者 氏名(和/英/ヨミ) |
/ / |
第20著者 所属(和/英) |
(略称: )
(略称: ) |
講演者 |
第1著者 |
発表日時 |
2017-06-25 11:00:00 |
発表時間 |
25分 |
申込先研究会 |
IBISML |
資料番号 |
IBISML2017-9 |
巻番号(vol) |
vol.117 |
号番号(no) |
no.110 |
ページ範囲 |
pp.201-206 |
ページ数 |
6 |
発行日 |
2017-06-17 (IBISML) |