講演抄録/キーワード |
講演名 |
2019-06-18 13:30
Hybrid Reinforcement and Imitation Learning for Human-Like Agents ○Rousslan Fernand Julien Dossa・Xinyu Lian(Kobe Uni)・Hirokazu Nomoto(EQUOS RESEARCH)・Takashi Matsubara・Kuniaki Uehara(Kobe Uni) NC2019-16 IBISML2019-14 |
抄録 |
(和) |
強化学習では,収益の最大化を目指して訓練することで,様々な課題が解決できる.
しかしながら,ゲームAIや自動運転などに応用する際,ユーザに不安や危害を与える恐れがあるため,性能以外のことも考慮する必要がある.
一方で,模倣学習では、エキスパートのデータ上でエージェントを訓練することで,そのエキスパートを模倣することができる.
ただし,振る舞いが不自然であったり性能がエキスパートの性能に限られる場合がある.
本論文では,連続行動空間に適用可能な強化学習と模倣学習の融合モデルを提案する.
この融合モデルは,単なる模倣学習のエージェントと比較して高い性能を示し,強化学習モデルより人間らしい振る舞いを学習することができた. |
(英) |
Reinforcement learning methods achieve performance superior to humans in a wide range of complex tasks and uncertain environments.
However, high performance is not the sole metric for practical use, namely when used as a game AI or autonomous driving agent, since highly efficient agent tends to perform greedily and selfishly, therefore inconveniencing the users.
Consequently, there is a need for more human-like agents.
Imitation learning, on the other hand, aims at reproducing the behavior of a human expert and can be used to train a human-like agent, the caveat being that its performance is generally limited by the expert's skill.
In the study, we propose a training scheme to construct a human-like and efficient agent through a hybrid of reinforcement and imitation learning, and apply it to a racing car simulator.
The proposed hybrid agent achieves a higher performance than a strictly imitation learning agent while exhibits more human-like behavior, which is measured via a human sensitivity test. |
キーワード |
(和) |
自動運転 / ゲームAI / 人間らしさ / 模倣学習 / 強化学習 / / / |
(英) |
Autonomous Driving / Game AI / Human-Like Behavior / Imitation Learning / Reinforcement Learning / / / |
文献情報 |
信学技報, vol. 119, no. 88, NC2019-16, pp. 69-74, 2019年6月. |
資料番号 |
NC2019-16 |
発行日 |
2019-06-10 (NC, IBISML) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NC2019-16 IBISML2019-14 |
|