講演抄録/キーワード |
講演名 |
2006-03-16 14:55
複数の価値関数を用いた多目的強化学習 ○上岡拓未(沖縄科技大/奈良先端大)・内部英治(沖縄科技大)・銅谷賢治(沖縄科技大/ATR) |
抄録 |
(和) |
通常の強化学習は単一問題の最適化として定式化されている.しかし,実世界の問題では一つの目的としては表せない問題が多く存在する.本研究では多目的最適化問題に対するActor-Criticアーキテクチャに基づく強化学習法を提案する.複数の目的に対して一つの価値関数を学習するのではなく,目的ごとに与えられた報酬関数から各目的に対する価値関数を学習し,それらのPareto最適方策を得るというアプローチをとる.Criticの複数の価値関数から求められるTD誤差をスカラー化して
Actorを更新することにより,複数の目的を満たす方策を獲得する.複数のTD誤差のスカラー化手法として,既存手法を拡張したMax-min法と加重線形和法を用いる.$1$エピソードの終了条件が複数の不等式で与えられるシミュレーション実験によって,拡張したMax-min法が報酬関数の組み合わせの影響を受けずに学習できることを示した. |
(英) |
Standard Reinforcement Learning(RL) is formulated
for optimization of a single objective function.
However in most real world problems,
multiple objective functions need to be considered.
We propose Actor-Critic architecture to deal
with multiple objective functions.
Our architecture updates a separate state value function for each objectives and the actor is updated by scarlarized TD error calculated from multiple value functions to acquire a Pareto optimal policy. We compare a number of sclarizing functions, such as Kang and Bien's max-min method, extended max-min method and weighted summation. In a computer simulation of learning period defined by multiple inequality, extended max-min method is able to acquire the good policy without affect of combination of reward functions. |
キーワード |
(和) |
多目的最適化 / 強化学習 / パレート最適解 / / / / / |
(英) |
multiobjective optimization / reinforcement learning / Pareto optimal solution / / / / / |
文献情報 |
信学技報, vol. 105, no. 658, NC2005-146, pp. 127-132, 2006年3月. |
資料番号 |
NC2005-146 |
発行日 |
2006-03-09 (NC) |
ISSN |
Print edition: ISSN 0913-5685 |
PDFダウンロード |
|