お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2006-03-16 14:55
複数の価値関数を用いた多目的強化学習
上岡拓未沖縄科技大/奈良先端大)・内部英治沖縄科技大)・銅谷賢治沖縄科技大/ATR
抄録 (和) 通常の強化学習は単一問題の最適化として定式化されている.しかし,実世界の問題では一つの目的としては表せない問題が多く存在する.本研究では多目的最適化問題に対するActor-Criticアーキテクチャに基づく強化学習法を提案する.複数の目的に対して一つの価値関数を学習するのではなく,目的ごとに与えられた報酬関数から各目的に対する価値関数を学習し,それらのPareto最適方策を得るというアプローチをとる.Criticの複数の価値関数から求められるTD誤差をスカラー化して
Actorを更新することにより,複数の目的を満たす方策を獲得する.複数のTD誤差のスカラー化手法として,既存手法を拡張したMax-min法と加重線形和法を用いる.$1$エピソードの終了条件が複数の不等式で与えられるシミュレーション実験によって,拡張したMax-min法が報酬関数の組み合わせの影響を受けずに学習できることを示した. 
(英) Standard Reinforcement Learning(RL) is formulated
for optimization of a single objective function.
However in most real world problems,
multiple objective functions need to be considered.
We propose Actor-Critic architecture to deal
with multiple objective functions.
Our architecture updates a separate state value function for each objectives and the actor is updated by scarlarized TD error calculated from multiple value functions to acquire a Pareto optimal policy. We compare a number of sclarizing functions, such as Kang and Bien's max-min method, extended max-min method and weighted summation. In a computer simulation of learning period defined by multiple inequality, extended max-min method is able to acquire the good policy without affect of combination of reward functions.
キーワード (和) 多目的最適化 / 強化学習 / パレート最適解 / / / / /  
(英) multiobjective optimization / reinforcement learning / Pareto optimal solution / / / / /  
文献情報 信学技報, vol. 105, no. 658, NC2005-146, pp. 127-132, 2006年3月.
資料番号 NC2005-146 
発行日 2006-03-09 (NC) 
ISSN Print edition: ISSN 0913-5685
PDFダウンロード

研究会情報
研究会 NC  
開催期間 2006-03-15 - 2006-03-17 
開催地(和) 玉川大学 
開催地(英) Tamagawa University 
テーマ(和) 一般 
テーマ(英) General 
講演論文情報の詳細
申込み研究会 NC 
会議コード 2006-03-NC 
本文の言語 日本語 
タイトル(和) 複数の価値関数を用いた多目的強化学習 
サブタイトル(和)  
タイトル(英) Multiobjective Reinforcement Learning based on Multiple Value Function 
サブタイトル(英)  
キーワード(1)(和/英) 多目的最適化 / multiobjective optimization  
キーワード(2)(和/英) 強化学習 / reinforcement learning  
キーワード(3)(和/英) パレート最適解 / Pareto optimal solution  
キーワード(4)(和/英) /  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 上岡 拓未 / Takumi Kamioka / カミオカ タクミ
第1著者 所属(和/英) 奈良先端科学技術大学院大学 (略称: 沖縄科技大/奈良先端大)
Nara Institute of Science and Technology (略称: OIST/NAIST)
第2著者 氏名(和/英/ヨミ) 内部 英治 / Eiji Uchibe / ウチベ エイジ
第2著者 所属(和/英) 沖縄大学院大学 (略称: 沖縄科技大)
Okinawa Institute of Science and Technology (略称: OIST)
第3著者 氏名(和/英/ヨミ) 銅谷 賢治 / Kenji Doya / ドウヤ ケンジ
第3著者 所属(和/英) 沖縄大学院大学 (略称: 沖縄科技大/ATR)
Okinawa Institute of Science and Technology (略称: OIST/ATR)
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2006-03-16 14:55:00 
発表時間 25分 
申込先研究会 NC 
資料番号 NC2005-146 
巻番号(vol) vol.105 
号番号(no) no.658 
ページ範囲 pp.127-132 
ページ数
発行日 2006-03-09 (NC) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会