講演抄録/キーワード |
講演名 |
2012-03-12 15:30
部分観測環境のモデルパラメータに対する徒弟学習 ○牧野貴樹(東大)・竹内誉羽(ホンダ・リサーチ・インスティチュート・ジャパン) IBISML2011-94 |
抄録 |
(和) |
エキスパートの演示を観測することでタスクを学習する徒弟学習において、環境が部分的にしか観測できず、かつその環境のモデルに不確実性が含まれる問題を考える。このような問題設定は、人間との対話システムなど、対象の明示的なモデリングが困難なアプリケーションの設計に有効である。我々は、エキスパートが対象環境の真のモデルをもとに最適な行動を選択していると仮定することで、演示の背後にある行動決定過程に対する推論を通して対象環境のモデルに関する情報を抽出できることを示す。環境の応答のみに注目して環境モデルを推論する従来手法と比較して、提案する2 種のアルゴリズムは、非常に短い演示からでも環境モデルのパラメータを推定できることを示す。 |
(英) |
We consider apprentice learning, i.e., to make an agent learn a task by observing an expert demonstrating the task, in an partially observable environment when the model of the environment is uncertain. This setting
is useful in applications where the explicit modeling of the environment is difficult, such as dialogue system. We show that we can extract information about the environment model by inferring action selection process behind the demonstration, under the assumption that the expert is choosing optimal actions based on knowledge of the true model of the target environment. We show that our proposed algorithms can estimate the parameter of the environment model with much shorter demonstration compared to learning the model only from the reaction from the environment. |
キーワード |
(和) |
強化学習 / 部分観測マルコフ決定過程 / 逆強化学習 / ベイズ推定 / IO-HMM / / / |
(英) |
Reinforcement Learning / POMDP / Inverse Reinforcement Learning / Bayesian Inference / Input-Output Hidden Markov Model / / / |
文献情報 |
信学技報, vol. 111, no. 480, IBISML2011-94, pp. 49-54, 2012年3月. |
資料番号 |
IBISML2011-94 |
発行日 |
2012-03-05 (IBISML) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
IBISML2011-94 |