講演抄録/キーワード |
講演名 |
2009-03-12 15:15
セミパラメトリック統計学に基づく価値関数推定 ○植野 剛(京大)・川鍋一晃(Fraunhofer First)・森 健・前田新一・石井 信(京大) NC2008-146 |
抄録 |
(和) |
Least squares temporal difference (LSTD)に基づく価値関数推定法が開発され,実問題で良い性能を示している.しかしながら,LSTDによる推定量の統計的性質は明らかにされていない.本研究では,LSTD法に基づくモデルフリー型方策評価法をセミパラメトリック統計学の観点から議論する.セミパラメトリック推定では,真の価値関数を表現できる. パラメトリックモデルが与えられている場合,推定関数法によって,タスク環境をモデル化することなく,漸近的に真の価値関数に収束する一致推定量を得ることができる.これより,LSTD規範の推定量の漸近的な推定分散を解析し,解析した推定分散を最小にする最適な推定関数を導出する.また,最適な推定関数を得るために必要な計算負担を軽減することを目的として,準最適な推定量も提案する. |
(英) |
Recently least-squares
temporal difference (LSTD) learning
has been developed
for the model-free value function estimation and has
shown good practical performance.
However,
the statistical efficiency
of its estimation has not been well elucidated.
In this study,
we discuss
LSTD-based policy evaluation from
a viewpoint of semiparametric statistical inference.
When the true value function
can be represented by a parametric model,
a consistent estimator of
the value function is
obtained by using a particular estimating function
without knowing the whole data distribution,
such as state transition probability or reward probability.
Especially,
we 1) analyze the asymptotic variance
of the LSTD-based estimator,
2) derive the optimal estimating function
with the minimum asymptotic estimation variance,
and
3) derive the suboptimal estimator to reduce
the computational cost when obtaining the optimal estimating function. |
キーワード |
(和) |
強化学習 / 補助変数法 / セミパラメトリックモデル / 推定関数 / 方策評価 / / / |
(英) |
reinforcement learning / instrumental variable method / least square temporal difference learning / estimating function / semiparametric model / policy evaluation / / |
文献情報 |
信学技報, vol. 108, no. 480, NC2008-146, pp. 255-260, 2009年3月. |
資料番号 |
NC2008-146 |
発行日 |
2009-03-04 (NC) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NC2008-146 |