お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2009-03-12 15:15
セミパラメトリック統計学に基づく価値関数推定
植野 剛京大)・川鍋一晃Fraunhofer First)・森 健前田新一石井 信京大NC2008-146
抄録 (和) Least squares temporal difference (LSTD)に基づく価値関数推定法が開発され,実問題で良い性能を示している.しかしながら,LSTDによる推定量の統計的性質は明らかにされていない.本研究では,LSTD法に基づくモデルフリー型方策評価法をセミパラメトリック統計学の観点から議論する.セミパラメトリック推定では,真の価値関数を表現できる. パラメトリックモデルが与えられている場合,推定関数法によって,タスク環境をモデル化することなく,漸近的に真の価値関数に収束する一致推定量を得ることができる.これより,LSTD規範の推定量の漸近的な推定分散を解析し,解析した推定分散を最小にする最適な推定関数を導出する.また,最適な推定関数を得るために必要な計算負担を軽減することを目的として,準最適な推定量も提案する. 
(英) Recently least-squares
temporal difference (LSTD) learning
has been developed
for the model-free value function estimation and has
shown good practical performance.
However,
the statistical efficiency
of its estimation has not been well elucidated.
In this study,
we discuss
LSTD-based policy evaluation from
a viewpoint of semiparametric statistical inference.
When the true value function
can be represented by a parametric model,
a consistent estimator of
the value function is
obtained by using a particular estimating function
without knowing the whole data distribution,
such as state transition probability or reward probability.
Especially,
we 1) analyze the asymptotic variance
of the LSTD-based estimator,
2) derive the optimal estimating function
with the minimum asymptotic estimation variance,
and
3) derive the suboptimal estimator to reduce
the computational cost when obtaining the optimal estimating function.
キーワード (和) 強化学習 / 補助変数法 / セミパラメトリックモデル / 推定関数 / 方策評価 / / /  
(英) reinforcement learning / instrumental variable method / least square temporal difference learning / estimating function / semiparametric model / policy evaluation / /  
文献情報 信学技報, vol. 108, no. 480, NC2008-146, pp. 255-260, 2009年3月.
資料番号 NC2008-146 
発行日 2009-03-04 (NC) 
ISSN Print edition: ISSN 0913-5685    Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード NC2008-146

研究会情報
研究会 NC MBE  
開催期間 2009-03-11 - 2009-03-13 
開催地(和) 玉川大学 
開催地(英) Tamagawa Univ. 
テーマ(和) 一般 
テーマ(英)  
講演論文情報の詳細
申込み研究会 NC 
会議コード 2009-03-NC-MBE 
本文の言語 日本語 
タイトル(和) セミパラメトリック統計学に基づく価値関数推定 
サブタイトル(和)  
タイトル(英) Semiparametric Statistical Approach to Value Function Estimation 
サブタイトル(英)  
キーワード(1)(和/英) 強化学習 / reinforcement learning  
キーワード(2)(和/英) 補助変数法 / instrumental variable method  
キーワード(3)(和/英) セミパラメトリックモデル / least square temporal difference learning  
キーワード(4)(和/英) 推定関数 / estimating function  
キーワード(5)(和/英) 方策評価 / semiparametric model  
キーワード(6)(和/英) / policy evaluation  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 植野 剛 / Tsuyoshi Ueno / ウエノ ツヨシ
第1著者 所属(和/英) 京都大学 (略称: 京大)
Kyoto University (略称: Kyoto Univ.)
第2著者 氏名(和/英/ヨミ) 川鍋 一晃 / Motoaki Kawanabe / カワナベ モトアキ
第2著者 所属(和/英) Fraunhofer First (略称: Fraunhofer First)
Fraunhofer First (略称: Fraunhofer First)
第3著者 氏名(和/英/ヨミ) 森 健 / Takeshi Mori / モリ タケシ
第3著者 所属(和/英) 京都大学 (略称: 京大)
Kyoto University (略称: Kyoto Univ.)
第4著者 氏名(和/英/ヨミ) 前田 新一 / Shin-ichi Maeda / マエダ シンイチ
第4著者 所属(和/英) 京都大学 (略称: 京大)
Kyoto University (略称: Kyoto Univ.)
第5著者 氏名(和/英/ヨミ) 石井 信 / Shin Ishii / シン イシイ
第5著者 所属(和/英) 京都大学 (略称: 京大)
Kyoto University (略称: Kyoto Univ.)
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2009-03-12 15:15:00 
発表時間 25分 
申込先研究会 NC 
資料番号 NC2008-146 
巻番号(vol) vol.108 
号番号(no) no.480 
ページ範囲 pp.255-260 
ページ数
発行日 2009-03-04 (NC) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会