お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2012-11-07 15:30
時間整合的マルコフ決定過程のロバスト性
恐神貴行日本IBMIBISML2012-40
抄録 (和) マルコフ決定過程(MDP)の目的関数が、単調性を持つ反復的リスク指標である場合には、そのMDPの最適施策が動的計画法によって求められることを示す。更に単調性を持つ反復的リスク指標がさらに並進不変性を持つ場合には、MDPの最適施策がより効率的に求められることを示す。単調性を持つ反復的リスク指標のクラスは効用関数が単調性を持つ期待効用のクラスを真に含む。理にかなっていると思われるリスク選好が、期待効用では表現できないが、反復的リスク指標では表現できることを示す。更に、ある反復的リスク指標の最小化を目的とするMDPは、ロバストMDPとして解釈できることを示す。ロバストMDPは、MDPのパラメータ値が不確実であることを前提とし、最悪の場合に対して、累積期待コストなどを最小化することを目的とする。具体的には、期待指数効用の最小化を目的とするMDPは、期待値からパラメータの基準値からの乖離度のカルバック・ライブラー距離を減じた値を、最悪の場合において最小化するロバストMDPと等価であることを示す。また、コヒーレントなリスク指標からなる反復的リスク指標の値を最小化することを目的とするMDPは、不確実性がある凹関数によって特徴付けられるロバストMDPと等価であることを示す。 
(英) We show that an optimal policy for a Markov decision process (MDP) can be found with dynamic programming, when the objective is to minimize an iterated risk measure (IRM) that has a property we call monotonicity. When the monotonic IRM has the additional property of translation-invariance, we show that the optimal policy can be found more efficiently. The class of monotonic IRMs strictly contains the class of expected utility with monotonic utility functions. We then demonstrate that expected utility is inflexible in representing a significant set of risk-preferences that appear to be reasonable, but that such risk-preferences can be represented by IRMs. Furthermore, we show that the MDP with the objective of minimizing an IRM can be interpreted as a robust MDP, whose objective is to minimize a function, such as the expectation of cumulative cost, for the worst case when the parameters have uncertainties. Specifically, we show that an MDP of minimizing the expected exponential utility is equivalent to a robust MDP of minimizing the worst-case expectation with a penalty for the deviation of the uncertain parameters from their nominal values, which is measured with the Kullback-Leibler divergence. We also show that an MDP of minimizing an IRM that is composed of certain coherent risk measures is equivalent to a robust MDP of minimizing the worst-case expectation when the possible deviations of uncertain parameters from their nominal values are characterized with a concave function.
キーワード (和) マルコフ決定過程 / 時間整合性 / 反復的リスク指標 / 期待効用 / 動的計画法 / リスク / ロバスト /  
(英) Markov decision process / Time-consistency / Iterated risk measure / Expected utility / Dynamic programming / Risk / Robust /  
文献情報 信学技報, vol. 112, no. 279, IBISML2012-40, pp. 45-52, 2012年11月.
資料番号 IBISML2012-40 
発行日 2012-10-31 (IBISML) 
ISSN Print edition: ISSN 0913-5685    Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード IBISML2012-40

研究会情報
研究会 IBISML  
開催期間 2012-11-07 - 2012-11-09 
開催地(和) 筑波大学 東京キャンパス文京校舎 
開催地(英) Bunkyo School Building, Tokyo Campus, Tsukuba Univ. 
テーマ(和) 第15回情報論的学習理論ワークショップ 
テーマ(英) the 15th Information-Based Induction Sciences Workshop 
講演論文情報の詳細
申込み研究会 IBISML 
会議コード 2012-11-IBISML 
本文の言語 英語(日本語タイトルあり) 
タイトル(和) 時間整合的マルコフ決定過程のロバスト性 
サブタイトル(和)  
タイトル(英) Robustness of time-consistent Markov decision processes 
サブタイトル(英)  
キーワード(1)(和/英) マルコフ決定過程 / Markov decision process  
キーワード(2)(和/英) 時間整合性 / Time-consistency  
キーワード(3)(和/英) 反復的リスク指標 / Iterated risk measure  
キーワード(4)(和/英) 期待効用 / Expected utility  
キーワード(5)(和/英) 動的計画法 / Dynamic programming  
キーワード(6)(和/英) リスク / Risk  
キーワード(7)(和/英) ロバスト / Robust  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 恐神 貴行 / Takayuki Osogami / オソガミ タカユキ
第1著者 所属(和/英) 日本アイ・ビー・エム株式会社 (略称: 日本IBM)
IBM Japan, Ltd. (略称: IBM Japan)
第2著者 氏名(和/英/ヨミ) / /
第2著者 所属(和/英) (略称: )
(略称: )
第3著者 氏名(和/英/ヨミ) / /
第3著者 所属(和/英) (略称: )
(略称: )
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2012-11-07 15:30:00 
発表時間 150分 
申込先研究会 IBISML 
資料番号 IBISML2012-40 
巻番号(vol) vol.112 
号番号(no) no.279 
ページ範囲 pp.45-52 
ページ数
発行日 2012-10-31 (IBISML) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会