講演抄録/キーワード |
講演名 |
2012-11-07 15:30
時間整合的マルコフ決定過程のロバスト性 ○恐神貴行(日本IBM) IBISML2012-40 |
抄録 |
(和) |
マルコフ決定過程(MDP)の目的関数が、単調性を持つ反復的リスク指標である場合には、そのMDPの最適施策が動的計画法によって求められることを示す。更に単調性を持つ反復的リスク指標がさらに並進不変性を持つ場合には、MDPの最適施策がより効率的に求められることを示す。単調性を持つ反復的リスク指標のクラスは効用関数が単調性を持つ期待効用のクラスを真に含む。理にかなっていると思われるリスク選好が、期待効用では表現できないが、反復的リスク指標では表現できることを示す。更に、ある反復的リスク指標の最小化を目的とするMDPは、ロバストMDPとして解釈できることを示す。ロバストMDPは、MDPのパラメータ値が不確実であることを前提とし、最悪の場合に対して、累積期待コストなどを最小化することを目的とする。具体的には、期待指数効用の最小化を目的とするMDPは、期待値からパラメータの基準値からの乖離度のカルバック・ライブラー距離を減じた値を、最悪の場合において最小化するロバストMDPと等価であることを示す。また、コヒーレントなリスク指標からなる反復的リスク指標の値を最小化することを目的とするMDPは、不確実性がある凹関数によって特徴付けられるロバストMDPと等価であることを示す。 |
(英) |
We show that an optimal policy for a Markov decision process (MDP) can be found with dynamic programming, when the objective is to minimize an iterated risk measure (IRM) that has a property we call monotonicity. When the monotonic IRM has the additional property of translation-invariance, we show that the optimal policy can be found more efficiently. The class of monotonic IRMs strictly contains the class of expected utility with monotonic utility functions. We then demonstrate that expected utility is inflexible in representing a significant set of risk-preferences that appear to be reasonable, but that such risk-preferences can be represented by IRMs. Furthermore, we show that the MDP with the objective of minimizing an IRM can be interpreted as a robust MDP, whose objective is to minimize a function, such as the expectation of cumulative cost, for the worst case when the parameters have uncertainties. Specifically, we show that an MDP of minimizing the expected exponential utility is equivalent to a robust MDP of minimizing the worst-case expectation with a penalty for the deviation of the uncertain parameters from their nominal values, which is measured with the Kullback-Leibler divergence. We also show that an MDP of minimizing an IRM that is composed of certain coherent risk measures is equivalent to a robust MDP of minimizing the worst-case expectation when the possible deviations of uncertain parameters from their nominal values are characterized with a concave function. |
キーワード |
(和) |
マルコフ決定過程 / 時間整合性 / 反復的リスク指標 / 期待効用 / 動的計画法 / リスク / ロバスト / |
(英) |
Markov decision process / Time-consistency / Iterated risk measure / Expected utility / Dynamic programming / Risk / Robust / |
文献情報 |
信学技報, vol. 112, no. 279, IBISML2012-40, pp. 45-52, 2012年11月. |
資料番号 |
IBISML2012-40 |
発行日 |
2012-10-31 (IBISML) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
IBISML2012-40 |
研究会情報 |
研究会 |
IBISML |
開催期間 |
2012-11-07 - 2012-11-09 |
開催地(和) |
筑波大学 東京キャンパス文京校舎 |
開催地(英) |
Bunkyo School Building, Tokyo Campus, Tsukuba Univ. |
テーマ(和) |
第15回情報論的学習理論ワークショップ |
テーマ(英) |
the 15th Information-Based Induction Sciences Workshop |
講演論文情報の詳細 |
申込み研究会 |
IBISML |
会議コード |
2012-11-IBISML |
本文の言語 |
英語(日本語タイトルあり) |
タイトル(和) |
時間整合的マルコフ決定過程のロバスト性 |
サブタイトル(和) |
|
タイトル(英) |
Robustness of time-consistent Markov decision processes |
サブタイトル(英) |
|
キーワード(1)(和/英) |
マルコフ決定過程 / Markov decision process |
キーワード(2)(和/英) |
時間整合性 / Time-consistency |
キーワード(3)(和/英) |
反復的リスク指標 / Iterated risk measure |
キーワード(4)(和/英) |
期待効用 / Expected utility |
キーワード(5)(和/英) |
動的計画法 / Dynamic programming |
キーワード(6)(和/英) |
リスク / Risk |
キーワード(7)(和/英) |
ロバスト / Robust |
キーワード(8)(和/英) |
/ |
第1著者 氏名(和/英/ヨミ) |
恐神 貴行 / Takayuki Osogami / オソガミ タカユキ |
第1著者 所属(和/英) |
日本アイ・ビー・エム株式会社 (略称: 日本IBM)
IBM Japan, Ltd. (略称: IBM Japan) |
第2著者 氏名(和/英/ヨミ) |
/ / |
第2著者 所属(和/英) |
(略称: )
(略称: ) |
第3著者 氏名(和/英/ヨミ) |
/ / |
第3著者 所属(和/英) |
(略称: )
(略称: ) |
第4著者 氏名(和/英/ヨミ) |
/ / |
第4著者 所属(和/英) |
(略称: )
(略称: ) |
第5著者 氏名(和/英/ヨミ) |
/ / |
第5著者 所属(和/英) |
(略称: )
(略称: ) |
第6著者 氏名(和/英/ヨミ) |
/ / |
第6著者 所属(和/英) |
(略称: )
(略称: ) |
第7著者 氏名(和/英/ヨミ) |
/ / |
第7著者 所属(和/英) |
(略称: )
(略称: ) |
第8著者 氏名(和/英/ヨミ) |
/ / |
第8著者 所属(和/英) |
(略称: )
(略称: ) |
第9著者 氏名(和/英/ヨミ) |
/ / |
第9著者 所属(和/英) |
(略称: )
(略称: ) |
第10著者 氏名(和/英/ヨミ) |
/ / |
第10著者 所属(和/英) |
(略称: )
(略称: ) |
第11著者 氏名(和/英/ヨミ) |
/ / |
第11著者 所属(和/英) |
(略称: )
(略称: ) |
第12著者 氏名(和/英/ヨミ) |
/ / |
第12著者 所属(和/英) |
(略称: )
(略称: ) |
第13著者 氏名(和/英/ヨミ) |
/ / |
第13著者 所属(和/英) |
(略称: )
(略称: ) |
第14著者 氏名(和/英/ヨミ) |
/ / |
第14著者 所属(和/英) |
(略称: )
(略称: ) |
第15著者 氏名(和/英/ヨミ) |
/ / |
第15著者 所属(和/英) |
(略称: )
(略称: ) |
第16著者 氏名(和/英/ヨミ) |
/ / |
第16著者 所属(和/英) |
(略称: )
(略称: ) |
第17著者 氏名(和/英/ヨミ) |
/ / |
第17著者 所属(和/英) |
(略称: )
(略称: ) |
第18著者 氏名(和/英/ヨミ) |
/ / |
第18著者 所属(和/英) |
(略称: )
(略称: ) |
第19著者 氏名(和/英/ヨミ) |
/ / |
第19著者 所属(和/英) |
(略称: )
(略称: ) |
第20著者 氏名(和/英/ヨミ) |
/ / |
第20著者 所属(和/英) |
(略称: )
(略称: ) |
講演者 |
第1著者 |
発表日時 |
2012-11-07 15:30:00 |
発表時間 |
150分 |
申込先研究会 |
IBISML |
資料番号 |
IBISML2012-40 |
巻番号(vol) |
vol.112 |
号番号(no) |
no.279 |
ページ範囲 |
pp.45-52 |
ページ数 |
8 |
発行日 |
2012-10-31 (IBISML) |
|