時間整合的マルコフ決定過程のロバスト性

恐神,貴行

お知らせ 2023年度・2024年度学生員会費割引キャンペーン実施中です
お知らせ技術研究報告と和文論文誌Ｃの同時投稿施策(掲載料1割引き)について
お知らせ電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について

電子情報通信学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
[ログイン]
技報アーカイブ

トップに戻る

前のページに戻る

[Japanese] / [English]

講演抄録／キーワード
講演名		2012-11-07 15:30 時間整合的マルコフ決定過程のロバスト性 ○恐神貴行（日本IBM） IBISML2012-40
抄録	（和）	マルコフ決定過程(MDP)の目的関数が、単調性を持つ反復的リスク指標である場合には、そのMDPの最適施策が動的計画法によって求められることを示す。更に単調性を持つ反復的リスク指標がさらに並進不変性を持つ場合には、MDPの最適施策がより効率的に求められることを示す。単調性を持つ反復的リスク指標のクラスは効用関数が単調性を持つ期待効用のクラスを真に含む。理にかなっていると思われるリスク選好が、期待効用では表現できないが、反復的リスク指標では表現できることを示す。更に、ある反復的リスク指標の最小化を目的とするMDPは、ロバストMDPとして解釈できることを示す。ロバストMDPは、MDPのパラメータ値が不確実であることを前提とし、最悪の場合に対して、累積期待コストなどを最小化することを目的とする。具体的には、期待指数効用の最小化を目的とするMDPは、期待値からパラメータの基準値からの乖離度のカルバック・ライブラー距離を減じた値を、最悪の場合において最小化するロバストMDPと等価であることを示す。また、コヒーレントなリスク指標からなる反復的リスク指標の値を最小化することを目的とするMDPは、不確実性がある凹関数によって特徴付けられるロバストMDPと等価であることを示す。
	（英）	We show that an optimal policy for a Markov decision process (MDP) can be found with dynamic programming, when the objective is to minimize an iterated risk measure (IRM) that has a property we call monotonicity. When the monotonic IRM has the additional property of translation-invariance, we show that the optimal policy can be found more efficiently. The class of monotonic IRMs strictly contains the class of expected utility with monotonic utility functions. We then demonstrate that expected utility is inflexible in representing a significant set of risk-preferences that appear to be reasonable, but that such risk-preferences can be represented by IRMs. Furthermore, we show that the MDP with the objective of minimizing an IRM can be interpreted as a robust MDP, whose objective is to minimize a function, such as the expectation of cumulative cost, for the worst case when the parameters have uncertainties. Specifically, we show that an MDP of minimizing the expected exponential utility is equivalent to a robust MDP of minimizing the worst-case expectation with a penalty for the deviation of the uncertain parameters from their nominal values, which is measured with the Kullback-Leibler divergence. We also show that an MDP of minimizing an IRM that is composed of certain coherent risk measures is equivalent to a robust MDP of minimizing the worst-case expectation when the possible deviations of uncertain parameters from their nominal values are characterized with a concave function.
キーワード	（和）	マルコフ決定過程 / 時間整合性 / 反復的リスク指標 / 期待効用 / 動的計画法 / リスク / ロバスト /
	（英）	Markov decision process / Time-consistency / Iterated risk measure / Expected utility / Dynamic programming / Risk / Robust /
文献情報		信学技報, vol. 112, no. 279, IBISML2012-40, pp. 45-52, 2012年11月.
資料番号		IBISML2012-40
発行日		2012-10-31 (IBISML)
ISSN		Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380
著作権について		技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します．(許諾番号：10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード		IBISML2012-40

研究会情報
研究会	IBISML
開催期間	2012-11-07 - 2012-11-09
開催地（和）	筑波大学東京キャンパス文京校舎
開催地（英）	Bunkyo School Building, Tokyo Campus, Tsukuba Univ.
テーマ（和）	第15回情報論的学習理論ワークショップ
テーマ（英）	the 15th Information-Based Induction Sciences Workshop
講演論文情報の詳細
申込み研究会	IBISML
会議コード	2012-11-IBISML
本文の言語	英語（日本語タイトルあり）
タイトル（和）	時間整合的マルコフ決定過程のロバスト性
サブタイトル（和）
タイトル（英）	Robustness of time-consistent Markov decision processes
サブタイトル（英）
キーワード(1)（和/英）	マルコフ決定過程 / Markov decision process
キーワード(2)（和/英）	時間整合性 / Time-consistency
キーワード(3)（和/英）	反復的リスク指標 / Iterated risk measure
キーワード(4)（和/英）	期待効用 / Expected utility
キーワード(5)（和/英）	動的計画法 / Dynamic programming
キーワード(6)（和/英）	リスク / Risk
キーワード(7)（和/英）	ロバスト / Robust
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	恐神貴行 / Takayuki Osogami / オソガミタカユキ
第1著者所属（和/英）	日本アイ・ビー・エム株式会社 (略称：日本IBM) IBM Japan, Ltd. (略称： IBM Japan)
第2著者氏名（和/英/ヨミ）	/ /
第2著者所属（和/英）	(略称： ) (略称： )
第3著者氏名（和/英/ヨミ）	/ /
第3著者所属（和/英）	(略称： ) (略称： )
第4著者氏名（和/英/ヨミ）	/ /
第4著者所属（和/英）	(略称： ) (略称： )
第5著者氏名（和/英/ヨミ）	/ /
第5著者所属（和/英）	(略称： ) (略称： )
第6著者氏名（和/英/ヨミ）	/ /
第6著者所属（和/英）	(略称： ) (略称： )
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
講演者	第1著者
発表日時	2012-11-07 15:30:00
発表時間	150分
申込先研究会	IBISML
資料番号	IBISML2012-40
巻番号（vol）	vol.112
号番号（no）	no.279
ページ範囲	pp.45-52
ページ数	8
発行日	2012-10-31 (IBISML)

[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]

IEICE / 電子情報通信学会