講演抄録/キーワード |
講演名 |
2020-12-02 10:00
マルコフ決定過程問題における学習期間の行動のベイズ決定理論に基づく最適化 ○一條尚希・中原悠太・本村勇人・松嶋敏泰(早大) IT2020-31 |
抄録 |
(和) |
遷移確率未知のマルコフ決定過程 (MDP) 問題においては学習と報酬獲得を両立する必要がある.これに 対して,期間を学習期間と制御期間に分割して行動選択を行う手法がある.本研究では,遷移確率未知の期間を分割した MDP を用いて学習期間の遷移サンプル収集の問題を考える.その上で,学習期間の行動選択の目的を「 御期間の割引総報酬のベイズ規準での最大化」と定めて解を導出する. そして,学習期間の長さについて指数オー ダーである解の計算量を減らす近似アルゴリズムを提案する. |
(英) |
In Markov decision process(MDP) problems with an unknown transition probability, a learning agent has to learn the unknown information and get rewards at the same time. One way to deal with this difficulty is to separate the period of the MDP into two parts; the learning period and the earning period. In this paper, we consider a decision problem of sampling actions to learn the unknown information in the learning period of the divided MDP. Our purpose is formulated as a maximization of the total discounted reward based on the Bayes decision theory. We derive a theoretical solution for it. However, its computational complexity is on the exponential order with respect to the length of the learning period. Therefore, we propose two approximation algorithms to reduce computational complexity. |
キーワード |
(和) |
マルコフ決定過程 / 動的計画法 / 価値反復法 / 強化学習 / ベイズ決定理論 / / / |
(英) |
Markov decision process / Dynamic Programming / Policy iteration / Reinforcement learning / Bayes decision theory / / / |
文献情報 |
信学技報, vol. 120, no. 268, IT2020-31, pp. 38-43, 2020年12月. |
資料番号 |
IT2020-31 |
発行日 |
2020-11-24 (IT) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
IT2020-31 |