講演抄録/キーワード |
講演名 |
2022-09-15 15:05
迅速な学習機構を用いて逐次適応性を損なうことなく非線形性を扱う文脈付き多腕バンディット手法 ○三宅悠介(GMOペパボ/九大)・峯 恒憲(九大) AI2022-22 |
抄録 |
(和) |
情報システムが扱えるデータの種類と量の増加に伴い,情報システムに求められる意思決定の問題設定も複雑で高度化してきている.
特に,利用者から逐次的に出される多様かつ継続的に変化する要求への適応(逐次適応性)が求められており,そのためには,意思決定基準を遅延なく更新できる意思決定機構を持つことが望まれる.
しかし,この機構を定式化した文脈付き多腕バンディット問題に対する従来の解法の多くは,文脈と報酬の間に単純な線形の関係性を仮定するため,複雑な意思決定の実現には適さない.
一方で,非線形な関係性も扱えるニューラルネットワーク(NN)を導入する解法では,複雑さの解決に起因する学習時間の増加から逐次適応性が損なわれる.
本報告では,反復的な学習が不要なNNモデルであるExtreme Learning Machineを多腕バンディット解法に統合することで,複雑な意思決定に対する逐次適応性を損なわない手法を提案する.
提案手法の評価では,非線形な文脈付き多腕バンディット問題のシミュレーションを通して,線形な解法に対して累積報酬が増加すること,ならびに反復的な学習を用いる非線形な解法に対して,同程度の累積報酬でありながら実行時間を大幅に短縮することを示した. |
(英) |
|
キーワード |
(和) |
多腕バンディット問題 / コンテキスト / ニューラルネットワーク / オンライン学習 / / / / |
(英) |
/ / / / / / / |
文献情報 |
信学技報, vol. 122, no. 186, AI2022-22, pp. 25-30, 2022年9月. |
資料番号 |
AI2022-22 |
発行日 |
2022-09-08 (AI) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
AI2022-22 |