お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2012-06-28 11:10
2種類のTD誤差を用いた脳における状態価値の計算モデル
篠塚正成森田昌彦筑波大NC2012-5
抄録 (和) Schultzらにより,中脳ドーパミンニューロンが強化学習におけるTD誤差に相当する活動を示すことが報告されて以来,大脳基底核は強化学習に大きく関与しているという見方が有力であるが,従来の状態価値の計算モデルにはいくつかの疑問点がある.本研究では,予測および実測という2種類のTD誤差を用いることによって,不自然なバッファ回路などを必要としない状態価値の計算モデルを構成した.簡単な報酬予測課題に関して数値実験を行ったところ,予測TD誤差が行動や報酬の履歴に依存して短期的に変動し,それに追従する形で実測TD誤差がなだらかに変動することによって,長期的に見た状態価値が獲得可能であることが示された.本モデルは,関係する脳領域の構造や生理学的知見とかなりよく整合し,脳内に複数の異なるドーパミン系が存在する理由を説明することができる. 
(英) The basal ganglia has been considered to be deeply involved in reinforcement learning since Schultz et al. reported that the midbrain dopamine neurons show activities in accordance with temporal differences (TD). However, existing TD-learning models of the basal ganglia seem to assume some implausible neural mechanisms. We constructed a more plausible model for state value computation by introducing two kinds of TD signals: prospective and actual. Computer simulations on a simple reward prediction task showed that the prospective TD signal varies frequently depending on the short-term history of actions and rewards, and that longer-term state values can be acquired based on the actual TD signal which follows the prospective one with a smaller variation. This model leads to the hypothesis that these two TD signals may be encoded by different dopamine systems in the midbrain.
キーワード (和) 強化学習 / TD誤差 / 状態価値関数 / 大脳基底核 / ドーパミンニューロン / / /  
(英) reinforcement learning / temporal difference / state value function / basal ganglia / dopamine neurons / / /  
文献情報 信学技報, vol. 112, no. 108, NC2012-5, pp. 25-30, 2012年6月.
資料番号 NC2012-5 
発行日 2012-06-21 (NC) 
ISSN Print edition: ISSN 0913-5685    Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード NC2012-5

研究会情報
研究会 NC IPSJ-BIO  
開催期間 2012-06-28 - 2012-06-29 
開催地(和) 沖縄科学技術大学院大学 
開催地(英) OIST, Okinawa 
テーマ(和) 機械学習によるバイオデータマインニング、一般 
テーマ(英) Machine Learning Approach to Biodata Mining, and General 
講演論文情報の詳細
申込み研究会 NC 
会議コード 2012-06-NC-BIO 
本文の言語 日本語 
タイトル(和) 2種類のTD誤差を用いた脳における状態価値の計算モデル 
サブタイトル(和)  
タイトル(英) A Computational Model for State Value Estimation in the Brain Using Two Kinds of Temporal Differences 
サブタイトル(英)  
キーワード(1)(和/英) 強化学習 / reinforcement learning  
キーワード(2)(和/英) TD誤差 / temporal difference  
キーワード(3)(和/英) 状態価値関数 / state value function  
キーワード(4)(和/英) 大脳基底核 / basal ganglia  
キーワード(5)(和/英) ドーパミンニューロン / dopamine neurons  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 篠塚 正成 / Masanari Shinotsuka / シノツカ マサナリ
第1著者 所属(和/英) 筑波大学 (略称: 筑波大)
University of Tsukuba (略称: Univ. of Tsukuba)
第2著者 氏名(和/英/ヨミ) 森田 昌彦 / Masahiko Morita /
第2著者 所属(和/英) 筑波大学 (略称: 筑波大)
University of Tsukuba (略称: Univ. of Tsukuba)
第3著者 氏名(和/英/ヨミ) / /
第3著者 所属(和/英) (略称: )
(略称: )
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2012-06-28 11:10:00 
発表時間 25分 
申込先研究会 NC 
資料番号 NC2012-5 
巻番号(vol) vol.112 
号番号(no) no.108 
ページ範囲 pp.25-30 
ページ数
発行日 2012-06-21 (NC) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会