2013年7月31日水曜日

Neural Correlates of the Divergence of Instrumental Probability Distributions

Mimi Liljeholm, Shuo Wang, June Zhang, and John P. O'Doherty
J. Neurosci. 2013;33 12519-12527
http://www.jneurosci.org/cgi/content/abstract/33/30/12519?etoc

【概要】
環境(状態遷移確率)の学習は意思決定に有用だが、コストもかかる。もし「各行動に応じた確率分布」に差がないのなら、環境の学習は必要ない。脳の中にこの「確率分布の差」をコードしている場所があるはずだ→IPL(下頭頂小葉)がコード。

【背景/仮説】
意思決定において、環境(各行動に応じた状態遷移確率)を学習することは重要だが、一方でコストもかかる。
もし、各行動に応じた遷移確率分布に大した差がないのであれば、このような学習を行う必要はない。
→脳の中に「各行動に応じた遷移確率分布の差」を処理する部位があるはず。

【ヒトfMRI実験/結果】
IPL(下頭頂小葉)の活動が「各行動に応じた遷移確率分布の差」に対応していた。

Flexible action selection requires knowledge about how alternative actions impact the environment: a “cognitive map” of instrumental contingencies. Reinforcement learning theories formalize this map as a set of stochastic relationships between actions and states, such that for any given action considered in a current state, a probability distribution is specified over possible outcome states. Here, we show that activity in the human inferior parietal lobule correlates with the divergence of such outcome distributions–a measure that reflects whether discrimination between alternative actions increases the controllability of the future–and, further, that this effect is dissociable from those of other information theoretic and motivational variables, such as outcome entropy, action values, and outcome utilities. Our results suggest that, although ultimately combined with reward estimates to generate action values, outcome probability distributions associated with alternative actions may be contrasted independently of valence computations, to narrow the scope of the action selection problem.

0 件のコメント:

コメントを投稿