2011年1月13日木曜日

A framework for studying the neurobiology of value-based decision making.

Rangel A, Camerer C, Montague PR.
Nat Rev Neurosci. 2008 Jul;9(7):545-56.

価値に基づく意思決定の脳科学を研究する枠組

・意思決定に関わる計算:
意思決定に関わる計算は5つに分けられる。
(1)Representation:
環境や内部状態、実行可能な選択肢を特定する
(2)Valuation:
実行可能な行動の価値を見積もる
(3)Action selection:
上記の価値に基づいて、行動を決める
(4)Outcome evaluation:
行動の結果を評価する
(5)Learning:
その結果の評価をもとに学習する
→それぞれの段階について議論して行く。

・Representation:
残念ながら、これについてはよく分かっていない。

・Valuation:
人間・動物の行動には3種類あると言われている。

(a) Pavlovian systems:
多くの場合、"innate" or "hard-wired"だが、トレーニングでも身に付く。
少数の特定の環境(刺激)と特定の行動を結び付けている。
ほとんど自動的な行動だが、厳密にはそうではない(行動に価値を割り当てている)。
Pavlovian systemsの脳神経基盤は、the amygdala, the ventral striatum, and OFCを含むシステムが価値をコードしている。

(b) Habit systems:
繰り返しトレーニングすることで身に付く。
例:朝起きてコーヒーを飲む・いつも同じ道を通って通勤する。
脳神経基盤:dorsolateral striatum, cortico-tharamic loopが重要な役割を果たしている。

(c) Goal-directed systems:
結果や報酬を計算して行動を決める。行動と結果の関係・結果と報酬の関係が必要。
例:どの映画を観るか決める。
脳神経基盤:the dorsal striatumが行動と結果の関係、OFC & DLPFCが結果と報酬の関係をコード。
連合皮質-大脳基底核ループが重要な役割を果たしている。
Goal-directed systemsは環境の変化に「素早く」対応できるが、前の二つはできない!

価値判断に影響を与える要因:
リスク・不確実性や報酬の遅れも価値判断に影響を与える。
リスクについて:striatum, mOFCは報酬の期待値をコード。中脳ドーパミンニューロンは期待値とリスクをコード。IPCは期待値をコード。
→ striatum-OFCネットワークは統計的情報を処理?
不確実性について: amygdala, OFC, anterior insulaは不確実性を現すパラメータをコード。
報酬の遅れについて:ventral striatum, mOFCにhyperbolic signalをコードしている所がある。しかし、報酬の遅れについては実験のcontextに影響を受けやすく、よく分かっていない。
(リスクは結果の確率分布既知、不確実性は確率分布未知)

・Action selection:
あまりよく分かっていない。
状況に応じて、habit systemsとGoal-directed systemsを使い分けているという説もある。

・Outcome evaluation:
mOFCが結果の事後的な満足度をコード(飽きてくると減少する)。
OFCは正の評価をコード、負の評価はACCがコード。
また、OFCは「ワインの値段によって変わる評価」などをコード → 高次認知の評価。
ラットでは、dorsal ACC, nucleus accumbens, 淡蒼球で結果の評価をコード。

・Learning:
Habit systemsにおける強化学習が有名。
prediction error(予測誤差)が重要な役割:中脳ドーパミンニューロンとその投射先のventral striatumがコード。
しかし上記部位は正の予測誤差をコードしていて、負の予測誤差に関しては色々な説がある。例えば、amygdalaがコードしている、とか。
また、強化学習ではなく、実際には採用しなかった行動の価値も更新していく「fictive learning」も提案されている。

・最後は、今後の課題や応用可能性。

0 件のコメント:

コメントを投稿