2013年7月19日金曜日

The Curse of Planning: Dissecting Multiple Reinforcement-Learning Systems by Taxing the Central Executive

Otto AR, Gershman SJ, Markman AB, Daw ND.
Psychol Sci. 2013 May;24(5):751-61

【背景】
報酬に基づく意思決定/学習。
ヒトや動物は「モデル・フリー(簡単だけど柔軟性に欠ける)」と「モデル・ベースド(柔軟な対応が可能だが認知的負荷が高い)」、二種類の強化学習を使うことが知られている。

【実験/結果】
学習の間に「ワーキングメモリを使う必要のある課題」を挟むと、ヒトはより「モデル・フリー強化学習」を使うようになる。
また、ヒトは利用可能な認知的リソースに応じて二つの学習法を使い分けることができる。

【まとめ】
ヒトは利用可能な認知リソースに応じて、「モデル・フリー(簡単だけど柔軟性に欠ける)」と「モデル・ベースド(柔軟な対応が可能だが認知的負荷が高い)」、二種類の強化学習を使い分ける。 http://pss.sagepub.com/content/24/5/751

A number of accounts of human and animal behavior posit the operation of parallel and competing valuation systems in the control of choice behavior. In these accounts, a flexible but computationally expensive model-based reinforcement-learning system has been contrasted with a less flexible but more efficient model-free reinforcement-learning system. The factors governing which system controls behavior—and under what circumstances—are still unclear. Following the hypothesis that model-based reinforcement learning requires cognitive resources, we demonstrated that having human decision makers perform a demanding secondary task engenders increased reliance on a model-free reinforcement-learning strategy. Further, we showed that, across trials, people negotiate the trade-off between the two systems dynamically as a function of concurrent executive-function demands, and people’s choice latencies reflect the computational expenses of the strategy they employ. These results demonstrate that competition between multiple learning systems can be controlled on a trial-by-trial basis by modulating the availability of cognitive resources.

0 件のコメント:

コメントを投稿