見出し画像

報酬学習と意思決定

人が意思決定をするときに、脳はどんな働きをしているのか?そのような研究は、古くからされています。一つのマイルストーンは、意思決定には、思考系と感情系のどちらの作用も受けますが、感情が反応している時は、圧倒的に感情による影響が大きくなっちゃうよということが、脳反応のあり方と、意思決定の研究からわかってきています。

もちろん、あくまで研究機関の実験現場での知見なので、人によっては、どんなに感情が強く反応しても、それをうまくマネジメントして、思考系を優位に働かせるなんてこともできるでしょう。なので、一概に言えることではありませんが、一般的には、我々の意思決定は感情によるところが大きいわけです。

「よくある、頭じゃわかっているんだけど、、、」やっちゃうことは、たいてい感情によるところが大きいでしょう。

そして神経科学の世界では、この意思決定のメカニズムに対する研究はますます進められていて、それはそれは多くの要素が関わる複雑系ですから、簡単に意思決定の仕組みをドーンっと示せるわけではないのですが、いろんな意思決定の部分的なものが進められています。僕もいつか統合的に整理したいなぁとは思っていますが、今回は、以下の論文は、我らがUCLAからの2022年の論文です(知らんがな!母校愛)。笑

報酬学習と意思決定における扁桃体という脳部位と脳の外側の皮質とのコラボのあり方を教えてくれています。なので、当然意思決定の全てを伝えているわけでなく、あくまで報酬学習と意思決定の関係性。それをいろんな脳部位ある中で、扁桃体と大脳新皮質、より具体的には、OFC(orbitofrontal cortex)という脳部位とのコラボのあり方を紐解いてくれています。いやまぁ、そういう一つ一つのマイクロな研究によって、おっきな世界が見えてくるはずです!ありがたや!

OFCは、さらにその外側(Lateral)なのか内側(Medial)なのかで、LOFCとMOFCに分かれて機能を異にします。扁桃体(Amygdala)も、細かく分けるといろんな部位に分かれるわけですが、その一部である、basolateral amygdala(BLA)が今回の焦点。

報酬が関与する意思決定の場合、オプションから想定される報酬、そしてその時の欲しさ度合いが少なくとも関与します(他にもありますが、本論文ではそのように説明されています)。そして、その想定などには、当然、これまでの経験による記憶というものが関与しており、報酬関与の意思決定には、それに伴う学習機構も、そして記憶を引き出す仕組みも関与しているはずです。そのような仕組みが、LOFCとMOFCとBLAの関係で見えてきました。

LOFCもMOFCも、BLAと相互作用します。すなわち、LOFCとMOFCからBLAに入力することもあるし、BLAからLOFCとMOFCに入力することもありますよということ。それぞれに重要な役割があり、その役割を紐解いてくれているのが本論文。

LOFC→BLA:
報酬体験からの学びを促進。実際の体験から、BLAにどんなメリットがあったかを具体的に記憶させます。次の意思決定に活用するためですね。

MOFC→BLA:
記憶された情報の活用を促進。これまでの体験から、その報酬を追うの追わないのというのを意思決定されるための情報を送っています。

今度は、逆にBLAからOFCへの作用を見ていきましょう。

BLA→LOFC:
記憶から造られる具体的に想定される報酬を脳に表現。実際に得られるものが何かという情報ですね。MOFC→BLAと似ていますが、MOFC→BLAはより広範囲に過去の体験を探る可能性があるのに対し、BLA→LOFCはより具体的な報酬情報を記憶から造っていると言えるでしょう。

BLA→MOFC:
想定される事態の価値を理解することを促進。具体的に何が得られるのかという情報も大切ですが、トータルでどんな結末があるのか、それを踏まえて意思決定する必要がありますから、そんな役割を担っていると言えそうですね。

こう整理してみると、BLAとOFCとの関わりの中で、LOFCはより具体的な学習やイメージに寄与し、MOFCはより抽象的な全体感を持った情報のやり取りをしているように感じますね。

もちろん、これはあくまでも我々の意思決定のあり方の一側面であり、全てではありません。少なくとも報酬選択という際の意思決定という制限もあります。しかし、これだけでも大いに学ぶことがありそうだと勝手に思っちゃうわけです。

何か意思決定する時、このLOFCよりかMOFCよりか、そして両者をうまく活用できているか否か、そしてその学習もうまく活用できているか否か。

報酬予測に、具体性が高まってこないと、なかなか意思決定できない人は多いかもしれません。踏ん切りがつかない。何が得られるのか、それを脳でピクチャリングする力ですね。それを高めることは、LOFCとBLAとの関係を強固にするでしょう。

またその具体ばかりを活用して、MOFC、全体的判断が疎かになることもあるかもしれません。木ばかり見て森を見ず的な。俯瞰する、見渡す、全体的に判断することも大事でしょう。これはMOFCとBLAとの関係を鍛えることで、高められるでしょう。

体験からの学習も大切です。単にやってお終いでは、脳は十分に記憶として情報を保存してくれません。どんな体験をして、どんな報酬を得たのか、どんな意思決定だったのか、そんな体験を通しての学習が脳に多く刻まれている人は、どんどん意思決定の精度が高まっていくわけです。その時の学習のあり方も、具象を意識する。実際得られた報酬の学習も大切(LOFC的)ですが、忘れられやすいのは、そこから得られた副次的な報酬や価値などでしょう。その全体的な報酬に対する学習(MOFC的)が我々の意思決定の精度をグンと高めると考えられます。(そしてこの仕組みの延長に我々の直感、直観の価値が眠っています。またいつか。)

報酬にまつわる具象の学習体験。とりわけ抽象的、広範な価値や報酬の学習というのは、そこまで注意が向かないことも多く、取りこぼすことが多いでしょう。しかし、そんな情報を獲得できてない脳は、具体的な報酬がちらつくものにしかモチベーションが高まらないでしょうし、獲得に動かないでしょう。

具体的には報酬がイメージできなくとも、可能性などを信じ、アクションすることができる人とのいうのは、より広範囲な近視眼的でない脳モードが活用できる人なのでしょう。

とまぁ、毎朝のルーティンの論文読み漁り、そこから1本のメモ残し、、、今日はいつになく分量も多い!笑。UCLAバイアスか、それにしてもDA(ドーパミン)全開で、すんごい集中してかけちゃった♪やればできるじゃないか、青砥くん。少し長くなっちゃいましたが、青砥の備忘録にお付き合い、ありがとうございましたm(_ _)m

Wassum K. M. (2022). Amygdala-cortical collaboration in reward learning and decision making. eLife, 11, e80926. https://doi.org/10.7554/eLife.80926

Picture from


この記事が気に入ったらサポートをしてみませんか?