このページの本文へ移動
HOME > 特別講演・シンポジウム > シンポジウム2

シンポジウム2

シンポジウム2

12月4日(日) 9:00〜11:00 シンポジウムスペース

「選択・価値・戦略 ― 強化をめぐる行動研究の展開と展望」

企画・司会
坂上貴之(慶應義塾大学)
話題提供者:
石井 拓(徳山大学)
南本敬史(独立行政法人 放射線医学総合研究所)
酒井 裕(玉川大学)
企画趣旨:

行動研究は、実験心理学の基本的な方法論を提供するだけでなく、その得られた成果は単に学習領域に留まらず、生理、知覚、認知、発達、教育、社会などの広い分野の心理学に影響を与えてきた。そして最近では、脳科学、行動生態学、行動経済学、機械学習といった心理学以外の領域とも接点を形成している。

本シンポジウムではこうした行動研究の現在と役割を外側と内側から俯瞰し、検証していくことを目的とする。話題提供者の方々は、いずれも強化・報酬をめぐる行動研究の知見を積極的に活用しながら現在のご自身の研究活動と結び付けている。行動研究との接点、ご自身の実証的理論的研究の紹介とそこにおける行動研究の役割、今後の行動研究への期待、といった話題についてお話しいただく予定である。

「強化研究の展開と展望」(仮題)
石井 拓(徳山大学)

オペラント条件づけの正の強化は、次のように定義される。ある行動に随伴してある出来事が起きたことにより、その行動が繰り返されやすくなることを強化と呼ぶ。そして行動を強化した出来事を強化子と呼ぶ。このような正の強化は心理学の中でもはや常識として知られるようになっているため、これに関する行動研究は歴史的役割を終えたと見なされることもある。しかし、強化に関する近年の研究によれば、むしろ私たちは強化についてまだよく理解していないということが明らかになってきたようである。

このような事態が生じたのは、強化子とされる出来事が複数の働きをもつためである。実は強化子の多重機能性はかなり昔から指摘されていたが、近年になってそれを効果的に示す実験が増えてきた。そのような研究によれば、強化子となる出来事には少なくとも3つの効果がある。1つは伝統的な強化効果の見方に沿うものであり、強化の対象となるターゲット行動を他の行動に比べて増やす効果である。第2は覚醒効果とでも呼ぶべきもので、強化子が出現することにより個体の活動性が全般的に活性化されて、それによりターゲット行動も増える効果である。第3は弁別刺激としての効果であり、強化子の出現そのものが将来の強化についての正の弁別刺激となり、それによってターゲット行動を増やす効果である。強化子となる出来事がもつこのような多重機能は従来の実験場面において重なりあっており、それらをいかにして分離するべきか、何を「正味の」強化効果と見なすべきかは未だ明らかでない。この点が行動研究によって解明されなければ、正の強化が起きるときの神経系の振舞いに関する解釈も滞るのではないだろうか。

「単一行動の実行を決める動機価値」(仮題)
南本敬史(独立行政法人 放射線医学総合研究所)

選択行動の選好を説明することが多くの状況で可能であることから、主体の主観的価値に基づく意思決定の枠組みは、行動研究のみならず、脳科学研究においても中心的役割を担っている。しかし、選択肢がない単一の行動を実行すべきか否かの判断には、期待される報酬量や確率といった主観的価値を形成する外部変数だけでなく、判断する時点において主体がどの程度その報酬を必要とするかという内部状態も影響する。したがって、このような単一の行動を実行する/しないの判断において、行動を説明する基準となる新たな“価値”の枠組みが必要であると考えられる。

近年、動物の水分報酬獲得のために単一行動を要求した場合、その行動が報酬量などの外部変数と要求時点における主体の水分需要という内部変数から説明できることを明らかにした。この結果から、単一行動を説明する新たな枠組みとして、報酬情報などの外部変数と報酬需要の内部変数から計算される動機価値(motivational value)という価値表現を提唱する。

この動機価値は主観的価値を包含し、動機価値の計算過程において主観的価値が脳内に表現されていることも見いだされた。さらに動機価値は“主体の気分”も反映することから、うつなど意欲の減退状態にある動物の行動とその薬物による治療効果を説明可能であることを示す。

「非合理行動の背後にある合理的な学習戦略」(仮題)
酒井 裕(玉川大学)

動物は生存のために、なるべく報酬が得られ、なるべく罰を避けられるような行動を取れるように、環境と相互作用しながら学習している。しかし、実験室ではしばしば、得られる報酬が最大化できないような行動に至ることがある。このような一見、非合理な行動は、個体の主観的な価値判断の結果である、という考え方が主流である。主観的価値としての解釈は万能であり、あらゆる選好を説明することができるが、それ故により深い理解にはつながりにくい。

ここでは、別の解釈として、学習の戦略自体は合理的で報酬最大化を目指しているが、アルゴリズムの特性上、特殊な環境では報酬最大化に失敗して非合理な行動に至る、という可能性を検討する。古くから知られた動物の非合理行動の例として、マッチング行動と衝動的選好に注目し、その両者とも、あるクラスの強化学習アルゴリズムに分類される合理的な学習戦略の結果、顕れることを示す。

このように合理的な学習戦略を用いても、非合理な行動が顕れることがある。今まで、生得的に埋め込まれた主観的価値として片付けていた非合理な行動は、脳が用いている学習戦略を解明するために重要な糸口となりうる。行動上のアノマリーを発見し定量化することは、行動研究において、これまでも重要とされてきたが、今後さらに、行動研究に留まらず脳の中の学習原理を明らかにするためにも重要になってくると考えられる。