心理学の知見は一般化できるか　一般化可能性の問題【心理学】

2022年6月2日 18:07

だいぶ背伸びしてこの論文を読んでいました。

平⽯界・中村大輝「⼼理学における再現性危機の10年―危機は克服されたのか、克服されうるのか―（⾮短縮版）」2022年

平石界・中村大輝「心理学における再現性危機の10年―危機は克服されたのか，克服され得るのか―」2021年科学哲学 54-2

「科学哲学」誌に寄稿した論文の非短縮版を公開しました。よりマニアックな情報、より詳しい解説が含まれていて、お手元にあると何かと便利かと存じます。
「心理学における再現性危機の10年（非短縮版）」
https://t.co/BR6Ub4usQU @OSFramework
— Hiraishi Kai (@kaihiraishi) April 1, 2022

正本はこちらです。サッと読むのには短縮版のこちらをどうぞ。https://t.co/BBrmRiyrx0
— Hiraishi Kai (@kaihiraishi) April 1, 2022

おもしろいです。非常に充実した内容で大変勉強になります。

この記事では、心理学研究の「一般化可能性問題」に焦点を当てて、論文のごく一部を、大雑把に、私の関心を引いた部分を強調する構成で紹介していきたいと思います。

論文の素人紹介記事ですので、品質には期待せず、ざっくりと読んでいただければ幸いです。興味を引かれたら原論文を当たってください。

一般化可能性の問題

一般化可能性（Generalizability）の問題とは、心理学研究の知見は、従来主張されてきたほど一般化できないのではないか、という問題です。

ある研究が示した知見は、その研究の被験者の属性（人種、国籍、文化）や、実験条件（刺激の種類など）を越えては適用できないかもしれません。

⼀般化可能性危機とはつまり、従来の⼼理学研究が主張してきたほど、その知⾒の⼀般化可能性は⾼くないかも知れないという問題である。⼼理学者が、未測定要因の影響を知りながら分析モデルに組み込まず、限定された状況にしか適⽤できないはずの推定値を求めておきながら、その推定値を⽤いて⼀般的な議論をしてきたのではないかという指摘である。

平⽯界・中村大輝「⼼理学における再現性危機の10年　危機は克服されたのか、克服されうるのか（⾮短縮版）」2022年 29頁

話自体はとても素朴なものなのですが……
あまりに素朴なだけに
「一般化できるかどうかって、やっぱり問題なんだ！」
と「逆に驚き！」感が否めません。

私が読んできた著作やら記事やらの多くでは、心理学の研究結果は当然のように一般化されていました。私なんかは「研究者たちがこう言うからには当然ある程度は一般化できるということなんだろうな」と無批判に受け取っていたのですが、これもまた良くない思考停止だったようです。

さて、心理学は一般化可能性問題とは別に「再現性の問題」や「頑健性の問題」も抱えているのですが、そちらの問題に向き合っているうちに、一般化可能性の問題がよりはっきりと見えてきたようです。

１　再現性の問題から一般化可能性の問題へ

再現性（Replicability）の問題とは、同じ分析法を異なるデータに対して用いた場合に、ある程度同じ結果が再現されるかという問題です。

ある研究に再現性がなかったからといって、直ちにその研究に問題があることにはなりません。再現できなかった理由が「人間の心理は時代や地域によって違うから」と言えそうならば、別の研究への糸口になりそうです。

しかし、再現性の危機が明らかにしたのは、「研究者自らノイズを拾いに行ってしまっていた（疑わしい研究慣習 QRPs）」ことでした。ノイズからその時代や地域による人間心理は見えてきません。

しかも、近年の「信頼性革命」以前に行われてきた研究は、追試研究も含めてQRPsの影響下にあります。追試研究も疑いの対象である以上、多くの追試研究に支えられてきた研究だからといって、十分には信頼できないのです。

というわけで、重要な発見とされてきた心理学研究は本当に再現性があるのかを確かめるため、改めて事前登録済の大規模追試が行われています。

「顔面フィードバック仮説」のケースをみてみましょう。

顔面フィードバック仮説とは、表情を作ると、それを原因として表情に対応した感情が生起するという仮説です。私は別記事で「表情フィードバック仮説」としてとりあげたことがあります。

さて、事前登録済大規模追試の結果は、統計的な有意な効果はみられないというものでした。

顔⾯フィードバック仮説を⽀持する研究は、SMS論⽂後にも多数が出版されていたが、その⼿続きそのままに直接的追試を⾏った研究は刊⾏されていなかった。そこに⽬をつけて事前審査付きの事前登録追試研究（Registered Replication Report）を⾏ったのが(Wagenmakers et al., 2016) である。（中略）確定した実験⼿続きに従って17の研究室で実験が実施され、合計で1,894名の参加者データが分析に⽤いられた。各研究室ごとに結果を⾒れば、仮説と⼀致する⽅向の結果であった研究室もあれば（9/17）、反対⽅向の結果であった研究室もあった。それらをメタ分析によって統合したところ、⻭条件（smile=笑顔）と唇条件（pout =ふくれっ⾯）で、⾯⽩さ評定値に統計的に有意な差があるとは⾔えない、という結果となった。

平⽯・中村 2022年（非短縮版）11-12頁

Wagenmakers et al., 2016
「Registered Replication Report: Strack, Martin, & Stepper (1988).」
https://psycnet.apa.org/record/2016-58542-014

しかし、大規模追試で否定的な結果が得られたといっても、「顔面フィードバック仮説は誤りだったのだ」という話にはなりませんでした。オリジナル研究の第一著者から、追試研究について批判が出たからです。

批判によれば、大規模追試研究にはいくつか欠陥がありました。例えば、「被験者がカメラを向けられていたこと」や、「実験対象が顔面フィードバック仮説を知っていた可能性が高い」という点で、オリジナルの研究とは異なっていました。また、実験に使われた漫画はオリジナル研究と同一のものを使っていたのですが、こちらはもはや30年前の漫画になっていて古すぎたかもしれません。

その中でStrackは、追試結果が否定的であったことへの驚きを述べた上で、その理由について4つの論点を挙げた (Strack, 2016) 。
1）⼤学の⼼理学⼊⾨の授業で顔⾯フィードバック仮説を扱うことが多いため、⼤学⽣から参加者を募った研究室での結果が影響を受けていたかも知れない。
2）新たに選び直したとは⾔え、30年前と同じGary Larsonの漫画を使ったのは適切でなかったかも知れない。
3）実験の様⼦を録画したことが参加者の⼼理に影響したかもしれない。
4）ポジティブな結果を報告しないという逆⽅向の公刊バイアスが働いていた可能性がある、である。

平⽯・中村 2022年（非短縮版）12頁

つまり、追試に失敗したのは、きちんとした再現実験になっていなかったせいであり、オリジナル研究と同じとみなせるような実験ができていたならば、実験は再現されていたかもしれないというわけです。

これらの批判には一理あり、「著者による後だしの負け惜しみだ」で済ますのは学問的ではありません。批判に応えるべく、再び大規模追試実験（Many Smilesプロジェクト）が行われることになったようです。

とはいえ、この再々追試で議論は決着するのでしょうか。次の追試が顔面フィードバック仮説に否定的な結果を出したところで、またもや「オリジナル研究と仕様が違ったせいだ」という話が出てきそうです。再々々追試、再々々々追試が必要になるだけかもしれません。

「しかし、このMany Smilesプロジェクトの結果がどのようなものになったとしても、それは当該プロジェクトで採⽤した研究仕様の下における結果に過ぎないという批判が寄せられることは想像に難くない。仕様の⼀部を変更しただけ（例えば参加者⺟集団が変わる、部屋にカメラや鏡を置くなど）だけで結果が変わるかも知れないとする批判を受けた時には、また（恐らくは⼤規模な）追加実験が必要となるのではないだろうか。」

平⽯・中村 2022年（非短縮版）12-13頁

こうなってくると、研究に再現性があるかないか、という論争はなかなか収束しそうにありません。

ただ、それでも大規模追試実験から見えてくる景色がありました。

というのも、仮に若干の仕様の変更で効果がなくなってしまうとするならば、顔面フィードバック効果は（存在するにしても）条件がそろった限定された環境でのみ発生するものだったことになります。

つまり、オリジナル研究から、「表情を作ると、それを原因として表情に対応した感情が生起する」などという一般的な主張をすることには、そもそも無理があったと言えるでしょう。

これこそ一般化可能性の問題であり、再現性の問題とは別種の問題です。仮に再度の大規模追試で「顔面フィードバック仮説」に再現性が確認されたとしても、その知見が一般化できるのかどうかは別途問われねばなりません。

カメラの有無、漫画の古さなどによって結果が違ってくるというならば、全く別ジャンルの漫画ならどうなのか。自宅で読むのと大学で読むのでは違うのか。漫才や映画ならどうなのか。日本人大学生にも当てはまるのか。いくらでも疑問は湧いてきます。

それらの疑問に答えられていない研究は、仮に再現性があったとしても、「表情を作ると、それを原因として表情に対応した感情が生起する」という一般論を引き出せるような研究ではないでしょう。そもそも「顔面フィードバック仮説」などと呼んでいたのが誤りだったということになりそうです。

平石・中村論文の以下の指摘は、なかなか強烈です。

顔⾯フィードバックのオリジナル研究のタイトルは「⼈間の笑顔の抑制条件と促進条件：顔⾯フィードバック仮説の⾮侵襲的検証」であった。⼀般化可能性に配慮するなら「北⽶⼤学⽣は、実験室内でペンを⻭でくわえてGary LarsonのThe Far Sideから選んだ、ほどほどに⾯⽩い漫画４点を⾒ると、ペンを唇でくわえた時よりも、可笑しみを感じやすい」とするべきではなかっただろうか。

平⽯・中村 2022年（非短縮版）30頁

もちろん、このような一般化可能性の問題は、顔面フィードバック仮説にのみ当てはまるものではありません。

それどころか、ほとんどの心理学研究について一般化可能性問題が立ちはだかっています。重要な指摘だと思ったので、長く引用します。

しかし、サンプルサイズだけでは一般化可能性を担保するには不十分だとYarkoniは論じる。顔面フィードバックの実験において、ある参加者がどのくらい漫画に可笑しみを感じるかには、様々な要因が関わる。偶々キャラクターが知人にそっくりだったのかも知れないし、何にでも可笑しみを感じ易い人なのかも知れない。目的変数（「可笑しみ」）に影響するそれらの要因を統計モデルに組み込むと、主目的である顔面フィードバック効果の推定精度は下がる。逆にそれらをモデルに組み込み損なえば、推定精度を過大評価してしまう。　
　ここで問題となるのは、心理学研究ではしばしば、目的変数に影響しうる要因を測定しておらず、それゆえ分析にも組み込んで来なかったことである（未測定要因の問題）。例えば、誰が実験進行役を務めるか、指示の文言、刺激の中身、実験室のセッティング、参加者の募集方法などが異なれば、目的変数も影響されたかも知れない。事実、心理学者はこれらの要因が無視できないものと考えてきた。マルチラボ追試を受けた顔面フィードバック仮説提唱者のコメントを思い出そう（Strack, 2016）。曰く、30年も経っているのにGary Larsonの漫画を用いたせいではないか（刺激の中身）、講義で仮説を耳にした恐れのある大学生サンプルを用いたせいかも知れない（参加者の募集方法）、実験を録画していたためかも知れない（実験室のセッティング）。未測定要因を用いて後付で結果を解釈する行為は心理学において珍しいことではないし、それらの全てが的外れとも言えない。問題はそれら未測定要因が分析に反映されていないことにある。研究仕様を定める際には、何を測定し、何を分析に含めるかも決定される。その際に含めるべき要因まで削ることが（自覚的もしくは無自覚に）横行しており、それゆえ得られた結果の一般化可能性が（ことごとく）過大評価されている恐れがある。

平石界・中村大輝
「心理学における再現性危機の10年―危機は克服されたのか，克服され得るのか―」
2021年科学哲学54-2 38-39頁

「得られた結果の一般化可能性が（ことごとく）過大評価されている恐れがある」とは、これもまた強烈な指摘です。

分析に組み込むべきなのに組み込まれていない要因は、上記の引用文中で例示されている「刺激の中身」「参加者の募集方法」「実験室のセッティング」だけではありません。

私も以前から随分と気になっているのが、文化差の問題です。心理学研究のサンプルが、「西洋の、教育を受けた、工業化した、豊かな、民主的な文化にいる人」に偏っているという問題は、指摘されて10年経過しても大きくは改善されていません。欧米圏では、サンプルの属性を明示するということさえ徹底されていないようです。

例えば⼼理学の主要誌で報告される報告の多くが、北⽶⼤学⽣を代表とする、WEIRD（Western, Educated, Industrialized,Rich, and Demoratic）集団からのサンプルを対象とした実験や調査によるものであることが指摘されて久しい (Arnett, 2008; Henrich et al., 2010a, 2010b) 。WEIRD問題が指摘されてから10年が経っているが未だ状況に⼤きな改善はなく、⼼理学研究のサンプルは欧⽶圏に⼤きく偏っている (Barrett, 2020; Clancy & Davis, 2019; Hruschka, Medin, et al.,2018; Rad et al., 2018; Thalmayer et al., 2021) 。そして⽶国⼈サンプルを⽤いた⼼理学論⽂はタイトルにサンプルの属性を明⽰しない傾向がある (Cheon et al., 2020; Kahalon etal., 2021) 。つまり偏ったサンプルから得られた研究結果にも関わらず、それが⼈類に普遍的な⼼理を明らかにしたかのような論⽂タイトルが⽤いられている。1990年代からの⽂化⼼理学の興隆 (Markus & Kitayama, 1991; Nisbett, 2004; Nisbett et al., 2001) や、⾮欧⽶圏サンプルの研究ではサンプル属性が明⽰される傾向があることを踏まえれば (Cheon etal., 2020; Kahalon et al., 2021) 、まさか⾃分の研究テーマに⽂化の影響があるとは思わなかった、という⾔い訳は通⽤しないだろう。
　そして、サンプル属性に限らず、知⾒の⼀般化可能性に配慮したタイトルが⽤いられることはほとんどない (Simons et al., 2017) 。（中略）最も厳密な表現が⽤いられると期待される学術論⽂がこのような状態であれば、より⼀般的な聴衆を対象とした広報において、⼀般化可能性について適切な表現が⽤いられていると期待することは、難しいだろう。

平⽯・中村 2022年（非短縮版）30頁

２　頑健性の問題から一般化可能性の問題へ

頑健性（Robustness）の問題とは、同じデータを異なる分析法によって解析したときに、ほぼ同じ結果が得られるかという問題です。

オープンサイエンスが広まるにつれて、手元のデータに対して、可能な分析仕様を全て試してみることさえ可能になってきました。

ほとんどの研究仕様が同様の結論を示すのならば、その結論は妥当性が高いということになりそうです。

頑健性をテストする手法にもさまざまあり、平石・中村論文では、マルチバース分析（multivers analysis）や仕様カーブ分析（Specification Curve Analysis, SCA）、Many Analystsアプローチを紹介した上で、それぞれが使用された実例と限界について詳しく書かれています。

ここではMany Analystsアプローチに関する話の一部だけ紹介します。

Many Analystsアプローチとは、同じデータを多数の研究者に分析してもらうことで仕様のバリエーションを増やそうとするものです。

このアプローチによる研究（Schweinsberg et al., 2021）によって、頑健な研究を行うことの難しさが浮き彫りになりました。

研究の概要はこちらです。

Many Analystsアプローチがより⼤きな分析結果のばらつきを⽣みうるという報告もある(Schweinsberg et al., 2021) 。
　この研究ではまず、アカデミックなオンラインフォーラムにおける約8000コメント300万語を超えるテキストデータについて、それを⽤いて検証可能な仮説を募集した。そして幾つかの分析チームが試験的な分析を⾏うことで、分析結果のばらつきが⼤きくなりそうと⾒込まれた2つの仮説を採⽤した。
　それから、その2つの仮説を検証する分析チームを募集した。

平⽯・中村 2022年（非短縮版）23頁

簡単に言うと「アカデミックなオンラインフォーラムのテキストデータ」を材料にして、複数のチームが２つの仮説を分析することになったということです。

1つ目の仮説は、「ディスカッションにおける⼥性参加者の数が多いほうが、⼥性が積極的に会話に参加する傾向がある」というもの。

同じデータから分析をするのですから、どのチームも同じ結果を報告してもおかしくありません。ところが、結果はそこそこ割れます。ただ、こちらは一応「仮説を支持する方向で有意」とする報告が優勢ではありました。

仮説1は「ディスカッションにおける⼥性参加者の数が多いほうが、⼥性が積極的に会話に参加する傾向がある」（ A womanʼs tendency to participate actively in a conversation correlates positively with the number of females in the discussion ）というものであった。（中略）
　仮説1については、仮説を⽀持する⽅向で有意だったとする報告が9件（63.4%）、仮説と逆の⽅向で有意だったとする報告が3件（21.4%）、仮説と逆の⽅向だが有意でないとするものが2件（14.2%）であった。

平⽯・中村 2022年（非短縮版）23頁

２つ目の仮説は、「地位の⾼い参加者は、地位の低い参加者よりも、より雄弁である」というもの。

こちらはかなり問題で、なんと結果が真っ二つに割れてしまいます。

仮説2は「地位の⾼い参加者は、地位の低い参加者よりも、より雄弁である」（ Higher status participants are more verbose than are lower status participants ）であった。
（中略）
　仮説2については、仮説を⽀持する⽅向で有意だったとする報告が4件（28.6%）、仮説と逆の⽅向で有意だったとする報告が3件（21.4%）、仮説と同じ⽅向で有意でないものが3件、仮説と逆で有意でないものが4件であった。
　同じ仮説について、同じデータセットを⽤いても、これだけの分析結果の違いが⽣じたことをSchweinsbergらは「過激なばらつき」（radical dispersion）と表現している。

平⽯・中村 2022年（非短縮版）23頁

同じデータを渡して専門家に分析させたら、仮説の真偽が真っ二つに分かれた。穏やかな話ではありません。

このばらつきの原因は、仮説中にある「発言者の地位」や「雄弁さ」をどう解釈するか、分析チームによって判断が分かれたことにあったようです。

「発言者の地位」といっても、職位（教授、ポスドクなど）、執筆した論文の被引用数、博士号の有無など考慮材料は色々あります。「雄弁さ」にしても、単語数、文字数、一コメント当たりの平均文字数などのどれではかるべきか定かではありません。

多義的な解釈を許す仮説は、研究仕様について研究者の自由度が大きく、それが結果の大きなばらつきをもたらしてしまうのです。こんなことでは、どのチームがだした結果についても信用することができません。

では、仮説をもっと明確なものに変更すればどうでしょう。「高い地位」ではなく「大学教授」に、「雄弁さ」ではなく「書く文字数」に限定してしまえば、分析チームが複数あっても結果のばらつきは小さくなるはずです。

しかし、このようにした場合、分析対象とされるのはあくまで「教授はポスドクよりもアカデミックなオンラインフォーラムで書く⽂字数が多い」といった仮説であり、「地位の高い人ほど雄弁である」という仮説ではありません。仮に前者の仮説が正しいとしても、そこから後者の仮説の正しさを導くことはできないのです。

例えばSchweinsberg et al., (2021)の仮説2について、「地位」や「雄弁さ」を厳密に定義して many analysts アプローチを⾏えば、分析チーム間の分散は⼩さくなるかも知れない。
　しかし、そこで得られた結論から「地位が⾼い者ほど雄弁である」という⼀般的な⾔説を導くことは、最早できない。
　なぜなら既にmany analysts アプローチが⽰してしまったように、「地位」や「雄弁さ」を異なった⽅法で変数化した時には、全く逆の分析結果となることが⼗分に考えられるからである。
　論⽂タイトルとして許されるのは例えば、「教授はポスドクよりもアカデミックなオンラインフォーラムで書く⽂字数が多い」といったものであり、そこから敷衍して「地位の⾼い⼈ほど雄弁である」などとは間違っても主張してはならないことになる。

平⽯・中村 2022年（非短縮版）25頁

多義的な仮説だと得られた結果が頑健ではなく信頼しがたい。明確な仮説だと、得られた知見が頑健であるが一般化しがたい。

言われてみれば当たり前のことなのですが、頑健性を確かめるためのMany Analystsアプローチによって、常識的かつシビアな現実が改めて突きつけられたと言えるでしょう。

Schweinsberg et al., 2021「Same data, different conclusions: Radical dispersion in empirical results when independent analysts operationalize and test the same hypothesis」

「再現性の問題」「頑健性の問題」のどちらも大きな問題です。しかしそれを越えた先には、「一般化可能性の問題」というさらに大きいかもしれない問題が聳え立っています。

では、心理学はどう進めばよいのか…。

これについても平⽯・中村論文では提案がなされています。私はまだ咀嚼しきれていませんが、心理学が骨格のある学問になるためには重要なんだろうなぁという指摘の数々でありました。

心理学の知見は一般化できるか 一般化可能性の問題【心理学】

一般化可能性の問題

１ 再現性の問題から一般化可能性の問題へ

２ 頑健性の問題から一般化可能性の問題へ

いいなと思ったら応援しよう！

心理学の知見は一般化できるか　一般化可能性の問題【心理学】

１　再現性の問題から一般化可能性の問題へ

２　頑健性の問題から一般化可能性の問題へ