心理学・行動経済学等の著名な研究論文が次々に追試失敗【心理学】
見出し画像

心理学・行動経済学等の著名な研究論文が次々に追試失敗【心理学】


心理学の研究論文は再現性が低いことが指摘されていました。再現性が低くなる原因は、学界全体に「疑わしい研究手法 (QRPs)」が蔓延していたことにあるとみられます。

現在は学界全体をあげての対策が行われているようです。研究の事前登録、データの公開、追試などが重視されるようになっています。

学界は正しい方向に進んでいるようですが、だからこそ、重要な発見だとみなされてきた過去の研究成果が次々に覆されているようです。

少々調べましたが……、いやはやこれは……脱力しました。心理学以外の分野でも援用されている有名な研究たちが、あれもこれも。興味を引かれたものに重点をおきつつ、ざっくりとメモ的にまとめておくことにします。

追記(2021年9月12日
追試というのは、1年半以上かかるものも珍しくないようです。かなりの時間・精神力・体力を要するのに対して、見返りが少ないものといいます。この記事では多くの研究の再現性が失われていることを紹介しますが、背景には多くの研究者の善意があることを忘れてはならないと思いました。





1 再現性が疑われるなどしている研究たち


細かくみると、再現性がないとするものから、再現自体はできたが元論文ほどの効果は検出されなかったとするもの、元論文における説明の妥当性に疑問符がつくものなど、さまざまなパターンがあるようです。

再現性などが疑われており、かつ千回以上引用されている研究の整理としては、以下の「Reversals in psychology」という記事が優れているようです。

定番のDeepL翻訳おいときます。



日本の研究者の方々はツイッター上において、国外における追試論文をしばしば紹介してくれているようです。それらを中心に、疑われている研究たちを個別にみていくことにします。

どのアカウントがどの研究者のものなのかは、わかる範囲で記します。もちろん、アカウント主が追試論文の執筆者というわけではありません。

「Reversals in psychology」であげられているものもありますが、そうでないものもあります。


表情フィードバック仮説


表情フィードバック仮説とは、表情を作ると、それを原因として表情に対応した感情が生起するという仮説です。有名な仮説ですが、再現しても同じ結果は出ず、効果は思った以上に小さかったとのこと。

日本経済新聞 2019年12月14日
「ノーベル賞のパロディー版として⼈気がある「イグ・ノーベル賞」は9⽉、ドイツの⼼理学者、フリッツ・ストラック博⼠に2019年の⼼理学賞を贈った。授賞理由は「⼈が⼝にペンをくわえると笑顔になり気分も幸せになることを発⾒し、その後そうはならないことを発⾒した」。
 ストラック⽒が1988年に発表したこの研究内容は、著名な経済学者が「本⼈が知らない間に判断や考えを操作できる例」として引⽤するなど⾼く評価された。ところが別の研究グループが⼤規模な実験で検証したところ同じ結果は出ず、ストラック⽒も17年に「効果は思っていた以上に⼩さかった」と認めた。」
「心理学実験、再現できず信頼揺らぐ 学界に見直す動き」日本経済新聞 2019年12月14日https://www.nikkei.com/article/DGXMZO53325930T11C19A2MY1000/
なお、コメントを寄せている三浦麻子教授の研究所ウェブページでも記事内容が確認できる。
http://team1mile.com/asarinlab/2019/12/15/20191214nikkei/


けっこう驚きです。「ペンや箸をくわえて笑顔を作れば本当に幸せな気分になる」という話はしばしば聞いてきました。いまだに信じている人がいっぱいいるだろうなぁと思うところです。

ただし、追試に失敗した報告のあと、追試失敗の研究にも手順の誤りがあったのではないかと指摘されているようです。

以下のツイートも参照

https://psycnet.apa.org/record/2018-16714-001 以下DeepL翻訳

「私たちは、再現実験が失敗した理由として、再現実験のプロトコルがオリジナルの実験と決定的に異なる点があったことを想定しました。再現実験のすべてにおいて、参加者はビデオカメラで監視されることを知らされていたが、オリジナルの実験では参加者は監視、観察、記録されていなかった。これまでの知見では、監視・観察されていると感じると、判断を下す際の内的手がかりへの依存度が低下することがわかっている。したがって,再現実験の参加者を録画することで,顔面フィードバックへの依存度が低下するという仮説を立てた。仮説を検証するために,ビデオカメラを使用した条件と使用しない条件の2つの条件で,フェイシャル・フィードバック実験を再現した。その結果、カメラがない場合には有意なフェイシャルフィードバック効果が見られたが、カメラがある場合にはその効果はなくなった。これらの結果は、実験プロトコルのわずかな違いが、理論的に意味のある結果の変化につながる可能性を示唆しています。本研究が提唱する理論的・方法的アプローチは、失敗した再現実験を、研究分野全体の「終着点」から、人間の本質を理解するための新たな成長の道へと変えるものであると考えられる。」(DeepL翻訳)

なお、「Yuuko Morimoto」は、おそらく森本裕子さん(宇部フロンティア大学講師)のアカウント。なるほど。追試の失敗がビデオ撮影のせいだとしたら、復権の可能性もあるわけですか。



マシュマロテスト


マシュマロのつまみ食いを我慢できる子供は将来有望だ、というような仮説です。効果は限定的であるとのこと。

日本経済新聞 2019年12月14日
「最も典型的な例とされるのは⽶スタンフォード⼤学で60〜70年代にまとめられた「マシュマロ実験」だ。研究者は幼い⼦どもの前にマシュマロを置いてしばらく席を離れる。その間にマシュマロのつまみ⾷いを我慢できた⼦は「その後、⾼い学⼒などを⾝につけ社会的に成功する」という内容だ。
 この研究は「⼦どもを我慢強く育てれば成功する」というメッセージを教育界に与え影響⼒は⼤きかった。しかし18年に他のチームが再現した実験では、つまみ⾷いを我慢する影響は限定的だった。今では「教育や家庭の環境の⽅がより重要で、我慢強ければ成功するとは限らない」という考え⽅が⼀般的だ。」
(日本経済新聞 同上)


マシュマロテストはしばしば耳にしたし、目にしてきたので、ちょっと驚きです。ただ、もともとこの研究にはあまり関心は引かれていなかったので、私としてはショックはあまりありません。

なお、以下も参照。

森口佑介さんは発達心理学者(京都大学准教授)。マシュマロテストの効果は極めて弱い、もしくはほぼない、ですか。


「目」の効果(目の画像による向社会性の向上)


「こちらを見つめる目」の図柄があると、それを見た人は誠実に振る舞うようになるという仮説です。再現性がないとされています。

日本経済新聞 2019年12月14日
「また「⽬で監視する図柄を⾒た⼈は誠実に振る舞う」という実験結果が06年に公表され、不法侵⼊や窃盗などを防ぎたい場所に⼈の⽬を模した看板やポスターが設置された。この結果も11年の実験で再現に失敗した。」
(日本経済新聞 同上)


再現性がないというのはけっこう驚きですね。人の目を模した絵が描いてあるポスターは、たまにみかけます。

なお、「人の目効果」の研究は著名な日本人研究者も関わってきたので、日本の研究者コミュニティにとっても他人事ではないようです。

「Yuki Kamitani」は、知能情報学の神谷之康さん(京都大学教授)のアカウント。


スタンフォード監獄実験

スタンフォード大学で行われた心理学実験。普通の人々も刑務所の看守役・囚人役に選ばれると、看守・囚人らしく振る舞うようになることを示したはずでしたが、やらせ疑惑が出ています。再現性もないようです。

日本経済新聞 2019年12月14日
「スタンフォード⼤で71年に実施された「監獄実験」では、組織や役割が⼈格に⼤きな影響を及ぼすという結果を導き出した。実験の協⼒者を看守役と囚⼈役に分け、⼤学内に作った模擬的な監獄にとじ込めて変化を追跡した。実験を計画した⼼理学者が、看守役に囚⼈役を虐待するよう促していたなど不適切な介⼊があり、やはり再現できない代表的な事例にあげられる。」
(日本経済新聞 同上)

スタンフォード監獄実験が怪しいこと自体は知っていましたので、驚きはありません。なお、以下の記事も参考になります。



宣誓効果


宣誓という行為が人を正直にするという仮説です。この仮説を検証したとする実験は、行動経済学者主導のもと自動車保険会社によって実施されていたのですが、データの捏造があると指摘されました。以下の記事において詳しく解説がなされています。

あと、このブログもよかったので貼り付けておきます。



驚きとともにガックリです。宣誓効果の存在を知ったのは何年前だったか。当時はひねくれていたので、「こんな宣誓なんかに効果があるのか!」と、かなり驚いたものです。本当に効果がないかもしれないというなら肩透かし。ひねくれが足りなかったか……。行動経済学という分野そのものを疑っておくべきだったか? いや、それはさすがに無理だったよ……(←分野自体を疑うのは合理的でもないでしょう)。

捏造論文の共著者の一人がダン・アリエリーさんであることも注目すべきポイントでしょう。アリエリーは世界的に有名な学者であり、日本においても知名度が高いからです。早川書房から出ている『予想どおりに不合理』『不合理だからすべてがうまくいく』『ずる』などは読んだ人も多いはず。

アリエリーについて、以下のツイートも興味深いので記録しておきます。

「Y.Asako」は政治経済学者の浅古泰史さん(早稲田大学准教授)のアカウント。上記ツイート中にある「endowment effect 授かり効果」に再現性がない件については下の方で別途とりあげます。

「Ken McAlinn」は統計学者のマクリン謙一郎さん(テンプル大学助教)のアカウント。

アリエリーが「宣誓効果」の証拠として示した研究はいくつかあるようです。一つはアリエリー主導のもとで自動車保険会社によって実施された実験なわけですが、先述の通りデータ捏造が明らかにされました。

「十戒」を思い出すと不正が減るという実験
も有名ですが、大規模追試で再現できなかったようです。

追試によれば、十戒の効果はゼロに近いことで合意。逆方向の効果がみられた研究室もあったとのこと。なお、『予想どおりに不合理』では、「MIT無監督試験の倫理規定」を思い起こさせる実験も紹介されていたわけですが、推して知るべしでしょうね。


分離脳実験


左脳と右脳は脳梁を介して結びついています。しかし、てんかん患者の中には、やむを得ず脳梁を切断した患者もいます(昔の治療法)。そうした患者においては、あたかも左脳の心、右脳の心と二つの心があるかのような振る舞いがみられるという話だったのですが……。再現性がないとのこと。


私はミッドライフ・クライシスが問題とされるような年齢ではないわけですが、これにはかなり衝撃をうけました。(←これが一番ショックかもしれない。なお、心理学の範疇なのか脳科学なのかよく分からない)

記事を読む(DeepL翻訳)と、何やらジュリオ・トノーニ「情報統合理論」などにまで波及するかもしれないようで、大変なことになりそうな気配です。ただ、今回研究の対象となった患者は脳梁除去手術からかなり時間がたった人だったため、なんらかの理由で分離脳現象がなくなったという可能性もあるようです。さらなる研究の必要性は指摘されているので、続報を待ちたいところです。

いやぁ。分離脳研究は極めて興味深い現象だと思ったので、けっこうがんばってメモを取りながらガザニガさんの本を読んだものですが……。脳の左半球は主に右半身および右視野を担当し、右半球は主に左半身および左視野を担当するわけで、分離脳の解説を読むと右左左右左右とごちゃごちゃになるのですよ。理解に労力を費やしたんですけどね……。


脳画像のもつ説得力


脳の画像さえ添付されていれば、その文章の信頼性があがるという仮説。大規模追試によれば、ほとんど再現性なし。

この話はマイケル・S・ガザニガ『〈わたし〉はどこにあるのか』でもとりあげられていたような。インパクト強かったんですが、再現性なし。あらららら。



自由意志を疑う人は不正に走りやすい


自由意志信念をもつ人ほど望ましい道徳特性をもち、疑う人ほど不正行為に手を染めやすいという仮説ですが、再現されず

以下DeepL翻訳

「最近の研究では、一般人の自由意志の信念(FWB)が日常の道徳的行動に与える影響を調査した結果、FWBが強いほど、さまざまな望ましい道徳的特性(例:より親切、より不誠実)と関連することが示唆されている。これらの知見は、自由意志の概念を損なうと広く認識されている人間の行動に関する見解を科学が促進することによって、社会全体で道徳的な退廃が起こる可能性があるという懸念を引き起こしている。本研究では、上記の関連性の媒介者や調整者の可能性を検討した4つの研究(合計N = 921)を報告する。意外なことに、FWBと道徳的行動の間には関連性がないことがわかった。この結果は、FWBと道徳的行動の関連性(およびそれに伴うFWBの減少による道徳的退化の懸念)が誇張されている可能性を示唆している。」(DeepL翻訳)

この研究が追試されなかったのもインパクトが大きいです。科学哲学とか倫理学の著作でも引用されてきたのでは? どこかで見た記憶があります。


1万時間の法則


ものごとを極めるには1万時間を費やす必要があるという法則。いや、これ研究の世界の話だったんですか。再現されず

https://royalsocietypublishing.org/doi/10.1098/rsos.190327

「1万時間の法則」という言葉自体は知っていましたが、元ネタの研究があるのは知らなかったし、ゆえにその研究の再現性が疑われていることも知りませんでした。もともと「どこかの国の言い伝え」程度のものだと思っていたので、再現性がなかったとしても特に驚きはなし。


ダニング・クルーガー効果


能力の低い人は、能力の低さゆえに自らの能力を過大評価するという仮説です。こうした現象自体は存在するものの、自らの能力を過大評価する理由が能力の低さのせいなのかどうかについては怪しいようです。

https://www.sciencedirect.com/science/article/abs/pii/S0160289620300271

「もむ」は、認知心理学者の山田祐樹さん(九州大学准教授)のアカウント。上の方で引用した日経新聞の取材を受け、コメントを寄せている方です。

ダニング・クルーガー効果はけっこう聞く話だったので、ちょっとした驚きです。ただ、この効果については、もともとあまり興味をそそられなかったので、正直なところ正確に言えばどんな効果なのかは知りませんでしたし、メカニズムのどこがどう怪しいのかもよく分かっていません。一応紹介しておきました。


マクベス効果


道徳的な脅威にさらされると、清潔さが意識され、身体を洗いたくなるという効果です。再現されず

https://www.tandfonline.com/doi/abs/10.1080/01973533.2013.856792?journalCode=hbas20 以下DeepL翻訳

「Zhong and Liljenquist(2006)は、社会心理学における「マクベス効果」の証拠を報告しています。これは、人々の道徳的純粋さが脅かされると、文字通り、自らを清めようとするというものです。これらの知見に基づいて、私たちは、Z&Lの代表的な報告書に掲載されている研究2を直接再現する試みを行いました。Z&L社のオリジナルの材料と方法を使用し、より一般的な人口を代表するサンプルを調査し、異なる国と文化のサンプルを調査し、統計的検定の検出力を大幅に高めました。しかし、善意の努力にもかかわらず、どの実験でも「マクベス効果」を検出することができませんでした。これらの結果を、実験的社会心理学の分野における再現性に関する最近の懸念との関連で議論する。」(DeepL翻訳)

「oʞɐsɐ ɐɹnıɯ」は社会心理学者である三浦麻子さん(大阪大学教授)のアカウント。この方も上の方で引用した日経新聞の取材を受け、コメントを寄せていますね。

「マクベス効果」は、ジョナサン・ハイト『社会はなぜ左と右に分かれるのか』第3章に取り上げられていたのを読んで知ったわけですが、当時は「なんじゃそりゃ、すごい現象だな」と驚いたものです。印象には残っていたのですが、再現性なしとの報せが驚きかというと、そうでもないような……。元々の仮説が私にとって奇妙すぎたのが原因か。


グロース・マインドセット理論


才能(知能)よりも努力を誉めたほうがやる気が出るというような理論です。再現性はほとんどないとのこと。

以下DeepL翻訳

「最近の研究では、大規模なマインドセット介入の有効性に疑問を投げかけるものが増えています。英国の36校を対象とした大規模な研究では、生徒と教師のいずれかがトレーニングを受けましたが、介入を直接受けた生徒への影響は統計的に有意ではなく、教師がトレーニングを受けた生徒はまったく利益を得られませんでした。また、チェコ共和国の大学入学希望者を対象とした研究では、学力テストを用いて、マインドセットと達成度の関係を調べました。結果は、学業成績とマインドセットの関連性の強さが、これまで考えられていたよりも弱い可能性を示している」と研究者は主張しています。2012年に英国のジョセフ・ローントリー財団のために行われた教育への態度と参加に関するレビューでは、「(関連性があるとすれば)その説明を試みた研究がいくつかあったものの、児童生徒の態度全般と教育的成果との間に関連性や順序を示す明確な証拠はなかった」とされています。2018年、米国で行われた2つのメタアナリシスでは、グロース・マインドセットの主張が誇張されている可能性があり、『典型的な生徒の学業成績に対するマインドセットの介入の効果はほとんどない』ことが明らかになりました。」(DeepL翻訳)

「やればできる!」「成長マインドセット」などとも呼ばれているようですが、この話も聞いたことがありましたね。

再現性がみられないにせよ、論旨自体は教育哲学として重要かもしれないという指摘はあるようですが……。どうなんでしょうね。

ほとんど関係のない話ですが、怠惰な私としては才能も努力も賞賛もなくても幸せに暮らせる社会になってほしいところです。


ステレオタイプ脅威


「女は数学が苦手」「黒人は白人より学力が低い」などと言うステレオタイプを意識させると、実際に試験の点数が下がるという仮説。そうした効果はほとんどないというメタ分析や、再現に失敗する実験が増えてきたという。

「MasashiKasaki」は哲学研究者である笠木雅史さん(広島大学准教授)のアカウント。

他方、この研究に再現性がなかったことから「ステレオタイプ脅威が嘘」とまではいえないという点を強調する意見もありました。

以下のツイートを参照(かなり長いので特に重要だと思ったものだけ貼り付けておきます)。


まとめると、現時点で言えるのはせいぜい「本当に存在するかは分からない」「大きな効果はあるとは言えない」ところまでであることを確認しつつ、①現場におけるさらなる研究や、文化差を考慮した研究の進展などがあれば存在が確認されることがありうること、②仮に普遍的にみられる脅威ではないと明らかになったとしても「存在しない」ことになるわけではないということを指摘しているといったところでしょうか。政治に絡んできそうなテーマなだけに大げさな解釈には注意が必要ということでしょう。

付け加えていうなら、もともと「ステレオタイプ脅威」と言われる研究は、ステレオタイプがもつ全特性を網羅的に研究したものではないでしょうから(たぶん)、現在までに行われた研究が信頼できないからといって、ステレオタイプの問題性がなくなるわけではないでしょうね。

ただ、既存の「ステレオタイプ脅威」研究に信頼性がないことは知られておくべきでしょう。「ステレオタイプ脅威は嘘」とは言えなくとも、「ステレオタイプ脅威を証明したという従来の証拠は信頼できない」とは言えるわけです。信頼できない証拠が、あたかも信頼できるかのような扱いをうけ、その誤解が正されぬままに政治が動かされていくのは望ましくありません。


ピグマリオン効果


教師の期待によって生徒の成績が向上するという効果。存在はするが、効果は小さいようです。

「Nobuhiro Mifune」は、進化心理学的社会心理学者である三船恒裕さん(高知工科大学准教授)のアカウント。

ピグマリオン効果もよく聞いた話だったのですが、効果量は小さいと。なるほど。「無い」というわけでもないので、そこは注意すべきみたいです。

ほとんど関係のない話ですが、怠惰な私としては「期待」や「成績」などがなくても幸せに暮らせる社会になってほしいところですね。


社会的プライミング効果


事前に見聞きした情報が、潜在的な処理を経て行動に影響を与えるという効果ですが、再現性がかなり低いとのこと。(少なくとも、「社会的プライミング効果」については)

細かい検討がなされた結果、社会的プライミング効果は信頼できないことが明らかにされてしまったようです。

この問題は、ノーベル経済学賞を受賞している超有名な行動経済学者・ダニエル・カーネマンさんが絡んでいるのが非常に厄介なところです。カーネマン『ファスト&スロー』は、学問の世界にとてつもなく大きな影響を与えたと思うのですが、以下で指摘されているように、全体として信頼性に欠けるようです。

以下DeepL翻訳

「それでも、Kahnemanの本の章全体を書き直す必要があるかもしれません。心理学者のUli Schimmackは、報告されたサンプルサイズと効果に基づいて、特定の研究の信頼性を推定するR-indexという統計指標を考案しました。(彼は最近、『Thinking, Fast and Slow』の11の章で引用されている研究にこの指標を適用し、それぞれの結果にアルファベットの等級を付けた。(いくつかの章では、R-indexスコアが93と99となり、その厳密さが評価されてAプラスとなりました。しかし、社会的プライミングに関する章を含む他の5つの章は、40点以下で、Schimmack氏はFと呼んだ。」(DeepL翻訳)

なお、カーネマン自身が行った研究は頑健性があるとのことです。

「心理学における再現性の危機は、すべての研究分野に及んでいるわけではなく、『Thinking, Fast and Slow』に記載されている研究の一部が影を落としているだけである。例えば、カーネマンとトヴェルスキー自身の研究は、回復力があることがわかっています。彼らの古典的な発見を再現する大規模な試みは、今のところ成功しています。彼らが発見したバイアスの1つである「アンカリング効果」と呼ばれる、人が最初に得た情報を過大評価する傾向は、再現テストに合格しただけでなく、カーネマンとトヴェルスキーが考えていたよりもはるかに強いことが判明しました。」(DeepL翻訳)


追記(2021年11月3日)
・ツイッター上で紹介されていたものですが、カーネマンと『ファスト&スロー』を巡る話題については、以下の記事が参考になりました。
https://retractionwatch.com/2017/02/20/placed-much-faith-underpowered-studies-nobel-prize-winner-admits-mistakes/

・「再現性の危機」において疑われているのは、「プライミング効果」の中でも「社会的プライミング効果」と通称されているもののようです。例えば、以下のようなものが疑われています

「お金を想起させるものは、いささか好ましくない効果をもたらす。ある実験の被験者はいくつかの単語リストを見せられ、それを使ってお金に関わる表現をつくるよう指示された(たとえば「高い/デスク/額/サラリー」から「高額のサラリー」)。さらにもっと微妙なプライムとして、お金に関係のあるものが室内に無造作に配置された。たとえば、モノポリーで使うおもちゃのお金をテーブルの上に積んでおくとか、コンピュータのスクリーンセイバーとして水に浮かぶドル紙幣の画像を使う、といった具合である。
 すると、お金のプライムを受けた被験者は、受けなかったときより自立性が強まったのである。彼らは、難問を解くのにいつもの二倍もの時間粘り強く取り組んだ末に、ようやくヒントを求めた。これは、自立性が高まった顕著な証拠と言える。しかしその一方で利己心も強まった。彼らは、他の学生(じつはサクラで、与えられた課題がよくわからなかったふりをしている)の手助けをする時間を惜しんだ。」
ダニエル・カーネマン 村井章子訳『ファスト&スロー 上』早川書房 2014年 102-103頁

ただし、プライミング効果の中には、再現性が認められているものもあるそうです。

例えば、関連する単語を先行刺激として与えられていると、正しい単語を速く識別できるようになるという効果があります。「TABLE」という単語を見たばかりの人は、家具とは関係のない単語を見たばかりの人よりも、「CHAIR」と「CHIAR」のどちらが正しい単語か速く見分けることができるのです。このようなプライミング効果は再現性がみられています。

記事では、単にプライミング効果の再現性が低いと書いていたのですが、良くなかったようです。すみません。「プライミング効果」との記述を「社会的プライミング効果」へ書き換える等の修正をしました。

再現性が認められているプライミング効果等としては、以下のようなものが紹介されています。

「いくつかの有名な効果を含め、確立された心理学の知見を再試験で再現できないことはよく知られており、この分野の危機が叫ばれています。しかし、心理学は広大な分野であり、ある分野の知見は他の分野よりも頑健である可能性があります。つまり、被験者が以前に同じ効果についてテストを受けたことがあるなどの不利な状況でも、確実に再現されるということです。
現在、PsyArXivにプレプリントとして掲載されている新しい論文では、知覚、記憶、学習に関連する認知心理学の9つの重要な知見について、このようなケースがあるかどうかを検証しています。エラスムス大学ロッテルダム校のRolf Zwaan教授らは、9つの効果すべてが確実に再現されることを発見しました。「これらの結果は、心理学の分野にとって朗報です」と彼らは言います。(中略)また、これらの心理学的現象は、同じ被験者が2回目のテストを受けても維持されていることから、私たちの心の働きの基本的で不変的な側面を反映していると考えられます。」(DeepL翻訳)

心理学の中でも、知覚心理学・認知心理学分野では再現性が認められている研究も多いようです。社会心理学などと比べれば追試のコストが低く、再現実験が容易であること一因とみられます。


授かり効果


自分が所有した物はそうでない物より高く評価するという効果。再現性がみられなかったそうです。

https://qr.paps.jp/U573t

成田悠輔さんは、「データ・アルゴリズム・数学を使ったビジネスと公共政策(特に教育)のデザイン」が専門とのこと(イェール大学助教授)。


オキシトシン点鼻薬の信頼性効果


鼻にオキシトシンを噴霧すると、それだけで信頼性が高まるというような研究ですが、再現されず


「Tkikusui」は動物生命科学などが専門の菊水健史さん(麻生大学教授)のアカウントだと思います。オキシトシン点鼻薬が信頼性を高めるというのは「そんなに簡単に人間って変わっちゃうの!?」とかいう意味でなかなか衝撃的な話であり、さまざまな一般書で目にしてきた記憶があります。ぱっと出るものだと、ジョナサン・ハイト『社会はなぜ左と右に分かれるのか』第10章にもあったはず。でも再現されなかったということです。


赤の魅力効果(ロマンチック・レッド)


「赤色」が恋愛的魅力を劇的に高めるという効果のことです。再現性は低いとのこと。

以下、DeepL翻訳

「この論文は、赤色が男性を評価する女性(A. J. Elliot et al., 2010)と女性を評価する男性(A. Elliot & Niesta, 2008)の両方で恋愛魅力を劇的に高めるという一連の過去の調査結果を再現したものです。 Elleと私は2つの再現実験を行いました。1つは標準的な心理学の参加者を集めて対面で行い、もう1つはMTurkの参加者を集めてオンラインで行いました。 いずれの場合も、情報量の多いサンプルを計画し、オリジナルの教材を使用し、デザインと分析計画を事前に登録し、適切な参加者を確保するために広範な除外基準を使用しました(例:色覚異常のテスト)。 いずれの場合も、赤が魅力の認知や望ましい性行動に及ぼす影響はほとんどないことが報告されました。」(DeepL翻訳)

赤色は魅力的みたいな話はネット記事とかではよく目にしてきましたね。大学のデジタルパンフレット? (デート・サイエンス? なんじゃこりゃ)でもとりあげられているようで、けっこう普及していそうです。

私としては「赤の魅力」の話が研究の世界の話だとは知りませんでした。もともと実感ベースで語られている根拠の薄い話だと思っていたので、効果がほとんどないとしても個人的にはショックはなし。


見つけたものを全てあげたわけではないですが、このあたりにしておきます。いやはや、大漁です。素人の私がざっと漁ってみただけでこれですからね。これでも氷山の一角というわけですよ。

いままでの研究が次から次に退けられているという事実は、膿を出しきる作業が順調に進んでいる証でもあるわけで、心理学界全体としてみれば良い兆候といえるでしょう。現状はともかく、未来には希望がありそうです。

けれども、今まで積み重ねてきたものがガラガラと音を立てて崩れていく過程は今後もしばらくは続くわけでしょう。次のような指摘もあるほどです。

中西大輔さんは社会心理学者(広島修道大学教授)。「追試したら教科書の内容が全部変わってしまうのではないか」とは強烈な話です。しかし、21世紀に入ってからの研究でさえ多くが再現できていないところ、社会心理学の教科書には20世紀の研究もたくさん紹介されているわけですから、あながち誇張ではないのかもしれません。従来の社会心理学を学んできた人たちは大ショックでしょうね。社会心理学関係の研究は、他の分野と比べてとくに再現性が低かったようです。


2 関連した話題をいくつか


一般書全般、かなりまずいことになっているのでは?


心理学の研究は、経済学、法学、倫理学、哲学、社会学、教育学、文学、その他いろんな分野の研究者が援用しています。理系分野の研究者だって、いざ社会や人間について論じる際には心理学研究を持ち出したりするわけです。だから、心理学研究の話は、いろんな分野の一般書にでてきます。それら一般書の基礎もガタガタだったということになれば、色々と読んでいる人ほど怪しい情報を蓄積しているという悲しき現実が出来上がっているかもしれません。それどころか、たぶん一部の分野では専門書の類でも心理学研究を援用しているような気がするのですが、そのところどうなんでしょう。

あからさまな疑似科学でさえ一度広まると根絶しがたいわけですから、著名な学者の名前と共に広まったこれらの心理学説が放棄されていくには、どれだけの時間がかかることでしょうか。

今回の件のおかげで、私としては、「やっぱ現世人類、謬見と付き合いながら生きていく他ないんだなぁ」という当たり前の事実を深く再確認できました。真実の類は22世紀以降に期待し、マシな未来を求めていきましょう。


キャッチーな話を作って出したモン勝ち!?


人気が出そうな論文を出せば、再現性がなくても引用され続けるため、不正をやめる動機づけがないという指摘をみかけました。以下が認知心理学者の山田祐樹さんのツイート。

実際のところ、再現性のない論文は、再現性のある論文よりも頻繁に引用されているという話があるようです。

以下DeepL翻訳

「公開されているデータを用いて、心理学、経済学、一般誌のトップジャーナルに掲載された論文のうち、再現性のないものは再現性のあるものよりも多く引用されていることを示しました。この被引用数の差は、再現できなかった論文の発表後も変わりません。複製不可能な知見の複製後の引用で、複製の失敗を認めているのはわずか12%です。既存の証拠では、専門家はどの論文が複製されるかをよく予測していることもわかっています。この予測を前提とすると、そもそもなぜ再現性のない論文が出版されるのでしょうか?その答えとして考えられるのは、審査チームがトレードオフの関係にあるということです。結果がより「興味深い」ものであれば、再現性に関する基準は低くなるのです。」(DeepL翻訳)

追試失敗の論文がでてもなお、追試失敗したことに触れることなく原論文が引用され続けているというのでは、自浄作用が十分に働いているとはいえないでしょう。このこと自体が心理学の研究対象になって欲しいところです。


文化差の問題と、日本における改革の必要性


もともと、ある文化内における心理学研究の結果が、他の文化圏に当てはまるのかについては疑問が提起されていました。文化差があるであろうことについては、直観として多くの人が思うことでしょう。

その直観を裏付けるものとして、文化心理学研究の中には、西洋人と東洋人とでは行動様式に大きな質的な違いがあることを示したものがあります。

もっとも、文化差がみられるという文化心理学の知見自体、疑わしい研究実践(QRPs)によって作られた虚像であるかもしれません。これについては、今後の動向を見守るしかありません。

さしあたり文化差はあると仮定しますと、問題になるのは、英語圏での心理学改革に任せていては著しく不十分だということです。外国在住の人々を対象とした、外国の大学で行われた研究が追試によって再現されたり、されなかったりしたところで、それらの研究自体が、日本においては当てはまらない現象についての研究なのかもしれません。

ゆえに、外国で行われた研究の翻訳を紹介していただくだけでは困ってしまいます。日本においても質の高い研究が行われる必要があるのです。事前登録研究、オープンサイエンス、再現研究の促進などの改革が不可欠でしょう。ただ、改革に前向きな学者が複数いることは確認できますが、心理学界全体としてこうした改革に熱心であるのか、素人目にはよく分かりません。

以下は「再現性の危機」に対抗する基盤研究についてのページです。再現性の問題について言及してきた研究者たちの名前が並んでいます。はじめのが過去のもの、二つ目は現在継続中のものです。

※ 「再現可能性検証実験」のデータが見れないのが残念。


問題意識をもった研究者たちの試みが功を奏してくれることを願います。心理学は社会を論じるのにあたって重要な学問であり続けると思うからです。

追記(2021年9月12日)
一部の研究者が超人的活動をしてくれているという指摘がありました。


再現性の危機の受け止めについて


先ほどから何度もでてきている⼭⽥祐樹准教授は「⼼理学は科学でないと受け⽌められるところまで来ている」(日本経済新聞 2019年12月14日)と危機感をあらわにしているようですが、「科学ではないと受け止めているのが誰か」も一つの問題でしょう。

心理学に詳しい人の多くは「心理学は科学でない(又はそれくらいまずい状態)」という認識なのかもしれませんが、一般の人たちの多くは「しっかりした根拠に基づく科学である」と素朴に捉えているような気がします。「再現性の危機」もあまり知られていないと思うのです。山田准教授自身のツイートをみましょう。

上はドイツでの話みたいですが、日本でも似たような状況らしいとのこと。


あまり知られていないとは思います。それに「再現性の問題」は知っていたとしても、簡単な記事を読んだくらいだと「マシュマロテストが怪しくて、スタンフォード監獄実験がやらせだったんでしょ。知ってる、知ってる。再現性が4割っていっても、人間の心理が相手だからしょうがないでしょ」(※)レベルの認識かもしれません。

少なくとも私は、再現性の問題を知ったとき、「アリエリーも、カーネマンの本も、表情フィードバックも、分離脳実験も怪しいし、社会的プライミング効果もステレオタイプ脅威も再現性なし。君が面白がっていた自由意志信念と不正行為との関連も、マクベス効果も、オキシトシン点鼻薬の信頼性向上効果も再現できなかったんだよ! まだまだあるよ! 次はねぇ……」など言われるとは予想できませんでしたよ。

たまたま読んだ心理学の入門書に疑わしい研究実践についての項目があって、気になって調べてみた結果、ようやく深刻さに気づいたわけです。

ただ、この深刻さは知ることができて良かったです。特に分離脳研究やカーネマンの本が怪しまれていることは、早めに知ることができて良かった。

私の場合、心理学自体は健全化しつつあり、年々信頼性を増しているという認識は変わりませんでしたので念のため。有名研究が覆されていることと信頼性が増していることは表裏一体でしょう。

※ 追記(2021年9月12日)
このままだと誤解を誘発しそうです。心理学分野の論文で再現性があったものが4割以下に過ぎないとよく言われますが、「ほぼ再現できた」も含めれば47%オリジナルと追試をあわせることで効果の有意性を保つことができたものを合わせると68%だったようです。前回の記事でも言及したものですが、貼り付けます。

三浦麻子 2015年
「記事には「再現性が確認できた研究は「100件中の39件」「全体の39%」だった」といった表現が見られますが、これは、追試を実施した研究者たちの主観的評価、つまり「オリジナルの結果が再現されましたか?」という質問に「はい」と答えた比率が39%だった点を取り上げたものと思われます。より客観的なデータを見ると、オリジナルの論文のうち97%は統計的に有意な効果が得られていた(つまり3%はnull effect〔効果なし〕研究だった)のですが、追試では36%、追試の効果量の95%信頼区間に元論文の効果量が含まれていた(つまり「ほぼ」も含めて再現されたと考えてもよさそうな)研究は47%でした。また、オリジナルと追試をあわせると、もともと示されていた効果の有意性が保たれたのは68%でした。」
三浦麻子「心理学研究は信頼できるか?――再現可能性をめぐって(4)」ちとせプレス 2015年11月16日
http://chitosepress.com/2015/11/16/483/

また、「再現性があったのは4割以下」という論文自体にも誇張があったという指摘もあります。


インパクトのある研究が再現性に失敗しているので分野全体が怪しい印象を与えかねませんが、そもそも研究自体が膨大な数行われていることも考慮すべきでしょう。それに、「キャッチーなモンを出したもん勝ち」という側面があったとするのなら、インパクトのある研究ほどもともと怪しいということです。地味で目立たないが常識的な成果については、ある程度の信頼をおいてもいいのかなと思います。追試してほしいですが(ただ、追試というのは素人が思うよりずっと大変な作業みたいです)。


素人疑問について

今までは心理学研究について色々と疑問が浮かんでも、「専門家の言うことだから深い洞察の上でなされているのだろう」と考えてきたのですが、それも専門家まかせの無責任な態度だったかもしれません。何事も盲信はせずに、批判的な視点を忘れないことが重要だなと反省しました。

先日ある人にマシュマロテストの話をしたら、怪訝な顔で「なにそれ? オカルト?」みたいな反応をされました。こういうごく普通(?)の感性を持っておくことも重要だなぁと。(念のため「そういう説があったんだけど、あまり再現性がないと分かったようだ」と伝えておきました。)

その他、P-ハッキングやHARKingなどのQRPsの問題を措くとしても、一般書などを読んでいますと、「この研究結果が正しいとしても、ここまで強い結論が導けるものなのかなぁ」と誇張を感じることは結構あります。

ただ、自分の知らない分野については専門家集団の共通見解を尊重することこそがリテラシーの一つであるとは未だに思っているところです。盲信と批判的思考でバランスをとるのは難しいだろうなとも思います。



いろいろと書いてきましたが、心理学とはあまり関りのない領域でも、再現性の問題や、疑わしい研究実践は存在しているでしょう。心理学が危機を乗り切ることができたなら、その経験は他の分野においても活用できる共有財産になるような気がします。



【関連する過去記事】

・再現性の問題については、過去に簡単に解説しました。

・私自身も心理学の研究について紹介する記事を書いているのですが、再現性のあるなしなどについて確認できたときには追記したいと思っています。後知恵バイアス、基本的帰属錯誤などについてはとりあえず再現性が確認されたようなので、その旨を追記しておきました。

・西洋人と東洋人においては、さまざまな行動様式に質的に大きな違いがみられるという研究について簡単に解説したものです。再現性が認められるといいなとは思っていますが、まだ分からず。


追記・修正等について
若干の追記と修正を行いました。2021年9月12日

追記と修正を行いました。2021年11月3日

多くの方にご覧いただいているようです。ありがとうございます。記事へのご指摘もいただきまして勉強になります。不十分ではありますが、いくつか誤字脱字の修正と追記を行いました。

なお、見出し画像は以下のように修正を施しました。

・宣言効果 → 宣誓効果

・プライミング効果(カーネマン) → 社会的プライミング効果
疑わしいとされているのは、「プライミング効果」と呼ばれている効果の中でも、「社会的プライミング効果」です。また社会的プライミング効果はカーネマンのベストセラーでとりあげられているものの、カーネマン当人による実験というわけでもないので、「(カーネマン)」の部分は外しました。

・『ファスト&スロー』→ 『ファスト&スロー』(カーネマン)











この記事が気に入ったら、サポートをしてみませんか?
気軽にクリエイターの支援と、記事のオススメができます!
ありがとうございます!
物書き。哲学・心理学・法学に興味があります。学びを摂取、発信していきたいです。とりわけ哲学の存在論から目を離せません。「存在している」とは一大事ではないでしょうか。