
心理学・行動経済学等の著名な研究論文が次々に追試失敗【心理学】
心理学の研究論文は再現性が低いことが指摘されていました。再現性が低くなる原因は、学界全体に「疑わしい研究手法 (QRPs)」が蔓延していたことにあるとみられます。
現在は学界全体をあげての対策が行われているようです。研究の事前登録、データの公開、追試などが重視されるようになっています。
学界は正しい方向に進んでいるようですが、だからこそ、重要な発見だとみなされてきた過去の研究成果が次々に覆されているようです。
少々調べましたが……、いやはやこれは……脱力しました。心理学以外の分野でも援用されている有名な研究たちが、あれもこれも。興味を引かれたものに重点をおきつつ、ざっくりとメモ的にまとめておくことにします。
2021年9月12日追記
追試というのは、1年半以上かかるものも珍しくないようです。かなりの時間・精神力・体力を要するのに対して、見返りが少ないものといいます。この記事では多くの研究の再現性が失われていることを紹介しますが、背景には多くの研究者の善意があることを忘れてはならないと思いました。
◆
1 再現性が疑われるなどしている研究たち
2022年8月19日追記
2008年に発表された100本の論文を対象とした大規模な追試プロジェクトの結果によると、心理学のトップジャーナルの論文を対象とした研究において、再現性が認められたのは4割程度だったと言われます(5%有意水準)。心理学とはいえ分野によって再現率は異なり、社会心理学系では25%、認知心理学系では50%程度は再現できたようです。
後にも述べますが、心理学全体がデタラメだという話ではありません。しかし、心理学研究の知見は膾炙していますから、この結果は大きな反響を呼びました。
池田功毅・平石界 2016年
「Brain Nosek とCOS は、現在の心理学研究における再現可能性を、よりシステマティックに調べるため、Many Labs よりも大規模な、Reproduciblity Project: Psychology (RP:P)と呼ばれる追試プロジェクトを試みた(Open Science Collaboration, 2012, 2015)。このプロジェクトでは、三つの代表的な心理学ジャーナル(Journal of Experimental Psychology: Learning, Memory and Cognition; Psychological Science; そして Journal of Personality and Social Psychology)に2008 年中発表された100 本の論文報告を対象として、その追試を行った。結果、5%水準で統計的有意に達した実験は全体のうち36%に留まり、追試を行った研究者自身の主観的基準に照らし合わせて「成功した」と言えるものを対象としても、39%にしか至らなかった。さらに領域別にその内訳を見ると、社会心理学系では25%、認知心理学系では50%の再現可能率が見られた(5%有意水準で)。この結果は、心理学における現状の再現可能性が極めて低いことを如実に示すものであり、メディアでの報道を含めて、大きな反響を呼んだ。」
「心理学における再現可能性危機:問題の構造と解決策」に関する追加的ノート」2016年5月
https://www.researchgate.net/publication/302880267_chitianpingshi_2016_xinlixueniokeruzaixiankenengxingweijiwentinogouzaotojiejueceniguansuruzhuijiadenoto
こうした経緯により、心理学研究に関して大規模な追試プロジェクトがなされるようになました。強調したいのが、成果の見直しが行われているということです。この態度はまことに科学的なものと言えます。
実際、社会心理学系研究も含めて再現に成功した例もでています。
OSF-Reproducibilityプロジェクトで再現に成功した社会心理学の論文https://t.co/kNLPF0lDTt
— Yuki Kamitani (@ykamit) August 18, 2022
上の「認知心理学で再現性が高い現象」の元論文https://t.co/sEEtdr1cPm
— Yuki Kamitani (@ykamit) August 18, 2022
しかしその反面、キャッチーな研究結果が次々に再現失敗。有名研究の信頼性が揺らぐことになったのです。本記事では再現に失敗した研究例などについて紹介します。(追記終了)
細かくみると、再現性がないとするものから、再現自体はできたが元論文ほどの効果は検出されなかったとするもの、元論文における説明の妥当性に疑問符がつくものなど、さまざまなパターンがあるようです。
英語文献からの引用が多い記事です。再定番のDeepL翻訳おいときます。
日本の研究者の方々はツイッター上において、国外における追試論文をしばしば紹介してくれているようです。それらを中心に、疑われている研究たちを個別にみていくことにします。
どのアカウントがどの研究者のものなのかは、わかる範囲で記します。もちろん、アカウント主が追試論文の執筆者というわけではありません。
表情フィードバック仮説
表情フィードバック仮説とは、表情を作ると、それを原因として表情に対応した感情が生起するという仮説です。有名な仮説ですが、再現しても同じ結果は出ず、効果は思った以上に小さかったとのこと。
日本経済新聞 2019年12月14日
「ノーベル賞のパロディー版として⼈気がある「イグ・ノーベル賞」は9⽉、ドイツの⼼理学者、フリッツ・ストラック博⼠に2019年の⼼理学賞を贈った。授賞理由は「⼈が⼝にペンをくわえると笑顔になり気分も幸せになることを発⾒し、その後そうはならないことを発⾒した」。
ストラック⽒が1988年に発表したこの研究内容は、著名な経済学者が「本⼈が知らない間に判断や考えを操作できる例」として引⽤するなど⾼く評価された。ところが別の研究グループが⼤規模な実験で検証したところ同じ結果は出ず、ストラック⽒も17年に「効果は思っていた以上に⼩さかった」と認めた。」
なお、コメントを寄せている三浦麻子教授の研究所ウェブページでも記事内容が確認できる。
http://team1mile.com/asarinlab/2019/12/15/20191214nikkei/
けっこう驚きです。「ペンや箸をくわえて笑顔を作れば本当に幸せな気分になる」という話はしばしば聞いてきました。いまだに信じている人がいっぱいいるだろうなぁと思うところです。
ただし、追試に失敗した報告のあと、追試失敗の研究にも手順の誤りがあったのではないかと指摘されているようです。
以下のツイートも参照
表情フィードバック仮説の直接的追試の失敗(https://t.co/fdfGk5U7IR)が2019年度イグノーベル賞心理学賞
— マーキュリー2世 (@uranus_2) September 13, 2019
【bot】表情フィードバック効果に関する追試が失敗したのは、元論文と違って追試研究ではビデオ撮影していたせいだよという論文。追試の失敗は小さな手順の違いのせいかもしれない。 https://t.co/fzU8zFe2hJ #abst_bot
— Yuuko Morimoto (@myuuko) September 16, 2020
https://psycnet.apa.org/record/2018-16714-001 以下DeepL翻訳
「私たちは、再現実験が失敗した理由として、再現実験のプロトコルがオリジナルの実験と決定的に異なる点があったことを想定しました。再現実験のすべてにおいて、参加者はビデオカメラで監視されることを知らされていたが、オリジナルの実験では参加者は監視、観察、記録されていなかった。これまでの知見では、監視・観察されていると感じると、判断を下す際の内的手がかりへの依存度が低下することがわかっている。したがって,再現実験の参加者を録画することで,顔面フィードバックへの依存度が低下するという仮説を立てた。仮説を検証するために,ビデオカメラを使用した条件と使用しない条件の2つの条件で,フェイシャル・フィードバック実験を再現した。その結果、カメラがない場合には有意なフェイシャルフィードバック効果が見られたが、カメラがある場合にはその効果はなくなった。これらの結果は、実験プロトコルのわずかな違いが、理論的に意味のある結果の変化につながる可能性を示唆しています。本研究が提唱する理論的・方法的アプローチは、失敗した再現実験を、研究分野全体の「終着点」から、人間の本質を理解するための新たな成長の道へと変えるものであると考えられる。」(DeepL翻訳)
「When both the original study and its failed replication are correct: Feeling observed eliminates the facial-feedback effect. Journal of Personality and Social Psychology」114(5), 657–664.
なお、「Yuuko Morimoto」は、おそらく森本裕子さん(宇部フロンティア大学講師)のアカウント。なるほど。追試の失敗がビデオ撮影のせいだとしたら、復権の可能性もあるわけですか。
2022年8月18日追記
表情フィードバック仮説については、大規模追試の結果にも批判がでたために再び大規模追試が行われることになったようです。大規模追試にまつわる難しさも含めて、以下の資料の11頁以降に詳しく書いてあります。マニアックです。
平⽯界・中村大輝「⼼理学における再現性危機の10年―危機は克服されたのか、克服されうるのか―(⾮短縮版)」2022年
マシュマロテスト
マシュマロのつまみ食いを我慢できる子供は将来有望だ、というような仮説です。効果は限定的であるとのこと。
日本経済新聞 2019年12月14日
「最も典型的な例とされるのは⽶スタンフォード⼤学で60〜70年代にまとめられた「マシュマロ実験」だ。研究者は幼い⼦どもの前にマシュマロを置いてしばらく席を離れる。その間にマシュマロのつまみ⾷いを我慢できた⼦は「その後、⾼い学⼒などを⾝につけ社会的に成功する」という内容だ。
この研究は「⼦どもを我慢強く育てれば成功する」というメッセージを教育界に与え影響⼒は⼤きかった。しかし18年に他のチームが再現した実験では、つまみ⾷いを我慢する影響は限定的だった。今では「教育や家庭の環境の⽅がより重要で、我慢強ければ成功するとは限らない」という考え⽅が⼀般的だ。」
マシュマロテストはしばしば耳にしたし、目にしてきたので、ちょっと驚きです。ただ、もともとこの研究にはあまり関心は引かれていなかったので、私としてはショックはあまりありません。
なお、以下も参照。
マシュマロテストが青年期の様々な指標を予測するかを追試すると、一応結果は再現されたものの、家庭環境等を考慮すると、効果は極めて弱いもしくはほぼないとのことです。心理学はどうなることやら。https://t.co/cMJ0dYZAEZ
— 森口佑介『子どもの発達格差』(PHP新書) (@moriguchiy) May 26, 2018
森口佑介さんは発達心理学者(京都大学准教授)。マシュマロテストの効果は極めて弱い、もしくはほぼない、ですか。
「目」の効果(目の画像による向社会性の向上)
「こちらを見つめる目」の図柄があると、それを見た人は誠実に振る舞うようになるという仮説です。再現性がないとされています。
日本経済新聞 2019年12月14日
「また「⽬で監視する図柄を⾒た⼈は誠実に振る舞う」という実験結果が06年に公表され、不法侵⼊や窃盗などを防ぎたい場所に⼈の⽬を模した看板やポスターが設置された。この結果も11年の実験で再現に失敗した。」
再現性がないというのはけっこう驚きですね。人の目を模した絵が描いてあるポスターは、たまにみかけます。
なお、「人の目効果」の研究は著名な日本人研究者も関わってきたので、日本の研究者コミュニティにとっても他人事ではないようです。
この件を日本人研究者コミュニティがどのように対処するかは試金石となりそうですね。目効果は、山岸俊男先生や北山忍先生など日本を代表する心理学者も関与していますし、今回は対岸の火事では済まされないでしょう。「それも含めて研究って面白いよね」とうい対応ができるかどうか
— Yuki Kamitani (@ykamit) July 9, 2018
たとえば、北山グループの2009年の論文https://t.co/ZMKjyJZm4z
— Yuki Kamitani (@ykamit) July 10, 2018
(「∵」だけで目効果が生じる)
は、典型的なHARKing、p-hackingでメインの主張が導かれているように見えます。これがピアレビューを通り、256回も引用されるなんて、この分野何か根本的におかしかったのでは、と思わざるをえません
おそらく当初ねらっていたaverage transferの差に有意差が出なくてexploratoryな解析をやったということでしょうが、exploratoryで有意になった結果を根拠にこのような結論を導くのはまずいです。ゼロとそれ以外のクラスを作るとか、元の目効果になかった男女差を持ち出すとか、かなり恣意的です
— Yuki Kamitani (@ykamit) July 10, 2018
いわゆる”spin”ですね https://t.co/CaQDH80fb6
— Yuki Kamitani (@ykamit) July 10, 2018
もちろん断定はできませんが、査読者やコミュニティーが問題(の可能性)を指摘してしかるべきだったと思います
「Yuki Kamitani」は、知能情報学の神谷之康さん(京都大学教授)のアカウント。
スタンフォード監獄実験
スタンフォード大学で行われた心理学実験。普通の人々も刑務所の看守役・囚人役に選ばれると、看守・囚人らしく振る舞うようになることを示したはずでしたが、やらせ疑惑が出ています。再現性もないようです。
日本経済新聞 2019年12月14日
「スタンフォード⼤で71年に実施された「監獄実験」では、組織や役割が⼈格に⼤きな影響を及ぼすという結果を導き出した。実験の協⼒者を看守役と囚⼈役に分け、⼤学内に作った模擬的な監獄にとじ込めて変化を追跡した。実験を計画した⼼理学者が、看守役に囚⼈役を虐待するよう促していたなど不適切な介⼊があり、やはり再現できない代表的な事例にあげられる。」
スタンフォード監獄実験が怪しいこと自体は知っていましたので、驚きはありません。なお、以下の記事も参考になります。
宣誓効果
宣誓という行為が人を正直にするという仮説です。この仮説を検証したとする実験は、行動経済学者主導のもと自動車保険会社によって実施されていたのですが、データの捏造があると指摘されました。以下の記事において詳しく解説がなされています。
あと、このブログもよかったので貼り付けておきます。
驚きとともにガックリです。宣誓効果の存在を知ったのは何年前だったか。当時はひねくれていたので、「こんな宣誓なんかに効果があるのか!」と、かなり驚いたものです。本当に効果がないかもしれないというなら肩透かし。ひねくれが足りなかったか……。行動経済学という分野そのものを疑っておくべきだったか? いや、それはさすがに無理だったよ……(←分野自体を疑うのは合理的でもないでしょう)。
捏造論文の共著者の一人がダン・アリエリーさんであることも注目すべきポイントでしょう。アリエリーは世界的に有名な学者であり、日本においても知名度が高いからです。早川書房から出ている『予想どおりに不合理』『不合理だからすべてがうまくいく』『ずる』などは読んだ人も多いはず。
アリエリーについて、以下のツイートも興味深いので記録しておきます。
アリエリーに関しては衝撃的は衝撃的なんですが、彼のやった研究がreplicateできないという話もそれなりにあり、実際少し実験の設計を変えると結果が得られなくなるなどの指摘はあったんですよね。
— Y.Asako (@yassasako) August 19, 2021
ちょっと前のLevineの以下のopen bookでも、その概要は指摘されてます。https://t.co/h8vYRvQ8NG
social security numberの下数桁を見せるだけでanchoring effectが見られるという実験は、財を変えるとみられ無くなったり、マグカップを使ったendowment effectの実験も、市場のメカニズムを学生がちゃんとlearningしたら見られなくなる、など。
— Y.Asako (@yassasako) August 19, 2021
「Y.Asako」は政治経済学者の浅古泰史さん(早稲田大学准教授)のアカウント。上記ツイート中にある「endowment effect 授かり効果」に再現性がない件については下の方で別途とりあげます。
行動経済学ってストーリー重視の経済学的考えと再現性の低い(統計的にごまかしやすい)実験心理学の融合みたいな側面があるので、こういう案件がでてきてやむなしってかんじ。アリエリーになんでもっとまともな統計分析をしないのかって聞いたら"statistics is a nuiscance"って言ってたしな。
— Ken McAlinn (@kenmcalinn) August 18, 2021
「Ken McAlinn」は統計学者のマクリン謙一郎さん(テンプル大学助教)のアカウント。
アリエリーが「宣誓効果」の証拠として示した研究はいくつかあるようです。一つはアリエリー主導のもとで自動車保険会社によって実施された実験なわけですが、先述の通りデータ捏造が明らかにされました。
「十戒」を思い出すと不正が減るという実験も有名ですが、大規模追試で再現できなかったようです。
Mazar, Amir, and Ariely (2008)は1800回以上引用されているが、大規模追試で効果なし
— Yuki Kamitani (@ykamit) October 21, 2018
https://t.co/x02dUH0umw
追試によれば、十戒の効果はゼロに近いことで合意。逆方向の効果がみられた研究室もあったとのこと。なお、『予想どおりに不合理』では、「MIT無監督試験の倫理規定」を思い起こさせる実験も紹介されていたわけですが、推して知るべしでしょうね。
分離脳実験
左脳と右脳は脳梁を介して結びついています。しかし、てんかん患者の中には、やむを得ず脳梁を切断した患者もいます(昔の治療法)。そうした患者においては、あたかも左脳の心、右脳の心と二つの心があるかのような振る舞いがみられるという話だったのですが……。再現性がないとのこと。
Split brain: divided perception but undivided consciousness | Brain https://t.co/CtQybhW9Rx
— Yuki Kamitani (@ykamit) January 27, 2017
分離脳の実験(ガザニガ、スペリー)も再現性がない。最近こんなのばっかりですね。われわれ世代だと脳に興味をもつきっかけだった研究者も多いのでは?ミッドライフ・クライシスのおっさんにはこたえるよ。同世代の研究者がやめていく気持ちはよく分かる
— Yuki Kamitani (@ykamit) January 27, 2017
私はミッドライフ・クライシスが問題とされるような年齢ではないわけですが、これにはかなり衝撃をうけました。(←これが一番ショックかもしれない。なお、心理学の範疇なのか脳科学なのかよく分からない)
記事を読む(DeepL翻訳)と、何やらジュリオ・トノーニ「情報統合理論」などにまで波及するかもしれないようで、大変なことになりそうな気配です。ただ、今回研究の対象となった患者は脳梁除去手術からかなり時間がたった人だったため、なんらかの理由で分離脳現象がなくなったという可能性もあるようです。さらなる研究の必要性は指摘されているので、続報を待ちたいところです。
いやぁ。分離脳研究は極めて興味深い現象だと思ったので、けっこうがんばってメモを取りながらガザニガさんの本を読んだものですが……。脳の左半球は主に右半身および右視野を担当し、右半球は主に左半身および左視野を担当するわけで、分離脳の解説を読むと右左左右左右とごちゃごちゃになるのですよ。理解に労力を費やしたんですけどね……。
2022年8月18日追記
ガザニガの研究に疑義が提起されたにせよ、分離脳の研究自体は継続しているようです。新たに得られた知見は、批判研究を踏まえた分離脳の再解釈や新理論へとつながっていくかもしれません。例えば、左脳と右脳は脳梁ばかりではなく、皮質下で繋がっている可能性がでてきていたりするそう。
ちゃんとした脳科学って一般向けの記事や書籍でさえ理解が大変だ…。ガザニガの邦訳は4冊以上読んでいるので、復権はしてほしいなぁ。
脳画像のもつ説得力
脳の画像さえ添付されていれば、その文章の信頼性があがるという仮説。大規模追試によれば、ほとんど再現性なし。
記事の趣旨には同意だが、「...脈絡のない脳の画像を挿入するだけで記事への信頼度が高まったという実験もある」はちょっとまずくない? 実験(論文)があるのは事実だが、後の大規模追試でほとんど再現性がないことが示されている。https://t.co/48V0uZKQDv https://t.co/OfHVGQ4CCR
— Yuki Kamitani (@ykamit) April 7, 2019
この話はマイケル・S・ガザニガ『〈わたし〉はどこにあるのか』でもとりあげられていたような。インパクト強かったんですが、再現性なし。あらららら。
自由意志を疑う人は不正に走りやすい
自由意志信念をもつ人ほど望ましい道徳特性をもち、疑う人ほど不正行為に手を染めやすいという仮説ですが、再現されず。
「自由意志の存在を疑う人は不正行為に走りやすい」は再現性が低いようですねhttps://t.co/A82D0eBqa8#再現性警察の方から来ました
— Yuki Kamitani (@ykamit) May 26, 2020
以下DeepL翻訳
「最近の研究では、一般人の自由意志の信念(FWB)が日常の道徳的行動に与える影響を調査した結果、FWBが強いほど、さまざまな望ましい道徳的特性(例:より親切、より不誠実)と関連することが示唆されている。これらの知見は、自由意志の概念を損なうと広く認識されている人間の行動に関する見解を科学が促進することによって、社会全体で道徳的な退廃が起こる可能性があるという懸念を引き起こしている。本研究では、上記の関連性の媒介者や調整者の可能性を検討した4つの研究(合計N = 921)を報告する。意外なことに、FWBと道徳的行動の間には関連性がないことがわかった。この結果は、FWBと道徳的行動の関連性(およびそれに伴うFWBの減少による道徳的退化の懸念)が誇張されている可能性を示唆している。」(DeepL翻訳)
「Are Free Will Believers Nicer People? (Four Studies Suggest Not)」
この研究が追試されなかったのもインパクトが大きいです。科学哲学とか倫理学の著作でも引用されてきたのでは? どこかで見た記憶があります。
1万時間の法則
ものごとを極めるには1万時間を費やす必要があるという法則。いや、これ研究の世界の話だったんですか。再現されず。
「1万時間の法則」の元ネタ(被引用数: 9847)、再現されず。むしろ、一番上手なグループは累積練習時間が少ない傾向 https://t.co/p8yt3dizQa
— Yuki Kamitani (@ykamit) August 21, 2019
練習を積み重ねているほど、バイオリンの演奏スキルが高いという先行研究、再現できず。効果量はそれなりにあるが、オリジナル研究の効果量よりも小さい。練習内容を先生がデザインしてもほとんど意味はない。The role of deliberate practice in expert performance: https://t.co/XKbkwQDH0L
— マーキュリー2世 (@uranus_2) August 21, 2019
Brooke N. Macnamara&Megha Maitra(2019年)
「The role of deliberate practice in expert performance: revisiting Ericsson, Krampe & Tesch-Römer (1993)」
https://royalsocietypublishing.org/doi/10.1098/rsos.190327
「1万時間の法則」という言葉自体は知っていましたが、元ネタの研究があるのは知らなかったし、ゆえにその研究の再現性が疑われていることも知りませんでした。もともと「どこかの国の言い伝え」程度のものだと思っていたので、再現性がなかったとしても特に驚きはなし。
ダニング・クルーガー効果
能力の低い人は、能力の低さゆえに自らの能力を過大評価するという仮説です。こうした現象自体は存在するものの、自らの能力を過大評価する理由が能力の低さのせいなのかどうかについては怪しいようです。
ダニング=クルーガー効果がやられたようだな。フフフ…奴は心理学の中でも(略
— もむ (@momentumyy) April 26, 2020
The Dunning-Kruger effect is (mostly) a statistical artefact: Valid ap... https://t.co/oP8tKlQFnA
いつも追試失敗ばかりツイートしてたので,今回もそう見られたフシもあったかも?DK効果の現象自体は再現されています。今回はダニング=クルーガー仮説,つまり能力の低い者が”そのせいで”自分の能力を誤認しているというメカニズム的な話の方があやしいよという論文でした。
— もむ (@momentumyy) April 26, 2020
Gilles E.Gignac&MarcinZajenkowski(2020年)
「The Dunning-Kruger effect is (mostly) a statistical artefact: Valid approaches to testing the hypothesis with individual differences data」
https://www.sciencedirect.com/science/article/abs/pii/S0160289620300271
「もむ」は、認知心理学者の山田祐樹さん(九州大学准教授)のアカウント。上の方で引用した日経新聞の取材を受け、コメントを寄せている方です。
ダニング・クルーガー効果はけっこう聞く話だったので、ちょっとした驚きです。ただ、この効果については、もともとあまり興味をそそられなかったので、正直なところ正確に言えばどんな効果なのかは知りませんでしたし、メカニズムのどこがどう怪しいのかもよく分かっていません。一応紹介しておきました。
マクベス効果
道徳的な脅威にさらされると、清潔さが意識され、身体を洗いたくなるという効果です。再現されず。
そして私はこちらを報告→マクベス効果追試失敗の論文http://t.co/4SwruZphmf …
— oʞɐsɐ ɐɹnıɯ (@asarin) April 7, 2014
https://www.tandfonline.com/doi/abs/10.1080/01973533.2013.856792?journalCode=hbas20 以下DeepL翻訳
「Zhong and Liljenquist(2006)は、社会心理学における「マクベス効果」の証拠を報告しています。これは、人々の道徳的純粋さが脅かされると、文字通り、自らを清めようとするというものです。これらの知見に基づいて、私たちは、Z&Lの代表的な報告書に掲載されている研究2を直接再現する試みを行いました。Z&L社のオリジナルの材料と方法を使用し、より一般的な人口を代表するサンプルを調査し、異なる国と文化のサンプルを調査し、統計的検定の検出力を大幅に高めました。しかし、善意の努力にもかかわらず、どの実験でも「マクベス効果」を検出することができませんでした。これらの結果を、実験的社会心理学の分野における再現性に関する最近の懸念との関連で議論する。」(DeepL翻訳)
「Out, Damned Spot: Can the “Macbeth Effect” Be Replicated?」
「oʞɐsɐ ɐɹnıɯ」は社会心理学者である三浦麻子さん(大阪大学教授)のアカウント。この方も上の方で引用した日経新聞の取材を受け、コメントを寄せていますね。
「マクベス効果」は、ジョナサン・ハイト『社会はなぜ左と右に分かれるのか』第3章に取り上げられていたのを読んで知ったわけですが、当時は「なんじゃそりゃ、すごい現象だな」と驚いたものです。印象には残っていたのですが、再現性なしとの報せが驚きかというと、そうでもないような……。元々の仮説が私にとって奇妙すぎたのが原因か。
グロース・マインドセット理論
才能(知能)よりも努力を誉めたほうがやる気が出るというような理論です。再現性はほとんどないとのこと。
「才能を褒めるな、努力を褒めろ」はドゥエックの論文( https://t.co/G0czZS3gE5 1800回以上引用)が元になっていて、著書(「やればできる!」の研究)は世界的ベストセラーになっていますが、再現性はほとんどないようです。教育哲学としては重要かもしれませんがhttps://t.co/oAPyabz9Ys
— Yuki Kamitani (@ykamit) May 21, 2019
以下DeepL翻訳
「最近の研究では、大規模なマインドセット介入の有効性に疑問を投げかけるものが増えています。英国の36校を対象とした大規模な研究では、生徒と教師のいずれかがトレーニングを受けましたが、介入を直接受けた生徒への影響は統計的に有意ではなく、教師がトレーニングを受けた生徒はまったく利益を得られませんでした。また、チェコ共和国の大学入学希望者を対象とした研究では、学力テストを用いて、マインドセットと達成度の関係を調べました。結果は、学業成績とマインドセットの関連性の強さが、これまで考えられていたよりも弱い可能性を示している」と研究者は主張しています。2012年に英国のジョセフ・ローントリー財団のために行われた教育への態度と参加に関するレビューでは、「(関連性があるとすれば)その説明を試みた研究がいくつかあったものの、児童生徒の態度全般と教育的成果との間に関連性や順序を示す明確な証拠はなかった」とされています。2018年、米国で行われた2つのメタアナリシスでは、グロース・マインドセットの主張が誇張されている可能性があり、『典型的な生徒の学業成績に対するマインドセットの介入の効果はほとんどない』ことが明らかになりました。」(DeepL翻訳)
「やればできる!」「成長マインドセット」などとも呼ばれているようですが、この話も聞いたことがありましたね。
再現性がみられないにせよ、論旨自体は教育哲学として重要かもしれないという指摘はあるようですが……。どうなんでしょうね。
ほとんど関係のない話ですが、怠惰な私としては才能も努力も賞賛もなくても幸せに暮らせる社会になってほしいところです。
ステレオタイプ脅威
「女は数学が苦手」「黒人は白人より学力が低い」などと言うステレオタイプを意識させると、実際に試験の点数が下がるという仮説。そうした効果はほとんどないというメタ分析や、再現に失敗する実験が増えてきたという。
『ステレオタイプの科学』は原著が2010年だからなあ。この10年でステレオタイプ脅威についての研究はだいぶ様変わりして、そうした効果がほとんどないというメタ分析や再現失敗実験が増えてきた。Finnigan & Corker (2016), Zigerell (2017), Shewach, Sackett & Quint (2019)とか。
— Masashi Kasaki (@kasa12345) August 12, 2020
Oren Shewachのインタビューがこの記事にあって、手短に自分たちの研究を説明している。https://t.co/QhiHxkVtJ5
— Masashi Kasaki (@kasa12345) August 12, 2020
「MasashiKasaki」は哲学研究者である笠木雅史さん(広島大学准教授)のアカウント。
他方、この研究に再現性がなかったことから「ステレオタイプ脅威が嘘」とまではいえないという点を強調する意見もありました。
以下のツイートを参照(かなり長いので特に重要だと思ったものだけ貼り付けておきます)。
この記事について、補足しておこうと思います。
— 采 (@psychama) December 1, 2020
まず、記事中で引用されている性別と数学パフォーマンスについての「ステレオタイプ脅威」の近年の研究知見についての理解は、自分の知り得る限りでもおおむね正しいと思います。(1/16) https://t.co/j7xeQfir26
大規模な調査研究を行なっている、Ganley et al. (2013) や Flore et al. (2018) では、確かに有意な効果がみられませんでしたし、Flore & Wicherts (2015) のメタ分析では一定の効果がみられたものの、出版バイアスなどの問題もあって、今後の研究の必要性が指摘されています。(2/16)
— 采 (@psychama) December 1, 2020
また、Shewach et al. (2019) のメタ分析でも「効果は非常に小さいか無視できるほど」と結論づけられており、更にこれまでの研究手法の課題についても述べられています。
— 采 (@psychama) December 1, 2020
その課題の中には「現場での研究の少なさ」もあり、そこで現場での研究における効果の弱さについても言及されています。(3/16)
ただ、これらの研究のいずれも「ステレオタイプ脅威の効果は存在しない(嘘である)」とは一言も言っていません。あえて言うとしても「本当に存在するかは分からない」「大きな効果があるとは言えない」くらいでしょう。実際、まだよく分からない部分が大きいからです。(4/16)
— 采 (@psychama) December 1, 2020
しかし、心理学が扱うような現象は、多かれ少なかれ「文化差」のような外的要因が絡んできます。
— 采 (@psychama) December 1, 2020
特に、今回のテーマとなっている「性ステレオタイプ」は文化の影響が露骨に生じている可能性があります。簡単な話、ジェンダーギャップの大きい国と小さい国では影響が異なる可能性があります。(8/16)
特に、高校・大学の入試とか就職とかの個々の事例を考えれば、極端な話、「ステレオタイプ脅威の効果は否定されていたとしても、配慮する価値はある」とすら言えるかもしれません。全体として影響がなくても、ある個人に影響があれば、結果的に「不当な差別」になるからです。(13/16)
— 采 (@psychama) December 1, 2020
一応、論文のリンクも。
— 采 (@psychama) December 1, 2020
・Flore et al. (2018)https://t.co/2Qs4yY10TU
・Flore & Wicherts (2015)https://t.co/0t9lN7IUB4
・Ganley et al. (2013)https://t.co/oyp7CpDcjl
・Shewach et al. (2019)https://t.co/g9JtwAN95n
まとめると、現時点で言えるのはせいぜい「本当に存在するかは分からない」「大きな効果はあるとは言えない」ところまでであることを確認しつつ、①そもそも効果自体は存在していて、現場におけるさらなる研究や、文化差を考慮した研究が進展すれば確認されるかもしれない、②仮に普遍的にみられる脅威ではないと明らかになったとしても、個々にも存在しないことになるわけではないということを指摘しているといったところでしょうか。政治に絡んできそうなテーマなだけに大げさな解釈には注意が必要ということでしょう。
付け加えていうなら、もともと「ステレオタイプ脅威」と言われる研究は、ステレオタイプがもつ全特性を網羅的に研究したものではないでしょうから(たぶん)、現在までに行われた研究が信頼できないからといって、ステレオタイプの問題性がなくなるわけではないでしょうね。
ただ、既存の「ステレオタイプ脅威」研究に信頼性がないことは知られておくべきでしょう。「ステレオタイプ脅威は嘘」とは言えなくとも、「ステレオタイプ脅威を証明したという従来の証拠は信頼できない」とは言えるわけです。信頼できない証拠が、あたかも信頼できるかのような扱いをうけ、その誤解が正されぬままに政治が動かされていくのは望ましくありません。
2022年8月18日追記
大事な指摘だと思ったのでもう一度。「ある研究に再現性がなかったこと」は、その効果が存在しないことの証明にはなりません。
どうも一般の人の中には(もしかしたら研究者の中にも?)「再現性がない」=「その知見はウソ」「その効果は存在しない」みたいな考え方をする人がいるようだが、それは違いますというのはちゃんと言っていくべきだと思う。追試失敗から言えるのは「効果があるのかわからない」くらいまでだと思う。 https://t.co/0YRjB4IvtK
— 采 (@psychama) August 17, 2022
あと、これは当然のことですが、そもそも統計的にどうだろうが、再現性がなんだろうが、ステレオタイプに基づく差別はすべきではありませんね。この種の差別の中には人権侵害に当たるものもあります。被害規模の大きさに関わらず深刻に捉えるべきです。
ピグマリオン効果
教師の期待によって生徒の成績が向上するという効果。存在はするが、効果は小さいようです。
ピグマリオン効果は、あるにはあるけど、効果量は小さい。その効果はマイノリティなどの差別されている集団で大きい傾向にある、ということで落ち着いた。 pic.twitter.com/lU2U1YGIw3
— Nobuhiro Mifune (@NobuMifune) May 28, 2021
ピグマリオン効果も、有名なローゼンタールの実験は再現できなかったらしいですが、教師が生徒に期待することの効果としては無いと言い切れず(効果量が小さい)、少し効果が大きく出る対象というのもあるみたいなので、「無い」と言い切ることの問題も考えた方がいいのではないかと思っています。
— Nobuhiro Mifune (@NobuMifune) June 30, 2021
「Nobuhiro Mifune」は、進化心理学的社会心理学者である三船恒裕さん(高知工科大学准教授)のアカウント。
ピグマリオン効果もよく聞いた話だったのですが、効果量は小さいと。なるほど。「無い」というわけでもないので、そこは注意すべきみたいです。
ほとんど関係のない話ですが、怠惰な私としては「期待」や「成績」などがなくても幸せに暮らせる社会になってほしいところですね。
社会的プライミング効果
事前に見聞きした情報が、潜在的な処理を経て行動に影響を与えるという効果ですが、再現性がかなり低いとのこと。(少なくとも、「社会的プライミング効果」については)
Reconstruction of a Train Wreck: How Priming Research Went off the Rails https://t.co/BP7EEEH2jo カーネマン「ファスト&スロー」でも大々的に取り上げられたプライミング実験,基本的にどのプライミングも再現性が低いのですか.14%の再現率って… pic.twitter.com/QEoYKhOZZC
— Yuta Kashino (@yutakashino) October 22, 2018
#忙しい人のためのダニエル・カーネマン 「ファスト&スロー」第4章
— Go Ando / THE GUILD (@goando) July 15, 2018
プライミング効果。システム1が受け取る先行刺激によって、その後の行動や意思決定が無意識に行われている。
ただし第4章の社会プライミングの実験は、追試で再現性の低さが指摘されており効果には注意が必要(後述します pic.twitter.com/yZYWh5vVi5
第4章で引用された31の論文の統計情報からエビデンスの信頼性を計算したR-indexによれば、第4章はFグレード(不可)である事が指摘されています。
— Go Ando / THE GUILD (@goando) July 15, 2018
図解した、歩くスピードが遅くなるBarghらによる実験も追試で再現に失敗しています。
How Priming Research Went off the Railshttps://t.co/tbr2GkJgb2
細かい検討がなされた結果、社会的プライミング効果は信頼できないことが明らかにされてしまったようです。
この問題は、ノーベル経済学賞を受賞している超有名な行動経済学者・ダニエル・カーネマンさんが絡んでいるのが非常に厄介なところです。カーネマン『ファスト&スロー』は、学問の世界にとてつもなく大きな影響を与えたと思うのですが、以下で指摘されているように、全体として信頼性に欠けるようです。
「心理学の危機」で個人的に一番残念なのは、カーネマンの本(fast, slow)を気軽に他人に薦められれなくなったことですね。この本で主張される認知バイアスから、研究者や著者自身も逃れられなかったこと示す自己言及の奇書になってしまった
— Yuki Kamitani (@ykamit) July 5, 2018
一方で、海外のソーシャルメディア等では、あの本は読む価値があるか?書き直すべき?といった議論があります。https://t.co/VWx3ahWVWrhttps://t.co/IHWyce66Ba
— Yuki Kamitani (@ykamit) July 9, 2018
https://t.co/IHWyce66Ba
— Yuki Kamitani (@ykamit) July 9, 2018
の最後の方に記述がありますが、各章で引用される論文の統計情報から、エビデンスの信頼性を評価するR-indexを計算すると、調査した11章のうち5章はF(不可)レベル(「社会的プライミング」の4章を含む)、平均でCマイナス、とのことです。
以下DeepL翻訳
「それでも、Kahnemanの本の章全体を書き直す必要があるかもしれません。心理学者のUli Schimmackは、報告されたサンプルサイズと効果に基づいて、特定の研究の信頼性を推定するR-indexという統計指標を考案しました。(彼は最近、『Thinking, Fast and Slow』の11の章で引用されている研究にこの指標を適用し、それぞれの結果にアルファベットの等級を付けた。(いくつかの章では、R-indexスコアが93と99となり、その厳密さが評価されてAプラスとなりました。しかし、社会的プライミングに関する章を含む他の5つの章は、40点以下で、Schimmack氏はFと呼んだ。」(DeepL翻訳)
なお、カーネマン自身が行った研究は頑健性があるとのことです。
「心理学における再現性の危機は、すべての研究分野に及んでいるわけではなく、『Thinking, Fast and Slow』に記載されている研究の一部が影を落としているだけである。例えば、カーネマンとトヴェルスキー自身の研究は、回復力があることがわかっています。彼らの古典的な発見を再現する大規模な試みは、今のところ成功しています。彼らが発見したバイアスの1つである「アンカリング効果」と呼ばれる、人が最初に得た情報を過大評価する傾向は、再現テストに合格しただけでなく、カーネマンとトヴェルスキーが考えていたよりもはるかに強いことが判明しました。」(DeepL翻訳)
2022年8月18日追記
カーネマンの名声を確立した「プロスペクト理論」も再現に成功しているようです。優秀な学者であることは間違いないだけに、著書である『ファスト&スロー』の信頼性が揺らいでいることは残念です。
有名どころだと Kahneman and Tversky (1979) のプロスペクト理論。多国籍研究(n = 4,098人、19カ国、13言語)で94%の項目で再現https://t.co/EMwAuz2DcB
— Yuki Kamitani (@ykamit) August 18, 2022
「プロスペクト理論は行動科学、特にリスク下での意思決定に関する研究において最も影響力のあるフレームワークの一つである。1979年のKahnemanとTverskyの研究は、リスク下の金融選択を検証し、そのような判断は期待効用理論の仮定から大きく逸脱すると結論づけ、科学、政策、産業に著しい影響を及ぼした。プロスペクト理論を支持する証拠は数多くあるが、正統派とされる理論の多くは、近年、再現性に失敗しているとして批判を浴びている。そこで、我々は多国籍研究(n = 4,098人、19カ国、13言語)において、参加者全員に全項目への回答を求めつつ、現在および現地通貨についてのみ調整し、オリジナルの方法を直接的に検証することにした。その結果、94%の項目で再現されたが、若干の減衰が見られた。13の理論的対比のうち12が再現され、いくつかの国では100%再現された。国による異質性や個人差は、今後の理論化と応用のための重要な道筋を明らかにした。プロスペクト理論の経験的基盤は、いかなる合理的な閾値を超えても再現されると結論づけた。(Deepl翻訳)」
2021年11月3日追記
・ツイッター上で紹介されていたものですが、カーネマンと『ファスト&スロー』を巡る話題については、以下の記事が参考になりました。
Alison McCook(2017年)「“I placed too much faith in underpowered studies:” Nobel Prize winner admits mistakes」
・「再現性の危機」において疑われているのは、「プライミング効果」の中でも「社会的プライミング効果」と通称されているもののようです。例えば、以下のようなものが疑われています。
「お金を想起させるものは、いささか好ましくない効果をもたらす。ある実験の被験者はいくつかの単語リストを見せられ、それを使ってお金に関わる表現をつくるよう指示された(たとえば「高い/デスク/額/サラリー」から「高額のサラリー」)。さらにもっと微妙なプライムとして、お金に関係のあるものが室内に無造作に配置された。たとえば、モノポリーで使うおもちゃのお金をテーブルの上に積んでおくとか、コンピュータのスクリーンセイバーとして水に浮かぶドル紙幣の画像を使う、といった具合である。
すると、お金のプライムを受けた被験者は、受けなかったときより自立性が強まったのである。彼らは、難問を解くのにいつもの二倍もの時間粘り強く取り組んだ末に、ようやくヒントを求めた。これは、自立性が高まった顕著な証拠と言える。しかしその一方で利己心も強まった。彼らは、他の学生(じつはサクラで、与えられた課題がよくわからなかったふりをしている)の手助けをする時間を惜しんだ。」
ただし、プライミング効果の中には、再現性が認められているものもあるそうです。
例えば、関連する単語を先行刺激として与えられていると、正しい単語を速く識別できるようになるという効果があります。「TABLE」という単語を見たばかりの人は、家具とは関係のない単語を見たばかりの人よりも、「CHAIR」と「CHIAR」のどちらが正しい単語か速く見分けることができるのです。このようなプライミング効果は再現性がみられています。
記事では、単にプライミング効果の再現性が低いと書いていたのですが、良くなかったようです。すみません。「プライミング効果」との記述を「社会的プライミング効果」へ書き換える等の修正をしました。
再現性が認められているプライミング効果等としては、以下のようなものが紹介されています。
認知心理学で再現性が高い現象はサイモン効果、フランカー課題、運動プライミング、分散効果、虚偽記憶、系列位置効果、連合プライミング、反復プライミング、 形状シミュレーション。オンラインでも同じ人が2回実験に参加しても再現される。https://t.co/2pIgANOazV
— マーキュリー2世 (@uranus_2) June 5, 2017
「いくつかの有名な効果を含め、確立された心理学の知見を再試験で再現できないことはよく知られており、この分野の危機が叫ばれています。しかし、心理学は広大な分野であり、ある分野の知見は他の分野よりも頑健である可能性があります。つまり、被験者が以前に同じ効果についてテストを受けたことがあるなどの不利な状況でも、確実に再現されるということです。
現在、PsyArXivにプレプリントとして掲載されている新しい論文では、知覚、記憶、学習に関連する認知心理学の9つの重要な知見について、このようなケースがあるかどうかを検証しています。エラスムス大学ロッテルダム校のRolf Zwaan教授らは、9つの効果すべてが確実に再現されることを発見しました。「これらの結果は、心理学の分野にとって朗報です」と彼らは言います。(中略)また、これらの心理学的現象は、同じ被験者が2回目のテストを受けても維持されていることから、私たちの心の働きの基本的で不変的な側面を反映していると考えられます。」(DeepL翻訳)
「These nine cognitive psychology findings all passed a stringent test of their replicability」
心理学の中でも、知覚心理学・認知心理学分野では再現性が認められている研究も多いようです。社会心理学などと比べれば追試のコストが低く、再現実験が容易であること一因とみられます。
授かり効果
自分が所有した物はそうでない物より高く評価するという効果。再現性がみられなかったそうです。
【行動経済学を疑う】心のバイアスの金字塔は「同じ物でも自分が所有した物はなぜか高く評価する」という授かり効果。再現性を確かめるため、ハロウィーンでお菓子を手に入れた子供たちを勧誘&実験したところ、授かり効果は発生していないと判明した。https://t.co/z1NAUCE4BN
— 成田 悠輔 (@narita_yusuke) May 25, 2020
Gharad Bryan, Matthew Grant, Kareem Haggag, Dean Karlan, Meredith Startz& Christopher Udry(2020年)
「Blue Porches: Finding the limits of external validity of the endowment effect」https://www.sciencedirect.com/science/article/abs/pii/S016726812030158X
成田悠輔さんは、「データ・アルゴリズム・数学を使ったビジネスと公共政策(特に教育)のデザイン」が専門とのこと(イェール大学助教授)。
オキシトシン点鼻薬の信頼性効果
鼻にオキシトシンを噴霧すると、それだけで信頼性が高まるというような研究ですが、再現されず。
オキシトシンが信頼を高める、というセンセーショナルな結果の再現性が試されました。が、再現できなかったようです。 https://t.co/qmh3mMCqtr
— Tkikusui (@Tkikusui1) June 12, 2020
「Tkikusui」は動物生命科学などが専門の菊水健史さん(麻生大学教授)のアカウントだと思います。オキシトシン点鼻薬が信頼性を高めるというのは「そんなに簡単に人間って変わっちゃうの!?」とかいう意味でなかなか衝撃的な話であり、さまざまな一般書で目にしてきた記憶があります。ぱっと出るものだと、ジョナサン・ハイト『社会はなぜ左と右に分かれるのか』第10章にもあったはず。でも再現されなかったということです。
赤の魅力効果(ロマンチック・レッド)
「赤色」が恋愛的魅力を劇的に高めるという効果のことです。再現性は低いとのこと。
そうですね。赤の魅力効果は再現性が低いという「データ」をつきつけたいhttps://t.co/4QnmI2bMXr https://t.co/jjqsJBBMIw pic.twitter.com/ADMCKpuPZj
— もむ (@momentumyy) May 15, 2021
以下、DeepL翻訳
「この論文は、赤色が男性を評価する女性(A. J. Elliot et al., 2010)と女性を評価する男性(A. Elliot & Niesta, 2008)の両方で恋愛魅力を劇的に高めるという一連の過去の調査結果を再現したものです。 Elleと私は2つの再現実験を行いました。1つは標準的な心理学の参加者を集めて対面で行い、もう1つはMTurkの参加者を集めてオンラインで行いました。 いずれの場合も、情報量の多いサンプルを計画し、オリジナルの教材を使用し、デザインと分析計画を事前に登録し、適切な参加者を確保するために広範な除外基準を使用しました(例:色覚異常のテスト)。 いずれの場合も、赤が魅力の認知や望ましい性行動に及ぼす影響はほとんどないことが報告されました。」(DeepL翻訳)
赤色は魅力的みたいな話はネット記事とかではよく目にしてきましたね。大学のデジタルパンフレット? (デート・サイエンス? なんじゃこりゃ)でもとりあげられているようで、けっこう普及していそうです。
私としては「赤の魅力」の話が研究の世界の話だとは知りませんでした。もともと実感ベースで語られている根拠の薄い話だと思っていたので、効果がほとんどないとしても個人的にはショックはなし。
パワーポーズ仮説(22年6月追加)
力強いポーズをとると自信が湧いてくるというような仮説です。
海外では変わった理論が流行ってるんだな~くらいに思ってスルーしていましたが、日本でもそこそこ知られているようでした。再現実験に失敗しただけではなく、筆頭著者であるダナ・カーニーさんが自身の研究に問題があることを認めたようです。
この"power posing"効果も、後の大規模な追試(プレレジを含む)で効果が否定されてますねhttps://t.co/9If5eQtgZ4 https://t.co/uRCl1j8zW7
— Yuki Kamitani (@ykamit) April 9, 2019
「パワーポーズ」の効果は元論文の筆頭著者が、pハッキングを含む不正行為をしたことをばらしてますねhttps://t.co/97z6xHMs5Qhttps://t.co/8Zj76bp3QI
— Yuki Kamitani (@ykamit) April 9, 2019
早川書房さん、この本をこのまま出し続けるのはまずいと思います @Hayakawashobo https://t.co/J7wArKESWl
自身の研究に問題があったことを認めて、それについての意見を表明するというのは、研究者として正しい態度だと思います。
私が尊敬する合理的な人たちは、反対するかもしれません。しかし、2015年初頭から、非言語的な広がり(対収縮性)-すなわち「パワーポーズ」-が内的または心理的な結果に及ぼす体現的な効果はありそうにないことを示唆する証拠が増え続けているのです。この2年以上の間に証拠が出揃ったので、私の見解は証拠を反映して更新された。そのため、私は「パワーポーズ」効果が実在するとは考えていない。(DeepL翻訳)
「パワーポーズ」の存在について、私はどのように考えているか
1. 「パワーポーズ」の体現効果について、私は何の信頼も持っていない。その効果は本物ではないと思う。
2. パワーポーズの身体的効果については研究していない。
3. 他の人がパワーポーズを研究することを戒める。
4. 私はもうパワーポーズをクラスで教えない。
5. メディアでパワーポーズについて語ることはしないし、5年以上していない(懐疑論が始まるずっと前から)。
6. 私は自分のウェブサイトとダウンロード可能な履歴書に、効果についての私の懐疑論と、Ranehillらによる失敗した再現実験とSimmons & Simonsohnの効果なしを示唆するPカーブ論文の両方へのリンクを載せている。(DeepL翻訳)
確かにカーニーさんは自身のウェブサイトの冒頭に懐疑論を載せています(2022年6月1日現在)。
なお、サイエンスジャーナリストの鈴木祐さんによる記事がパワーポーズの概要と問題を簡潔にまとめていて良いと思いました。
自我消耗仮説(22年6月追加)
長いので注意。
自我消耗仮説とは、「意志力」は限られた認知資源であり、使い果たすと自制心がきかなくなるという仮説です。
存在は知っていたのですが、個人的にはあまり興味をそそられなかったのでスルーしていました。私が最初に知った自我消耗研究が「目の前にある焼きたてのクッキーが食べられず、赤カブで我慢させられるとパズルに集中する時間が減る」みたいな話で、「ええ……、だからどうしたの? そこから意志力どうこう言えるの?」と思ってしまったんですよね。この辺の感性は個人差が大きそうですが。
ただ、自我消耗研究は誰もが同意する同一の手続が存在せず、クッキー実験以外にもさまざまな研究例があるようです。
他方、従来からいろいろと批判もあったようで、それらについては以下の記事がよくまとまっています。だいたい次のような内容です。
・自我消耗は本物だというメタ分析研究に「出版バイアス」がみられた。
・レモネードなどによる糖分補給が意志力の促進剤になるという主張は完全に誤りである。
・自我消耗は「意志力は有限だ」と信じている被験者のみにみられた。つまりはプラシーボ効果である。
とはいえ、自我消耗仮説は(私の予想に反し)かなり重要な研究とみなされているらしく、近年では慎重な手続を経た上での大規模な追試が三つも行われています。
大規模追試その1(Hagger & Chatzisarantis, 2016)
→ 仮説に否定的な結果
まずは事前審査付の大規模マルチラボ共同追試研究が行われました。
元研究のロイ・バウマイスター本人の勧めを得た手続を採用した上での追試実験が行われたのですが、仮説に否定的な結果が得られてしまいました。
「実験⼿続きを定めてからデータ収集に協⼒する研究室を募集し、最終的に23の研究室から、分析対象となる2,141名のデータが収集された。
それらを統合した結果は、⾃我消耗条件と統制条件で、第2課題(MSIT課題)での成績の差は⼩さなものであり、統計的に有意な差があるとは⾔えないものであった。個別の研究室ごとに⾒ても、有意な差が⾒られたのは3研究室に過ぎなかった。つまり仮説に否定的な結果であった。」
「⼼理学における再現性危機の10年 危機は克服されたのか、克服されうるのか(⾮短縮版)」
https://psyarxiv.com/r72vt
Hagger & Chatzisarantis,(2016) 。
「A Multilab Preregistered Replication of the Ego-Depletion Effect」
https://journals.sagepub.com/doi/10.1177/1745691616652873
しかし上記の追試結果については、バウマイスターから反論コメントがなされました。バウマイスター本人の勧める手続をとったのに、なぜでしょう。
バウマイスターによれば、手続については、プライベートの不幸や、早く確定せねばならないというプレッシャーを感じたがために了承したものの、積極的には推奨しておらず、今思えば楽観的に考えすぎていたとのこと。手続の具体的な問題点も指摘されたので、それを踏まえたのが次の追試です。
大規模追試その2(Dang et al., 2021)
→ 統計的に有意だが効果は小さい
バウマイスターが反論コメントにおいて推奨した「より強い自我消耗を生じさせる課題」を用いたマルチラボ共同追試が行われました。
「統計的に有意」とする結果ではありましたが、オリジナル研究で報告されたものよりもずっと小さな効果しか得られなかったようです。
「2の研究室から合計で1,775⼈のデータが集まり、それを統合した結果は統計的に有意であった。
しかしオリジナル研究で報告された効果量( d = 0.48)より、マルチラボ追試から得られた効果はずっと⼩さなものであった( d = 0.10)。
15 個別の研究室ごとに結果を検討すると、⾃我消耗を⽀持する結果が得られていたのは1つの研究室だけであった( p = .021)。」
Dang et al.(2021)「A multilab replication of the ego depletion effect.」
https://psycnet.apa.org/record/2020-96348-002
大規模追試その3(Vohs et al.,(2021)
→ 仮説に否定的な結果
もう一つのマルチラボ共同研究では、自我消耗の専門家から広く課題候補を募り、その中から精査した課題を用いて追試研究を行いました。しかし、結果は仮説に否定的なものでした。
「⾃我消耗の連続課題パラダイムでは、多様な課題1と課題2が⽤いられてきた。そこで⾃我消耗の専⾨家から広く課題の候補を募り、共同研究チームの研究者らによって、理論的妥当性ならびに実施可能性を精査した上で、最終的に⽤いる課題を決定した。
(中略)36の研究室が参加し、合計で3,531名の分析対象データが得られた。それらを統合した結果は否定的なものであった。効果量は⼩さく( d = .06)、統計的に有意とは⾔えないものだった。」
Vohs et al.(2021)
「A multisite preregistered paradigmatic test of the ego-depletion effect.」https://psycnet.apa.org/record/2021-98417-004
この三つ目の追試については、選ばれた課題が良くなかったのだという批判があるようです。だたし、仮にそうだとしても、「専門家が考えて精査された課題について自我消耗は得られなかった」という事実は、自我消耗理論の射程範囲が狭いことを示唆しそうではあります。
見つけたものを全てあげたわけではないですが、このあたりにしておきます。いやはや、大漁です。素人の私がざっと漁ってみただけでこれですからね。これでも氷山の一角というわけですよ。
いままでの研究が次から次に退けられているという事実は、膿を出しきる作業が順調に進んでいる証でもあるわけで、心理学界全体としてみれば良い兆候といえるでしょう。現状はともかく、未来には希望がありそうです。
けれども、今まで積み重ねてきたものがガラガラと音を立てて崩れていく過程は今後もしばらくは続くわけでしょう。次のような指摘もあるほどです。
社会心理学の教科書に書いてある知識というのは大昔の実験が多いのだが、原典を読むと「それをこうまとめるかあー?」ってのがあったり、分析手法が未発達なために「こういう結論は下せないだろう」というものが結構ある。追試したら教科書の内容が全部変わってしまうのではないか。
— 中西大輔 (@daihiko) December 7, 2014
中西大輔さんは社会心理学者(広島修道大学教授)。「追試したら教科書の内容が全部変わってしまうのではないか」とは強烈な話です。しかし、21世紀に入ってからの研究でさえ多くが再現できていないところ、社会心理学の教科書には20世紀の研究もたくさん紹介されているわけですから、あながち誇張ではないのかもしれません。従来の社会心理学を学んできた人たちは大ショックでしょうね。社会心理学関係の研究は、他の分野と比べて再現性が低いようです。
2 関連した話題をいくつか
一般書全般、かなりまずいことになっているのでは?
心理学の研究は、経済学、法学、倫理学、哲学、社会学、教育学、文学、その他いろんな分野の研究者が援用しています。理系分野の研究者だって、いざ社会や人間について論じる際には心理学研究を持ち出したりするわけです。だから、心理学研究の話は、いろんな分野の一般書にでてきます。それら一般書の基礎もガタガタだったということになれば、色々と読んでいる人ほど怪しい情報を蓄積しているという悲しき現実が出来上がっているかもしれません。それどころか、たぶん一部の分野では専門書の類でも心理学研究を援用しているような気がするのですが、そのところどうなんでしょう。
あからさまな疑似科学でさえ一度広まると根絶しがたいわけですから、著名な学者の名前と共に広まったこれらの心理学説が放棄されていくには、どれだけの時間がかかることでしょうか。
今回の件のおかげで、私としては、「やっぱ現世人類、謬見と付き合いながら生きていく他ないんだなぁ」という当たり前の事実を深く再確認できました。真実の類は22世紀以降に期待し、マシな未来を求めていきましょう。
キャッチーな話を作って出したモン勝ち!?
人気が出そうな論文を出せば、再現性がなくても引用され続けるため、不正をやめる動機づけがないという指摘をみかけました。以下が認知心理学者の山田祐樹さんのツイート。
一見して面白げな結果ほど再現されにくいし引用されやすい。追試されて結果がネガティブであっても全く話題にならないから元論文がいつまでも引用され続ける。キャッチーな話作って出したモン勝ち。心理学は自己修正できていない。
— もむ (@momentumyy) May 22, 2021
実際のところ、再現性のない論文は、再現性のある論文よりも頻繁に引用されているという話があるようです。
以下DeepL翻訳
「公開されているデータを用いて、心理学、経済学、一般誌のトップジャーナルに掲載された論文のうち、再現性のないものは再現性のあるものよりも多く引用されていることを示しました。この被引用数の差は、再現できなかった論文の発表後も変わりません。複製不可能な知見の複製後の引用で、複製の失敗を認めているのはわずか12%です。既存の証拠では、専門家はどの論文が複製されるかをよく予測していることもわかっています。この予測を前提とすると、そもそもなぜ再現性のない論文が出版されるのでしょうか?その答えとして考えられるのは、審査チームがトレードオフの関係にあるということです。結果がより「興味深い」ものであれば、再現性に関する基準は低くなるのです。」(DeepL翻訳)
「Nonreplicable publications are cited more than replicable ones」
追試失敗の論文がでてもなお、追試失敗したことに触れることなく原論文が引用され続けているというのでは、自浄作用が十分に働いているとはいえないでしょう。このこと自体が心理学の研究対象になって欲しいところです。
文化差の問題と、日本における改革の必要性
もともと、ある文化内における心理学研究の結果が、他の文化圏に当てはまるのかについては疑問が提起されていました。文化差があるであろうことについては、直観として多くの人が思うことでしょう。
その直観を裏付けるものとして、文化心理学研究の中には、西洋人と東洋人とでは行動様式に大きな質的な違いがあることを示したものがあります。
もっとも、文化差がみられるという文化心理学の知見自体、疑わしい研究実践(QRPs)によって作られた虚像であるかもしれません。これについては、今後の動向を見守るしかありません。
さしあたり文化差はあると仮定しますと、問題になるのは、英語圏での心理学改革に任せていては著しく不十分だということです。外国在住の人々を対象とした、外国の大学で行われた研究が追試によって再現されたり、されなかったりしたところで、それらの研究自体が、日本においては当てはまらない現象についての研究なのかもしれません。
ゆえに、外国で行われた研究の翻訳を紹介していただくだけでは困ってしまいます。日本においても質の高い研究が行われる必要があるのです。事前登録研究、オープンサイエンス、再現研究の促進などの改革が不可欠でしょう。ただ、改革に前向きな学者が複数いることは確認できますが、心理学界全体としてこうした改革に熱心であるのか、素人目にはよく分かりません。
以下は「再現性の危機」に対抗する基盤研究についてのページです。再現性の問題について言及してきた研究者たちの名前が並んでいます。はじめのが過去のもの、二つ目は現在継続中のものです。
※ 「再現可能性検証実験」のデータが見れないのが残念。
問題意識をもった研究者たちの試みが功を奏してくれることを願います。心理学は社会を論じるのにあたって重要な学問であり続けると思うからです。
2021年9月12日追記
一部の研究者が超人的活動をしてくれているという指摘がありました。
心理学で再現性問題に対する取り組みが進んでいるのは、(とくに日本では)ごく一部の研究者の超人的な活動のおかげであって、足を引っ張ってきた人が「他分野はもっとひどい」とか言うもんでないと思います
— Yuki Kamitani (@ykamit) September 12, 2021
再現性の危機の受け止めについて
先ほどから何度もでてきている⼭⽥祐樹准教授は「⼼理学は科学でないと受け⽌められるところまで来ている」(日本経済新聞 2019年12月14日)と危機感をあらわにしているようですが、「科学ではないと受け止めているのが誰か」も一つの問題でしょう。
心理学に詳しい人の多くは「心理学は科学でない(又はそれくらいまずい状態)」という認識なのかもしれませんが、一般の人たちの多くは「しっかりした根拠に基づく科学である」と素朴に捉えているような気がします。「再現性の危機」もあまり知られていないと思うのです。山田准教授自身のツイートをみましょう。
再現性の危機はほとんどの国民に知られていないらしい。年齢と相関はあるぽい。認識されてないながらも追試の努力は評価されてるよう。
— もむ (@momentumyy) September 20, 2020
The “replication crisis” in the public eye: Germans’ awareness and perceptions of the (ir)reproducibility of scientific research https://t.co/CGD5Ax5ALL
上はドイツでの話みたいですが、日本でも似たような状況らしいとのこと。
ですかね.しかし日本の(クラウドだけど)似たようなデータ持ってるのでとても参考になりますありがとうございます.
— oʞɐsɐ ɐɹnıɯ (@asarin) September 20, 2020
あまり知られていないとは思います。それに「再現性の問題」は知っていたとしても、簡単な記事を読んだくらいだと「マシュマロテストが怪しくて、スタンフォード監獄実験がやらせだったんでしょ。知ってる、知ってる。再現性が4割っていっても、人間の心理が相手だからしょうがないでしょ」(※)レベルの認識かもしれません。
少なくとも私は、再現性の問題を知ったとき、「アリエリーも、カーネマンの本も、表情フィードバックも、分離脳実験も怪しいし、社会的プライミング効果もステレオタイプ脅威も再現性なし。君が面白がっていた自由意志信念と不正行為との関連も、マクベス効果も、オキシトシン点鼻薬の信頼性向上効果も再現できなかったんだよ! まだまだあるよ! 次はねぇ……」など言われるとは予想できませんでしたよ。
たまたま読んだ心理学の入門書に疑わしい研究実践についての項目があって、気になって調べてみた結果、ようやく深刻さに気づいたわけです。
ただ、この深刻さは知ることができて良かったです。特に分離脳研究やカーネマンの本が怪しまれていることは、早めに知ることができて良かった。
私の場合、心理学自体は健全化しつつあり、年々信頼性を増しているという認識は変わりませんでしたので念のため。有名研究が覆されていることと信頼性が増していることは表裏一体でしょう。
※ 2021年9月12日追記
このままだと誤解を誘発しそうです。心理学分野の論文で再現性があったものが4割以下に過ぎないとよく言われますが、「ほぼ再現できた」も含めれば47%、オリジナルと追試をあわせることで効果の有意性を保つことができたものを合わせると68%だったようです。前回の記事でも言及したものですが、貼り付けます。
三浦麻子 2015年
「記事には「再現性が確認できた研究は「100件中の39件」「全体の39%」だった」といった表現が見られますが、これは、追試を実施した研究者たちの主観的評価、つまり「オリジナルの結果が再現されましたか?」という質問に「はい」と答えた比率が39%だった点を取り上げたものと思われます。より客観的なデータを見ると、オリジナルの論文のうち97%は統計的に有意な効果が得られていた(つまり3%はnull effect〔効果なし〕研究だった)のですが、追試では36%、追試の効果量の95%信頼区間に元論文の効果量が含まれていた(つまり「ほぼ」も含めて再現されたと考えてもよさそうな)研究は47%でした。また、オリジナルと追試をあわせると、もともと示されていた効果の有意性が保たれたのは68%でした。」
ちとせプレス 2015年11月16日
http://chitosepress.com/2015/11/16/483/
また、「再現性があったのは4割以下」という論文自体にも誇張があったという指摘もあります。
インパクトのある研究が再現性に失敗しているので分野全体が怪しい印象を与えかねませんが、そもそも研究自体が膨大な数行われていることも考慮すべきでしょう。それに、「キャッチーなモンを出したもん勝ち」という側面があったとするのなら、インパクトのある研究ほどもともと怪しいということです。地味で目立たないが常識的な成果については、ある程度の信頼をおいてもいいのかなと思います。追試してほしいですが(ただ、追試というのは素人が思うよりずっと大変な作業みたいです)。
素人疑問について
今までは心理学研究について色々と疑問が浮かんでも、「専門家の言うことだから深い洞察の上でなされているのだろう」と考えてきたのですが、それも専門家まかせの無責任な態度だったかもしれません。何事も盲信はせずに、批判的な視点を忘れないことが重要だなと反省しました。
先日ある人にマシュマロテストの話をしたら、怪訝な顔で「なにそれ? オカルト?」みたいな反応をされました。こういうごく普通(?)の感性を持っておくことも重要だなぁと。(念のため「そういう説があったんだけど、あまり再現性がないと分かったようだ」と伝えておきました。)
その他、P-ハッキングやHARKingなどのQRPsの問題を措くとしても、一般書などを読んでいますと、「この研究結果が正しいとしても、ここまで強い結論が導けるものなのかなぁ」と誇張を感じることは結構あります。
ただ、自分の知らない分野については専門家集団の共通見解を尊重することこそがリテラシーの一つであるとは未だに思っているところです。盲信と批判的思考でバランスをとるのは難しいだろうなとも思います。
いろいろと書いてきましたが、心理学とはあまり関りのない領域でも、再現性の問題や、疑わしい研究実践は存在しているでしょう。心理学が危機を乗り切ることができたなら、その経験は他の分野においても活用できる共有財産になるような気がします。
その他、学術の動向(22年6月追加)
行動経済学に関しては、ウォルマートの行動科学研究のリーダーであるJason Hrehaさんが2020年に書いた記事「行動経済学の死」が話題になりました。
これは再現性の話とはちょっと違うのですが、ナッジの政策効果が従来言われていたよりもずっと低い(平均8.7%の影響と言われていたが、実際は1.5%程度。介入するより別のアイディアを用いた方がいいだろう)というところには驚かされました。
ただ、Hrehaさんは言い過ぎという指摘もあったり、
また、日本の研究者有志によって、シンポジウム「「行動経済学の死」を考える」が開かれていたようです。
経済セミナー2022年7月号では再現性特集が組まれており、問題意識は共有されてきていることが伺えます。
消費者心理学においても、多くの研究に再現性がみられないことが明らかにされているようです。
以下の論文では、再現に成功した研究、失敗した研究の実例をあげつつ、消費者行動研究の再現プロジェクトも紹介されています。
元木康介、米満文哉、有賀敦紀(2021年3月)「消費者行動研究における再現性問題と研究実践」消費者行動研究』Vol. 27 No. 1・2 号https://www.jstage.jst.go.jp/article/acs/27/1_2/27_202103.002/_pdf/-char/ja
消費者心理学も心理学ということで、基本的には心理学一般が抱えている問題を共有しているものと思われます。
神経科学も、実は心理学並みに問題を抱えているという話もあります。これについては本記事で何度も登場していただいた神谷之康さんのツイートを眺めていて知りました。一部をまとめたのが以下の記事です。
【私が書いた関連する記事】(宣伝)
・超有名な「ミルグラム実験」については、複数の追試実験で再現に成功しています。実は日本での追試研究もあり、これまた再現成功。というわけで、追試失敗の例には挙げませんでした。
……ただ、ミルグラムの手によるオリジナルの研究にはデータ改竄疑惑などがあり、例えば『服従の心理』の記述はそのまま受け取るわけにはいきません(わたくしこの本が好きだったんですが……)。
また、追試成功を鵜呑みにできるかも微妙なところ。そもそもオリジナル研究と同じ電撃上限値450V設定での実験は今や倫理上できていないこと、実験の設計的に被験者にはお芝居だとばれている疑惑があること、過去の追試研究はQRPsを免れているのか疑問であることなど問題があります。
社会心理学の目玉と言えるほどの重要実験ですから、私が疑問に思っていることについては以下で詳しくまとめました。
また、ミルグラム実験が、本当に「権威に対する服従の心理」を明らかにできるような設計になっているのかも疑いの余地があります。普遍的な教訓を引き出せるような実験だったのかについてはこちらで書きました。
・再現性の問題一般については、過去に簡単に解説しました。研究結果に再現性がみられない理由が「時代と地域の違いによる人間心理の差」に由来していればいいのですが、実際は疑わしき研究実践(QRPs)に原因があるとみられ、ゆえに「心理学の危機」とも称される事態になってしまったのです。
・私自身も心理学の研究について紹介する記事を書いているのですが、再現性のあるなしなどについて確認できたときには追記したいと思っています。後知恵バイアス、基本的帰属錯誤などについてはとりあえず再現性が確認されたようなので、その旨を追記しておきました。
・西洋人と東洋人においては、さまざまな行動様式に質的に大きな違いがみられるという研究について簡単に解説したものです。再現性が認められるといいなとは思っていますが、まだ分からず。
・心理学は、同じ分析法を異なるデータに用いた場合に結果が再現されるかという「再現性の問題」(本記事の主題)の他に、同じデータを異なる分析法で解析した場合にほぼ同じ結果が得られるかという「頑健性の問題」、そもそもその研究によって得られた知見が一般化できるかという「一般化可能性の問題」を抱えています(その他、「再生性」も問題になりえるよう)。
「一般化可能性の問題」についても先ほど記事を公開しました。
この記事では表情フィードバック仮説大規模追試のその後の経緯についても書いています。
追記・修正等について
若干の追記と修正を行いました。2021年9月12日
追記と修正を行いました。2021年11月3日
多くの方にご覧いただいているようです。ありがとうございます。記事へのご指摘もいただきまして勉強になります。不十分ではありますが、いくつか誤字脱字の修正と追記を行いました。
なお、見出し画像は以下のように修正を施しました。
・宣言効果 → 宣誓効果
・プライミング効果(カーネマン) → 社会的プライミング効果
疑わしいとされているのは、「プライミング効果」と呼ばれている効果の中でも、「社会的プライミング効果」です。また社会的プライミング効果はカーネマンのベストセラーでとりあげられているものの、カーネマン当人による実験というわけでもないので、「(カーネマン)」の部分は外しました。
・『ファスト&スロー』→ 『ファスト&スロー』(カーネマン)
若干の修正と内容追加を行いました。2022年6月2日
・noteの記事表示の仕様変更に合わせて引用形式を変更。
・「パワーポーズ仮説」、「自我消耗仮説」を項目として追加。
・「その他、学術の動向」という項目を追加。
・【私が書いた関連する記事】にミルグラム実験関連の記事二つと一般化可能性の問題の記事を追加。
・その他、微修正。
・上記修正内容に応じて見出し画像を変更
・項目を追加すると、ただでさえ読みやすいとはいえない記事がいっそう読みにくくなってしまうと懸念していたのですが、そうしたデメリットよりも、情報が一記事に集約されることのメリットを優先することにしました。
若干の修正と内容削除及び追加を行いました。2022年8月18日
・本論に入る直前と、「顔面フィードバック仮説」「分離脳実験」「ステレオタイプ脅威」の部分に若干の追記を行いました。
・見出し画像も若干変更しました。4割程度は再現できていることを追記したのが大きい変更です。「心理学の全てがデタラメかのような印象を与えかねない」という指摘があったのですが、多少は緩和されればなと。この記事単独でここまで伸びるという事態は想定していなかったのでスミマセン。
・昨日、ある方がこの記事をとりあげて下さったようで、たくさんの人にアクセスいただいています。ありがとうございます。ご指摘してくださった方もいますが、この記事自身がキャッチーだからこそ広まりやすい面はあるのでしょう。キャッチーゆえに広まった研究ばかり並べているので、これは避けがたいのかもしれません。
シャイなのであまり言及こそしませんが、ツイッターなどでみなさまの反応はみてみました。この記事から何を読み取るかはそれぞれだと思いますが、何かしらお役に立てれば嬉しいです。
ちなみに個人的には学問としての心理学が無くなると、素人断言型の俗流心理学による無法地帯が拡大するだけだと思うので、心理学界の健全化には期待しています。それに健全化の動きがあるからこそ、この記事のような失敗事例が可視化されたのだと思っています。そして、実際にそう読んでくださった方も多くいるようです。
さて、今まで記事の頭の方で、「再現性などが疑われており、かつ、千回以上引用されている研究を整理したもの」としてSNS上でよく紹介されている某サイトへのリンクを貼っていました。しかしどうもこのサイト、Sci-Hubという著作権的に問題のあるサイトから何度も引用をしているようです。リスクは小さくしておきたいので、削除しておきました。
Sci-Hubは学問版漫画村などとも言われておりながら支持者も多いという論争的な有名サイトらしいのですが、存在さえ知りませんでした。ご迷惑おかけします。
追記が増えて可読性は低くなるばかりですが、今回も有益だと思われた情報の追加を優先しました。急ごしらえで編集をしたので諸々不具合があるかもしれません。
若干の追記と修正を行いました。2022年8月19日