心理学は信頼できるのか? 再現性の問題【心理学】
心理学は重要な学問だと思っている。
心理学上の研究成果は、法学、経済学、社会学、教育学、哲学、文学に至るまでさまざまな学問で援用されている。
重要かつ影響力のある学問だと思っているからこそ、最近は集中的に色々と読んでいるわけだが、同時に警戒感もあった。
先日、心理学の入門書の目次を眺めたところ、心理学研究手続上の諸問題について書かれた項目をみつけた。読んでみると、10年ほど前にショッキングな事実が続けざまに発覚し、心理学は危機を迎えたという。
内容が衝撃的であったので、素人ながら調べて考えてみた。そうとうな長文になってしまったが、それは驚きの反動である。
1 心理学における再現性の危機
2010年代、心理学研究の信頼性を揺るがせる大事件が立て続けに発生した。
2011年には、ダリル・ベムという社会心理学・パーソナリティ心理学分野における重鎮が、人間の予知能力を確認したとする研究論文を、世界で最も権威のある査読付き学術誌において発表する。
もちろん心理学界は騒然とした。何人もの心理学者がベムの実験を追試したが、結果を再現することはできなかった。研究の一部をベムと同じ材料、同じ実験プログラムによって追試した結果も否定的なものだった。
追試によって研究が反証されるというのは科学的に正常なプロセスである。だが問題は、再現性がない、しかも人間の予知能力を肯定する類の研究が、一流の学術誌が採用している正規の査読システムを通過してしまったことであった。この事件をきっかけに、従来の心理学研究のあり方には、虚偽の報告を見抜けなくするような根本的欠陥があるのではないかと疑われはじめたのである。
加えて、ベムの論文を反証する追試論文が、同学術誌に「独自がない」として門前払いされたことも大きな問題になった。「追試」を「オリジナリティがない」として却下する風土があるようでは、正しい研究の頑健さを保証する機会も、虚偽の報告の問題を暴く機会も失われてしまう。それに、そもそもの話、オリジナリティへの執着こそが研究不正への動機づけを与えてしまうところもある。
2015年には、査読付きの主要な学術誌に報告された100件の研究の再現を試みたところ、39%しか同じ結果が再現されなかったという論文が発表される。
この研究も衝撃的なものであった。なぜ「統計的に有意」とされた研究が再現できなかったのか。理由としては、後述するようなデータの捏造・改竄や、疑わしい研究手法を採用していることなどがあげられる。心理学研究が、本来存在しない現象をでっちあげてきたのだとしたら、心理学自体が学問の土台から崩れ去ってしまうだろう。
もっとも、この「再現性の危機」を理由に、「従来の心理学研究の成果は無視すべきである」というような結論は導かれないと思われるので、いくつかフォローを入れておく。
まず、この「再現性の危機」を指摘する形となった追試研究自体にも不備があることが指摘されているという。次の記事をみてみよう。
なるほど、人間の心理は文化に影響を受けるから、地域差が存在する。文化が異なる地域で追試をしたならば、結果が再現できないこともあろう。また、再現する実験を実験者が選べるという手続では、実験者の先入観(関心や利害など様々)によって結果が歪みかねない。このように、「再現性の危機」を指摘した研究論文自体、鵜呑みにしてはならないようである。
追試によって結果が再現ができなかったからといって、元々の実験が間違っていたことには必ずしもならないことにも注意が必要だ。研究方法の記載が十分でなかった結果として、研究が正しく再現できなかったのかもしれない。この場合、確かに元々の研究には記載の不備という欠陥があるわけだが、結果に間違いがあったとは限らない。さらに、もともと珍しい現象を扱った実験ならば、一回の追試で再現できないのも仕方がない。
再現された研究が39%というとセンセーショナルに響くが、「ほぼ再現できた」も含めれば47%、オリジナルと追試をあわせることで効果の有意性を保つことができたものを合わせると68%だったという。
そして、すべての心理学分野が疑わしいという話でもない。心理学と一口にいっても、知覚心理学、認知心理学などは、追試のコストが低いために、研究の再現はもともとよく行われているという。追試のコストがかかる社会心理学のような分野においてこそ再現性が問題になっているようである。
とはいえ、いくら言い繕ったところで心理学界隈において重大な問題が存在することには違いない。以下では、「再現性の危機」を引き起こした原因と、とられるようになった各種の対策について書いてく。
2 研究手続上の問題と対策
(1)研究データの捏造・改竄
実験や調査をせずに、自分に都合のいいデータをでっちあげることを「捏造」という。実験や調査は行った場合でも、結果が都合のよいものになるようデータを取捨選択したり、一部改変したりすることを「改竄」という。
捏造や改竄によって成り立つ研究に再現性がないというのは理解しやすい話である。最近の例では、2011年に自己や感情の研究で有名だったスタペル(D.Stapel)の研究データは、ほとんどが捏造であったと明らかになっている。
スタペルは権威とされていた研究者であったゆえに、捏造事件は多くの学者たちの時間と労力を奪い、誤った考えを大きく広めてしまった。以下の報告からは現場の悲壮感が伝わってきて、読むだけで悲しくなってくる。
捏造・改竄への対策
捏造や改竄への対策としては以下のものが挙げられる。
・厳しい罰則 ……研究費の返還や、一定期間の申請禁止
・倫理教育
・若手研究者の待遇や環境改善 ……捏造や改竄の動機になるのが、オリジナリティのある研究成果を残さないと生き残れないというプレッシャーである。ゆえに待遇や研究環境自体を改善するのも重要だ。
捏造・改竄は、センセーショナルに取り上げられがちである。だからこそ目立つ問題ではあるわけだが、一部の人間の明確な悪意が問題となる分、対策としてはシンプルなものになるのだろう。
(2)疑わしい研究実践(Question able research practices:QRPs)
こちらこそが深刻な問題だ。
研究を歪めるのは、捏造や改竄のように悪意ある手法ばかりではない。そもそも日常的に行っている研究のやり方や手続きの中に、研究データの信頼性を損なうようなものが含まれていることが問題視されるようになった。それらを疑わしい研究実践とよぶ。
代表的なものとしては、「p-ハッキング」、「HARKing」、「出版バイアス」などがあげられている。これら疑わしい研究実践は心理学に限らず、他の分野においても生じていると思われる。
p-ハッキング
p-ハッキングとは、研究結果が統計的に有意になるように、データや分析手法を手直しすることである。
例えば、統計的に有意になるまでサンプル数を増やすことが挙げられる。50人のデータをとって結果が有意にならなかったという場合、少しずつ実験・調査の対象人数を増やしていき、結果が有意になったところでデータをとるのをやめて、最初からその人数をもとに研究を行っていたかのように報告をするのである。
その他、多数の検定を行っておきながら、有意になったものだけを報告する事などもp-ハッキングに該当するという。
p値とは危険率のことであり、一般的にはこの値が0.05以下であれば、統計的に有意といえるとされている(0.05という基準に明確な根拠があるわけではないというが、慣習上そうなっているようだ)。しかし、ジャーナルに掲載された論文には、0.05より少しだけ小さな値で報告されるものが突出して多い。この事実がp-ハッキングの傍証とされている。
p-ハッキングが生じていた理由の一つは、それが問題であると理解されていなかったことにあると思われる。アメリカ主要大学の心理学者を対象とした調査によれば、回答者の半数がp-ハッキングを行ったことがあると回答し、その多くはp-ハッキング自体を問題だと考えていなかった。
だが、p-ハッキングは研究結果を歪めるものである。p-ハッキングを駆使することによって、どのような荒唐無稽な仮説であっても、その仮説を支持する論文を報告できるという指摘もなされている。
p-ハッキングとは異なるものの関連した論点として、「統計的有意」にのみ拘ること自体の問題も意識されるようになった。
統計的に有意とは、効果が「全くないか、あるか」でいえば「ある」とするものであり、効果の大きさについては語らない。p値(危険率)が基準となる0.5よりもずっと低かったとしても、それは効果の存在を強く示すだけで、効果が大きいことは示さない。
このことを誤解してしまうと、研究結果を過大評価してしまかねない。
それを示す好例といえるのは、Facebookが689,003人のユーザーを対象として行った「感情伝染実験」である。実験によれば、表示される投稿記事の内容によって感情伝染が生じることが「統計的に有意」なものとして示された。このことは世界中の新聞、テレビ、インターネットにおいて、大きく取り上げられ、Facebookによる世論誘導の危険性などが論じられた。しかしながら、感情伝染の「効果がきわめて小さい」ことに触れるメディアはほぼなかったという。
元の論文には、「統計的に有意」であること、すなわち感情伝染が存在することと共に、「効果量(効果の大きさ)」は小さいこと、つまりその効果が小さいことも明記されていたのだ。
ちなみに、「統計的有意」を示すこと自体は非常に簡単らしい。統計的検定の原理からいって、サンプル人数を大きくとると、どんなに小さな差や傾向でも「統計的に有意」にできてしまう。
サトウタツヤ、渡邊芳之『心理学・入門 改訂版』にある例だが、仮に10万人のデータを取り、高校1年の男子の数学の平均点が76.5点、女子が76.3点だったとしよう。この0.2点の差は「統計的に有意」である(233頁)。
だが、このような差が「統計的に有意」だとしても、その事実から何か有意義な教訓が引き出せるわけではない。むしろ、たった0.2点差であることが無視され、「男子は女子より数学において高得点をとることが統計的に証明」などと報道されたならば社会に大きな害をもたらすだろう。統計的に有意であるかと、その差や傾向に意義があるかは別問題である。
HARKing(Hypothesizing After the Results are Known)
HARKingとは、データをとってから、データをうまく説明するように仮説を修正し、あたかも最初からデータにぴったりの仮説があったかのように装うことをさす。
HARKingは、学問研究の現場において広く行われており、推奨されることさえあったという。
しかしながら、これは問題である。どう問題なのかを一つ指摘する。
得られたデータが信頼できないものであった結果、仮説とデータが食い違ったとする。このとき、データの不具合を疑うのではなく、仮説を修正して済ますとなれば、①データの不具合が見逃されるばかりか、②信頼できないデータに基づいて形成された修正済仮説が、あたかも検証済みの仮説であるかのように報告されることになる。実際にはデータをみた後で形成された仮説だから、まだ一度も検証されていないのにである。
出版バイアス(publication bias)
研究の現場においては、仮説が検証された研究ばかりではなく、仮説が検証されなかった研究もあるはずである。しかし、学会誌や学会発表では、仮説が検証された研究だけが発表される傾向が強い。
もともとはうまくいかない可能性も十分にある研究だったのに、失敗した場合は報告されず、うまくいった場合だけが学術誌や学会発表で報告されるならば、あたかもその研究は常にうまくいくようにみえてしまう。
例えば、サイコロで「6」が出たときだけ「サイコロを振ると6が出た」と報告され、他の目がでたときにはサイコロを振ったことさえ報告されないならば、「このサイコロは6ばかり出るような仕組みになっている」と勘違いされかねない。ただし、こうした研究をいざ追試してみたのならば、結果が再現されないことが多くなるだろう。なぜなら、もともとはうまくいかない可能性も十分にある研究だったのだから。
疑わしい研究実践(QRPs)への対策
「疑わしい研究実践」は、心理学界全体が抱えていた問題であり、研究者の誰が陥ってもおかしくない身近にある危険である。
以下の証言は現場の研究者の危機感を伝えてくる。
問題を解決するには抜本的な改革が必要になってくるし、実際にそうした改革がなされるようになったという。
・さまざまな統計手法の取り入れ
検定やp値ばかりに頼るのではなく、効果量(研究で示された差や傾向が実際にどれだけ大きいのかを示す数値)やベイズ統計学を取り入れるなど、さまざまな統計手法を利用するようになっているという。
・事前登録研究(pre-registration)
あらかじめ研究計画やデータの分析法を登録しておき、その通りにデータ収集や分析を行ったものだけを学術誌に掲載するという方式である。研究を実施してデータをとるよりも前に登録がなされているので、p-ハッキングやHARKingを防ぐことができる。
(2023年12月20日追記)
事前登録した上での研究は実際に高い再現性が得られているという。
事前登録によって再現性が高まったということは、再現性の問題の主因は疑わしい研究手法(QRPs)にあったのだろう。主因が人間心理の移ろいやすさにあったのならば、事前登録をしようが再現性は低いままだったはずだ。
・レジスタード・レポーツ
研究計画を事前登録の時点で審査する。審査に合格した研究は、仮説が検証されてもされなくても学術誌に掲載する。これによって、出版バイアスを防ぐことができる。
・オープンサイエンス
研究用に収集したデータ、分析に用いたプログラムをオンライン公開することが広く行われるようになったという。事前登録研究についても、登録された情報がオンライン上で公開されるようになっているようだ。
従来の研究においては、研究手法が論文内において十分に記載されていないケースがままみられた。その一つの原因は、紙媒体ゆえに厳しい字数制限を科されることにあった。電子ジャーナルへの移行に伴い、この点も改善されることが期待できる。
・再現論文の評価
新規性が第一であった方針が転換され、事前登録を行った追試研究・再現研究が査読付き論文として出版されるようになってきたという。
この10年少しで、心理学研究の実施・報告に関する環境は一変といっていいほど良くなったという。
喜ばしいことではあるが、ここ10年少しというのは本当に最近の話だ。心理学研究が再現性の危機を乗り越えはじめてからはまだ日が浅いということには気をつけた方がよいのだろう。
なお私としては、今後も人間の心理を論じるにあたって、心理学研究を援用していきたいと思っている。研究分野自体が問題を抱えているにせよ、私個人のただの直観や感想のみに頼るよりははるかにマシだと思うからだ。
「再現性の危機」が明らかにしたことの一つは、心理学界は全体としてみれば誤りを検知する機能があり、誤りを正す動機もあり、改善策を打ち出す力もあるということだ。自浄作用がみられたのである。それに対し、私の直観や感想に自浄作用があるかといえば、極めて疑わしい。
【参考資料】
・サトウタツヤ、渡邊芳之『心理学・入門 改訂版』有斐閣 2019年
・「心理学研究の信頼性に疑問を呈した論文は「誇張」、米ハーバード大研究者ら」AFP BB News 2016年3月4日
https://www.afpbb.com/articles/-/3079221
・三浦麻子「心理学研究は信頼できるか?――再現可能性をめぐって(4)」ちとせプレス 2015年11月16日
http://chitosepress.com/2015/11/16/483/
・藤島喜嗣「心理学研究は信頼できるか?――再現可能性をめぐって(1)」ちとせプレス 2015年10月26日 http://chitosepress.com/2015/10/26/125/2/
・岡田謙介・星野祟宏「いかに研究結果を有意に見せるか?」教育心理学年報 第58集 2019年
https://www.jstage.jst.go.jp/article/arepj/58/0/58_291/_article/-char/ja/
・池田功毅、平石界「心理学における再現可能性危機:問題の構造と解決策」心理学評論 2016 年 59 巻 1 号
https://www.jstage.jst.go.jp/article/sjpr/59/1/59_3/_article/-char/ja
この論文は特におすすめ度が高い。
・大久保街亜「統計的に有意?――帰無仮説検定でわかること・わからないこと」心理学ワールド 68号 2015年
https://psych.or.jp/publication/world068/
・樋口匡貴「心理学研究は信頼できるか?――再現可能性をめぐって(1)」2015年10月26日
http://chitosepress.com/2015/10/26/125/2/
【その他の興味深かった資料】
・佐倉統「科学的方法の多元性を擁護する」心理学評論 2016 年 59 巻 1 号
再現可能性に拘ることだけが妥当な科学的方法というわけではなく、歴史叙述、逸話法、擬人法なども有効でありうるという指摘がなされている。ただ本文の趣旨より衝撃的なのが、「Nature に掲載された医学・生命科学領域の論文では 70% 以上が結果が再現できなかったとされている(Wadman, 2013)」という記述だ。生命科学分野は産業界との繋がりが太いため、「結果を出せ」というプレッシャーは心理学分野より強いのではないかと指摘されている。
・「「再現性の危機」はあるか?−調査結果−」Nature ダイジェスト Vol. 13 No. 8
「再現性の危機」は、心理学の領域外でも問題になった。この問題をさまざまな分野の科学者たちがどう受け止めているのかが紹介されている。
・再現性問題のまとめスライド(2020年版)
「再現性の問題」に熱心に取り組んでいる認知心理学者の山田祐樹九州大学准教授の記事。QRPsの解説とあるべき対策についてスライドでまとめてくれている。新たな発見が沢山ある記事だった。
追試研究はかなり大変で、平均1年6か月かかっているという話とか、本格的な追試研究にはすべての能力が試されるとかは、素人からすると、そうなのかと。追試で問題になるp-スラッキングや、HARKingにも種類があることなども勉強になった。査読付き事前登録にも抜け穴があるとのことで、不正根絶の難しさも分かる。
あと、若手研究者の負担が大きくなることへの危機感は、切実なものだろうなぁと。成功譚への愚痴もその通りだと思わされた。
追記
2021年9月12日
どうやら多くの方々に読んでいただいているようです。みなさまありがとうございます。
この記事はツイッター上で山田祐樹准教授がとりあげて下さったようです。
山田准教授は再現性問題について発信し、解決のために取り組まれておられる研究者であり、尊敬しております。恐縮であるとともに嬉しいです。感謝いたします。
以下の動画は「再現性の問題」を理解する上で参考になります。
2023年12月20日
事前登録研究が効果的だという報告を追記しました。
この記事が気に入ったらサポートをしてみませんか?