信頼できる心理学になるための９つのステップ― コロナ禍に対する政策に心理学は提言できるのか？―

2020年6月7日 19:52

本記事は ReproductibiliTea Tokyo の活動の一環として、心理学における再現性に関する論文の解説記事となっております。(詳しくはこちらのエントリーご覧ください)。今回は IJZerman らによる “Psychological Science is Not Yet a Crisis-Ready Discipline” を紹介します。記事の構成は論文の内容のまとめとそれに対する本記事の筆者の感想としました。最後の感想以外は特に断りがない限りには論文内容の紹介です。それでは早速論文の内容を紹介していきましょう。

背景と概要

論文の内容に入る前にこの論文が書かれた背景を説明します。今回の新型コロナウイルスによって引き起こされた事態で一部の心理学者たちが、これまで得られてきた知見に基づいて意見、あるいは提案などを述べていました。例えばパニックや社会規範であったり、現在の事態だからこそ表面化する問題について心理学的な側面から検討していました。しかし、この論文ではそうした動きとは裏腹に、「ちょっと待てよ、なんか色々言ってるけど、それってどれだけ信頼できる研究に基づいてるの？」という疑問を投げかけるところから始まります。そして、心理学がこうした状況でも社会に貢献できるようになるために、より信頼できる知見を提供できるようになりましょうよ、そのためには心理学内で知見の信頼性を評価する基準を作りましょう、というように話題が展開していきます。つまりこの論文は、コロナについて物申す一部の心理学者の動きに対して、「ちょっと待った、その前に自分たちのことを見直しましょうよ」と警鐘を鳴らす内容です。その解決策として、心理学内で再現性と一般性を評価するための基準を設けることを提案します。そして、現状の研究をその基準に照らし合わせることでその研究がどの段階にあるかを評価できるようにします。このような評価基準に基づいて、心理学で積み上げてきた知見がどれだけ信頼できるかを評価して、実際に社会に何らかの提言を行う際の目安を提供することを目的としています。

はじめに

コロナウイルスが招いた現在の状況の中、幅広い分野の研究者がそれぞれで培われた知見を駆使して、この状況を乗り越えるための努力をしています。ウイルスへのワクチンの開発や、ニュースでも見かける感染者の増減に関するシミュレーションなどがその好例でしょう。こうした研究者の努力は政治的な決断の根拠になることもあります。心理学でも同様の動きはあり、コロナウイルスについて言及する論文もオンライン上で数十本ほど発表されています。

心理学者はこの危機的状況の中で政治的な意思決定の材料を提供することができるでしょうか。少し意地の悪い訊き方をすると「心理学は今の状況に貢献できるほど信頼に足る学問ですか？」ということです。先に結論を言ってしまうと「心理学で培われてきた知見は社会に応用できるほど信頼のできるものではない」ということです。それでは、なぜそのような結論になるのでしょうか？心理学では過去の10年に渡って、いくつかの研究を取り上げてそれらがどれほど再現性や一般性が担保されているか検証しました。しかし、その結果は心理学で得られた知見は再現性にも一般性も欠けているというものでした (Open Science Collabolation, 2015)。こういった動きについて詳しく知りたいという方は、以前に有志の方々がReading Maylabs2という企画をしていたので、そちらのレジュメをご参照ください。

ここで再現性と一般性という概念について少しだけ説明します。ここでいう再現性とは、ある実験を元の研究者とは異なる他の研究者が同様の手続き行った場合に、同様の結果が得られる度合いのようなもです。例えば〇〇効果というものがある論文で発表されたとしましょう。そしてこの論文を元に他の研究者が同様の実験を行ったとします。しかし、そこでは元の論文で得られたような結果が得られませんでした。つまり〇〇効果は観察されなかったということです。この場合、〇〇効果は再現性がないとなります。次に一般性についてです。これはある実験と異なる条件でも同様な結果が得られる度合いのようなものです。先程の例と同様にある研究者が××効果を論文で発表し、他の研究者が同じ実験を行ったとしましょう。今度は元の論文と同じ結果が得られました。つまり再現性は確認されました。しかし、実はこの研究者はどちらもアメリカの大学の研究者で実験参加者もアメリカの大学生でした。そこで、アメリカ以外の他の国の研究者が自国の大学生を対象に同様の実験を行いました。しかし今度は元の論文とは異なる結果が得られました。つまり××効果はアメリカの大学生では観察されたが、他国の大学生では観察されませんでした。この場合、××効果は一般性がないとなります。

心理学で得られてきた知見が再現性も一般性もないということは、つまり、心理学は政治的な意思決定について助言などをする以前の問題があるということです。ということで、心理学が現在のような状況下で社会に貢献をできるようになるためには、より信頼のできる根拠を提供できるようになる必要があります。そこで論文著者たちは、心理学で報告されている知見について、再現性と一般性がどれほど担保されているかを評価する基準となるようなガイドラインを提供します。

信頼できる知見とは

それでは信頼できる知見とはどのようなものでしょうか。論文著者たちは NASA のTechnology Readiless Level (以下 TRL)を例にそれを段階的に評価しています。日本語では技術成熟度と訳されており、ある技術がどれほど成熟しているかを 1~9 段階で系統的に評価するものです。レベル 1 は最も基礎的なレベルでレベル 9 が実用できる段階となります。ここでは大まかに 4 つに分けて解説していきます。

1. TRL1 - 3: 基礎的な原理が観察・報告され、技術の適用範囲を明確化する着想段階
2. TRL4 - 5: 技術の試作品の開発と、それを用いて適用環境を模した実験室内での実験などを通じて有効性を検討する段階
3. TRL6 - 8: 実環境でのテストなどを通じて実際に運用可能であるかを確認する段階
4. TRL9: 実環境でのテストなどを通り実際に運用可能な段階

このように技術が実際に運用可能になるまで、基礎的な着想段階から始まり、実験室内での実験を経て実環境でのテストを行い、それをパスして初めて現実的な場面で運用可能となります。

それでは心理学で得られてきた知見は TRL でいうところのどのレベルなのでしょうか。論文著者によれば、心理学で得られた知見の再現性や一般性には問題があり、TRL 1 かそれに満たない程度だそうです。しかし TRL はあくまで技術に関する基準です。心理学者はこのように系統的に知見を評価するための基準は設けていません。かといってこの TRL をまるっとコピペで済むほど単純な話ではありません。そこで、論文の著者たちはこの TRL を参考にして、心理学における知見を評価するガイドラインを提案しました。

Evidence Readiness Level

ここでは論文著者たちは Evidence Readiness Level (ERL) という、心理学的な知見についても同様に現実的な運用を見据えて 9 段階で評価するための基準を提案しました。ERL について紹介する前に、もう一度心理学が直面している問題を整理してみます。それは再現性と一般性の欠如というものでした。再現性とはある実験を元の研究者とは異なる研究者が同様の手続き行った場合に同様の結果が得られる度合い、一般性とはある実験と異なる条件でも同様な結果が得られる度合いのようなものでした。これらに欠けているとは、ある現象について確かな知見が得られていないといっても過言ではないでしょう。当たり前ですが、心理学が何らかの形で社会に貢献しようとするなら、それを裏付ける論拠が必要になります。つまり、心理学が今の状況に貢献するならば、この再現性と一般性も欠如という2つの問題をクリアしなければなりません。それでは、ある知見に関する再現性と一般性をどのように評価して、どのような基準によって運用すればよいでしょうか。まずは早速ですが全てで 9 段階ある ERL の各レベルを紹介します。

1. 共同研究者内での問題の定義
2. 問題の応用可能性の評価
3. ソリューションの候補となるものの証拠のレビュー
4. 指標の選択とその妥当性・指標の同一性の検証
5. データから考えうるソリューションの比較・効果や副作用の予測
6. 実験による因果関係と副作用の確証・再現性の検証
7. 実験環境内でのソリューションの様々な設定の下での検証
8. 対象とする環境に近い環境下でのソリューションの大規模な検証
9. 危機的状況でのソリューションの利用

とりあえず ERL1 - 9 まで全て列挙しました。簡単に 1- 9 までの流れを整理してみます。まずはどのような問題を対象とするかを研究チーム内で設定し (1)、その問題が一体どれほどの範囲に適用できるのかを査定します (2)。次に問題のソリューションとなり得るものの現状での根拠を集めて (3)、使用されている指標やその妥当性などを検証します (4)。そして、実際のデータに基づいて候補として上げられたソリューションの比較やそれによって期待される効果や副作用の予測 (5)を行います。そしてここまでで作り上げられてきた予測や副作用などを実験によって検討し (6)、それを様々な条件下でも行い一般性を担保して (7)、実際の環境に近い形での大規模な検証を行います(8)。そしてここまでのステップを無事にパスすることで ERL 9 の実際の危機的状況においても十分に信頼の足る根拠でもってソリューションを示すことができるようになります。

まとめ

心理学が危機的な状況において貢献できるようにするための ERL というガイドラインを提案しました。これまでの心理学では研究の再現性や一般性が欠けており、今回のコロナウイルスがもたらしたような危機的状況において、政治的な意思決定などに助言をできるほど信頼に足る根拠を示すことができませんでした。そこで、再現性や一般性を担保するためのガイドラインとして ERL を提案しました。これはざっくりと言えば、問題設定からその解決策の提案からはじめ、そして実験的な検証を共同研究で行うことで再現性や一般性を担保をして、最終的には実際の環境と可能な限り同じ環境の下で大規模な検証を行うことで、政治的な意思決定など社会的に重要な局面への貢献をできるようにするための、ガイドラインです。ここで示されたガイドラインに沿って研究を進めることで心理学が、政治的な意思決定などへの助言を始めとする社会への貢献ができる学問へと、成長することが期待できます。

感想

ここまでは論文の内容をおおまかに説明してきましたが、ここからは感想になります。今回の論文の主題は、心理学が社会に貢献できるようになるために、知見の信頼性（主に再現性と一般性）を担保するための基準を提案する、ということでした。この主題に関しては私自身も同意はできます。再現性と一般性は個々の研究者や研究室の努力だけで解決する問題ではありません。なぜなら再現性を担保するために追試をするとなると、多くの実験参加者を募集する必要がある上に、さらに一般性ともなると、多くの国の実験参加者を募集する必要があるので、1つの研究室だけで完結できるような規模ではなくなってしまいます。ちなみに、共同研究が心理学にもたらすメリットや既存の問題へのソリューションは Moshontz et al. (2018) で語られていますので、こうした取り組みについて興味のある方はご覧ください。このような共同研究を重視した研究のあり方では、少なくとも複数の研究室のチームであったり心理学内のコミュニティ単位で、評価するための基準や運用ルールが必要になるのかもしれません。今回紹介した ERL がベストであるとは思いませんが、こうした評価基準は心理学内での目安として重要になると思いました。

今回の論文について、心理学内での評価基準にのみ焦点が当てられていることについて疑問を持ちました。ERL のような評価基準は心理学のコミュニティあるいはチーム内で共有しているだけで良いのでしょうか？科学者が自ら運動などを起こす場合や、私的に選挙などで政治的な意思決定をする場合を除けば、何らかの形で問題について言及したとしても、最終的な判断は為政者であったり、あるいは企業や団体といった組織の人であるでしょう。あるいは、SNS 上で情報が拡散することによっても多くの人々の行動が影響を受けるでしょう。そうとなると、こうした基準は科学者だけでなく、一般にも共有される必要があるのではないでしょうか。少なくとも、「科学者」が言ったから、「科学的に示されたから」という言葉を受け身で信用するのではなく、批判的な視点を共有するためにも一般の人々向けにも ERL のような評価基準が示された方が良いと考えました。つまり科学者自身が研究の再現性や一般性を評価するためのコミュニティ内での基準と、それを外に発信する際に、あるいは既に発信されている知見も含めて、それらが再現性や一般性が担保されているのかを対外的に示す必要があるのではないか、ということです。

謝辞

本記事作成にあたって、ご指摘・ご意見頂いた平石界・池田功毅・田仲祐登・中村大輝・高橋礼美さんありがとうございました。

この記事が気に入ったらサポートをしてみませんか？