見出し画像

神経科学や実験経済学の再現性についてメモ【再現性】


以前の記事では、査読付きの主要学術誌に掲載された心理学研究について、その再現性が3割程度に過ぎないと判明したこと、過去の有名研究が次々に追試失敗していること、世界的にみれば学界をあげた対策が進められている(信頼性革命)ことを紹介しました。

心理学は信頼できるのか? 再現性の問題【心理学】
https://note.com/s1000s/n/n535be7155581

心理学・行動経済学等の著名な研究論文が次々に追試失敗【心理学】
https://note.com/s1000s/n/na0dbd2e8632d

上記記事では、主に心理学についてとりあげています。では、心理学以外の分野ではどうなのでしょうか。ぽちぽち検索してみると、

……少ししか分かりませんでした。

その少しについてまとめておきます。主に神経科学、ほんのちょっと実験経済学(と行動経済学)についてです。

私としては、多くの学問分野が実は危機状態なのだろうなと予想はしています。心理学がマズイ状態なのに他の社会科学は無傷であった、などということはまずないでしょう。心理学の危機及び信頼性革命は、じわじわと他分野にも広がっていくのではないでしょうか。


神経科学


神経科学も心理学と似たような問題を抱えているのではないかと指摘しているのは、知能情報学の神谷之康さん(京都大学教授)です。以前も記事において何度も引用しましたが、今回もお世話になります。

神谷之康著「実験データ解析再入門」の内容に関しては、私の能力では雰囲気を感じることしかできませんが、以下の記述は興味深いです。

「神経科学では計測のハイスループット化が進み、現象をじっくり観察する機会が減っている。データ解析への依存度が高いと、不適切なデータ解析から誤った主張が導かれるリスクが高まる。実際、実験データをでたらめなデータ(生成したノイズや、ラベルや対応関係をシャッフルしたデータ)に置き換えても同じような「有意な結果」がでてしまうような解析を行っている研究が多数「トップジャーナル」に掲載されている。」

神谷之康「実験データ解析再入門:論文を「フェイクニュース」にしないために」2022年3月4頁https://speakerdeck.com/ykamit/shi-yan-detajie-xi-zai-ru-men-lun-wen-wo-hueikuniyusu-nisinaitameni

実験データをでたらめなデータに置き換えても同じような有意な結果が出てしまうような解析って……。主張したい内容を何でも正当化できるようなもので、恐ろしいです。

神経科学におけるQRPs(疑わしい研究手法)の現状についても、印象論ではあるようですが、次のように指摘されています。

「神経科学に絞った調査結果は見当たらなかったが、個人的には、心理学と比べて問題が少ないという印象はない。むしろ‥」

前出:神谷之康

私なんかは神経科学という名前が「科学っぽい」せいか、けっこう信用できるもんだと思い込んでいました。

この神谷さんは再現性警察と呼ばれているそうですが、そんな綽名がついているだけあって、ツイッター上で再現性関連の話題を色々と呟いています。私が拾ったものをいくつか。

神経科学がいう「有意な結果」の大半はウソ!?


神経科学の論文を読んで、「有意差」が報告されているとしても、飛びついてはいけないようです。

まとめると、だいたい次のような話だと思います。

研究者が「これこれは有意だ」という仮説を1000件思いつきました。このうち1割の仮説のみが本当に正しいとすると、正しい仮説は100件ウソ仮説は900件です。

さて、仮説1000件を全て検定しましょう。

1000件について、研究者は「有意差がある」という結論を期待しています。そこで、それぞれの仮説について帰無仮説「有意差なし」が立てられます。研究者は帰無仮説が否定されることをもって「有意差あり」という対抗仮説が支持されることを期待するわけです。

検定力(パワー)が20%とすると、正しい仮説100件のうち20%、20件については、正しく帰無仮説(有意差なし)が棄却され、「有意差あり」と出てきます。

そして、有意水準を5%とするならば、ウソ仮説900件のうち5%、45件については、誤って帰無仮説(有意差なし)が棄却され、「有意差あり」と出てしまいます。

つまり、仮説1000件のうち65件(20件の正しい仮説+45件のウソ仮説)が「有意差あり」と出てくるわけですが、そのうち正しい仮説(本当に有意差のある仮説)は20件にすぎません。すなわち有意差が出た仮説が本当に正しい確率は65分の20。約3分の1というわけです。

※ 統計学はほぼ知らないので色々間違っているかもしれません。ちょっとは勉強しないとなぁ、勉強すべきこと多すぎ問題。

分野によっては、さらに状況は悪いようです。


検定力(パワー)が8%。上の計算に当てはめると、有意差が出た仮説が本当に正しい確率は15%程度になってしまうと思われるのですが……。

Brain imaging(脳撮像)とか、VBM研究(脳構造と行動の相関)とか、キャッチーな感じがするだけに、よくメディアには取り上げられるという話は納得。ふつうの読者・視聴者は再現性云々なんて気にしないので、ウソ話でも鵜呑みにしそうです。少なくとも、去年夏までの私なら鵜呑みにしたでしょう(確信)。

※ 臨床検査一般の陽性的中率などについては以下が参考になります。神谷さんのツイート上に陽性的中率の話があるので念のため。
三宅⼀徳「臨床検査の偽陽性と偽陰性について」https://www.jslm.org/committees/COVID-19/20200427.pdf

神経科学の検定力(パワー)が低い理由には、サンプルサイズの小ささがあるようですが、その弊害がずばり指摘されたのが以下の話。


ブレインワイド関連解析はサンプルが二桁足りていない!?


ブレインワイド関連解析(BWAS)ってなんだよと言われると、私もよく分かってないんですが、MIR脳構造・活動パターンと個人特性との相関に関する研究とのこと。

精神疾患の予測・予防や、認知能力の解明に役立つと期待されているものの、従来の研究はあまりにもサンプルサイズが小さく信頼できない、と。

 脳の構造や機能と複雑な行動との関連性を評価する研究では、結果の信頼性を確保するために数千人分のサンプルが必要なことが、約5万人分のデータの解析によって明らかになった。このことを報告する論文が、Nature に掲載される。
 ブレインワイド関連解析(BWAS)は、磁気共鳴画像法(MRI)などの脳スキャンのデータを用いて、脳の構造や機能の多様性と認知やメンタルヘルスに関連する特徴との関連を調べることを目指す。この関連性は、精神疾患の予測や予防と、ヒトの認知能力の解明を進める上で役立つ可能性がある。しかし、MRIデータの取得には高いコスト[1時間当たり約1000ドル(約11万円)]を要するため、BWASのサンプルサイズが抑制され(参加者数は25人程度になることが多い)、再現性のある結果を得ることが困難になっている。

Nature asia「Neuroscience: Sample size matters in studies linking brain scans to behaviour」
2022年3月17日
https://www.natureasia.com/ja-jp/research/highlight/14015?utm_source=Twitter&utm_medium=Social&utm_campaign=NatureJapan


数千人分の被験者が必要なのに、実際に行われている研究の中央値をとると被験者は25人程度である。二桁足りていません。恐ろしい現実です。

この問題には技量や誠意以前にコストの問題が立ちはだかっています。MIRデータ取得が1時間当たり11万円かかるというのに、そのデータが数千必要となれば、価値のある研究をするには何億もかかることになります。当然莫大な時間もかかるでしょう。もはや研究者たちが自ら取得したデータだけを用いて研究できる規模ではなくなります。強制的な情報共有や、研究対象の絞り込みなどが必要ではないかと指摘されているとのこと。

Marekたちは、BWASの解析結果を改善するための今後の取り組みには、強制的な情報共有の方針に基づいたデータの集約が含まれ、脳の構造や機能と認知やメンタルヘルスの表現形質の関連性の中で最もロバストなものに着目するという配慮も含まれるかもしれないと結論付けている。

前出:Nature asia

以下による紹介がよいと思いました。


(2022年6月13日追記)
怪しまれているブレインワイド関連解析(BWAS)研究の実例も紹介されています。


「貧困脳」に関する怪しい論文


貧困と子どもの脳の発達の相関に関して「貧困脳」と称される研究があります。貧困は子どもの脳の発達を阻害するという話です。

最近では、「低所得世帯の母子100組に現金333ドル(約4万円)を1年間支給したところ、高周波数帯域で高い脳波パワーがみられるようになった」というような研究が報告されたようです。しかしその研究には色々と問題があるようで……。

私なんかは「現金給付のメリットが明らかに!」系の研究には飛びついてしまいたいタイプなだけに、このような結果は残念です。

具体的な問題点についてはギガジンの記事で簡潔に整理されています。

以下の結論が、まぁ正しいんでしょうなぁと。

こうした経緯から、CSPI Centerは「今回のような事例は、公共政策の議論において社会科学が果たす役割を再考させるものです」「人気のある政策を支持するような派手な研究はたいてい信用できないものであり、劇的な効果はたいてい誇張されたものか、有利なデータ選びをするp-hackingが行われたものか、偶然の産物なのです」と主張しました。

Gigazine「「現金給付で子どもの脳波パワーがアップした」との研究に浮上した疑惑とは?」
2022年04月05日
https://gigazine.net/news/20220405-baby-brainwaves-policy-fraud/

派手な研究はたいてい信頼できない。劇的な効果はたいてい誇張されたもの。このあたりのフレーズは覚えておきたいです。(それはそれとして三権のみなさまにおかれましては貧困問題に真摯に向き合ってください)

なんだか神谷さんの警察活動を紹介する記事みたいになっていますね。紹介したのは一部で、にも色々ありいずれも参考になります。



実験経済学(と行動経済学)


実験経済学については、主要誌掲載論文の再現率6割は程度だったとのことです。心理学より高いですが、専門家からしても安心できる再現率とはいえないようで。

周辺領域におけるこうした流れを受けて、ある実験経済学、行動経済学のグループはAmerican Economic Review、Quarterly Journal of Economics 等の経済学分野における主要誌に掲載された経済実験研究の追試を行い、実験経済学分野における再現率は61%程度であったことが報告している(Camerer et al., 2016)。実験経済学研究の再現率は、心理学分野に比べて高かったものの、主要誌に掲載されている知見の4割程度は再現できなかったという点は見逃すことが出来ない。

犬飼佳吾ほか
「2019 年度 実施状況報告書 経済実験における研究知見の再現性と頑健性に関する検討」
https://kaken.nii.ac.jp/ja/report/KAKENHI-PROJECT-19K21701/19K217012019hokoku/

文中の(Camerer et al., 2016)とはこれのことでしょう。

「経済学における再現性に関するデータを提供するため、2011年から2014年の間にAmerican Economic ReviewとQuarterly Journal of Economicsに掲載された18件の研究を再現した。これらの複製はすべて事前に公開された分析計画に従っており、5%有意水準で元の効果量を検出する統計的検出力は90%以上である。11の複製(61%)について、元の研究と同じ方向に有意な効果を見出した。平均して、複製された効果量は元の研究の66%である。」(DEEPL翻訳)

「Evaluating replicability of laboratory experiments in economics」2016年
https://www.science.org/doi/10.1126/science.aaf0918

AERやQJEは一流誌ということですが、それでも4割程度は再現できなかったようです。しかも再現できた研究についても元々の研究ほどの効果はみられなかったと。(あと対象が18件というのは十分な数なのでしょうかね。追試はかなり大変とのことで、能力的な限界もあるとは思うものの心配です)

実験経済学はそうだとして、行動経済学はどうなんでしょう。『ファスト&スロー』にさえ信頼性の低い研究がけっこうな数引用されていることについては以前に書きましたが、分野全体としてみたときにどうなのかは不明です。

行動経済学は実験経済学と似たところのある学問ではありますが、心理学的要素がより濃い分、再現性という意味ではより危ない気はします。これはあくまで以下を読んでの印象論ですが。

――似たような学問では行動経済学という分野もありますが、実験経済学との明確な違いとはどのようなものでしょうか。
竹内氏:かなりオーバーラップする部分はあります。実験経済学も行動経済学も、決して理論先行型の学問ではなく、まずはデータから理論を構築するという視点は共通だと思います。ただし実験経済学はどちらかというと検証の手法なんです。人間らしい行動を知るための経済実験もたくさんある一方で、逆に、どういう条件が整えば経済学の教科書どおりの効率性が達成できるのかを分析する実験もあります。そこは行動経済学とはまったく大きく違っていますね。
 行動経済学はもっと人間の心理的要素を数学的に取り込もうとしている学問です。実験経済学とは異なる部分も多いです。

竹内先生に聞く「行動経済学と実験経済学から経済と投資を読み解くと」前編
2017年12月25日
「お金のキャンパス」Sponsored by みずほ証券
https://money-campus.net/archives/3843


学界として再現性については敏感になっているという指摘もありました。

ご存じのように、昨年、世界的な実験経済学の学会(ESA)で、再現実験を中心に載せるジャーナルが新しく創刊されていて、再現性についてはみんな敏感になっています。

川越敏司 発言
「パネルディスカッション 「行動経済学の過去・現在・未来」」2016年
https://www.jstage.jst.go.jp/article/jbef/9/0/9_46/_pdf


以上の通り、神経科学や実験経済学(と行動経済学)も再現性については課題を抱えているようです。

「過去の研究が追試失敗!」と話題になること自体は、いたって健全なことだと思っています。むしろ問題に気づくのが早いほど、その学問の将来にとっては好ましいでしょう。

なお今の時代を生きる研究者の人生にとっては大変な厄介事だと思います。







この記事が気に入ったらサポートをしてみませんか?