「論文発表される多くの研究結果が再現できない現実」を考慮して論文情報を活用する

田中亮裕

2020年11月8日 15:16

薬剤師として、医師からどの薬を投与したら良いか尋ねられる場面はあるのではないでしょうか。

このような時、最適な薬剤は何か書籍や論文を検索して調べると思います。

例えば、ある病気にかかっている2000名の患者さんのうち、1000名の患者さんにAという薬を、残り1000名の患者さんにBという薬を投与した結果、Aという薬を投与したほうが病気が治りましたという研究結果が報告されていたと仮定します。

薬剤師としては、この研究結果をもとに目の前の患者さんもAという薬を医師に勧めると病気がよくなるはずと考えると思います。

この薬剤師としての行動は、研究論文の結果に「再現性がある」という前提から生まれるものです。

論文発表される多くの研究結果が再現できない事実

医学生物学論文の研究結果について、その50％以上が再現できないという衝撃的な内容が報告されています。
（JPA Ioannidis, PLoS Medicine 2 e124, 2005）

この論文では、「研究サイズが小さいほど」、「期待される効果が小さいほど」研究結果が真ではなく再現できない可能性が高くなると主張しています。

一方、無作為化比較試験（数千人の被験者が無作為化されている）やメタアナリシスの論文では、研究結果が真である可能性が約85％程度と高くなると述べられています。

期待される効果が小さいとはどのような意味なのでしょうか？

喫煙ががんや心血管疾患に与える影響（相対リスク3～20）のように影響が大きい因子を検討した研究論文では、遺伝的危険因子（相対リスク1.1～1.5）のように影響が小さい因子を検討した研究論文よりも、研究結果が真実である可能性が高いということです。

すなわち、相対リスクが1.5未満の因子を検討した研究論文は偽陽性である可能性が高いということです。
（JPA Ioannidis, PLoS Medicine 2 e124, 2005）

また、2011年の製薬会社バイエル社の内部調査では、社内で進められていた67のプロジェクトのほぼ3分の2で、前臨床研究論文の結果が再現できなかったと報告されています。

2012年には製薬会社アムジェン社の科学者が、がん研究分野の53本の重要論文で示された研究結果の89%は再現できなかったと報告しています。

さらに2013年には、MDアンダーソンがんセンターが行ったアンケート調査が行われました。

その結果回答者の過半数が発表論文のデータを再現しようとして失敗した経験が1回以上あると答えた研究論文が報告されています。

研究結果を再現できない重要な研究論文が、コンスタントに発表されているのが事実なのです。
（Nature. 2013 ;500:14-6. )

先に述べたAとBの薬の研究結果の例でいうと、別の2000名の患者で再度検証したら、AとBの薬の効果には差がなかったというような結果が起こりうるということです。

研究結果が再現できない事実がなぜ起こるのか？

医学生物学の研究は、同じ研究者が同じ材料・同じ方法を使っても以前の結果が再現できないことがありえます。

同じ条件と思っても、研究を行う季節、時間、温度・湿度、微妙な取扱いの違いが影響を与えてしまい、再現できないこともあるかもしれません。

今日の科学では察知できない影響がある、ということもあるかもしれません。

ヒトを対象とした研究では、結果からもたらされる結論を表現するにあたって、生物にある個体間バラツキに由来する不確実さの程度を、「P 値」あるいは「信頼区間」といった数字として表しています。

例えば、研究結果の平均値も単なる平均値を示すのではなく、別の母集団で検討しても95％の確率でその平均値が入る範囲を示した「95％信頼区間」を同時に示します。

しかし、研究者が自分が考えている研究結果を得るために、「P 値」あるいは「信頼区間」といった数字がよく見える都合の良い統計解析方法を選んでしまう可能性があります。

また、統計上有意な P 値が出たものの中でも都合の良い因子だけを発表する可能性があります。

これは、研究結果が研究者自身の評価に大きな影響を及ぼすので、自分に都合の良い結果を発表したいという心理や、都合の悪い結果を発表したくないという心理が起こってしまうこともあります。
（Nature. 2013 ;500:14-6. )

このような心理的バイアスがある場合に、統計学的有意差を検定する手法、すなわち、p値が0.05以下をもって有意差があるとする手法は問題視されている。

本質的には、予想がうまく行かない理由であるヒューマン・エラーに背を向けたものだ。そこでは不確実性を、世界を理解する人間の能力に付随するものではなく、実験に付随するものとしてとらえている。

（中略）

頻度主義（統計学的有意差検定）は理論的でも実践的でも客観的であるとは言えない。それどころか、数多くの前提に頼っている。

（中略）

研究者のバイアスが入らない完璧な統計手続きを追求する頻度主義のさらなる問題は、その研究者が現実の世界から完全に切り離されてしまうことだ。このアプローチに従う研究者は、内在する文脈や自分の仮説の妥当性をあまり検討しなくなる。

シグナル＆ノイズより抜粋

実際に有意差検定よりも推定をという流れであり、ニューイングランド医学誌においても「protocolに多重性調整の方法が書いていなければ、p値ではなく95%信頼区間を記述すべし」と投稿規定に書かれています。

（薬理と治療 47 1125-1128, 2019)

この仮説は正しいか否かという2択を明らかにするのではなく、この事象はどの程度の確率で起こるのかという確率論的な視点で判断してみるのもいいのかもしれません。

また、このような研究者の心理に関して、専門家が自身の意見を述べている場合、参考になる判断基準について紹介します。

専門家を「ハリネズミ型」思考の人と、「キツネ型」思考の人に分類したときのそれぞれの予測する能力について検討した話です。

キツネがたくさんのことを知っているのに対し、ハリネズミはたった1つ重要なことを知っている。

（中略）

私はどちらかに味方するつもりはないが、この比喩は私の研究データの本質をとらえているようで気に入った。私は特定の思想信条に固執する専門家を「ハリネズミ」、より折衷的な専門家を「キツネ」と名付けた。

（中略）

ふつうの人は不確実性を好まない。

「かもしれない」という表現は、まぎれもなく不確実性の表れだ。

ハリネズミの単純明快さと自信は先を読む力に悪影響を及ぼすが、聞き手に安心感を与えるので、彼らのキャリアにはプラスに働く。

キツネ型はメディアではそれほど成功しない。

ハリネズミ型ほど自信はなく、何かが「確実」あるいは「不可能」と言うことを避け、「かもしれない」といったぼんやりとした表現を選ぶ傾向がある。

このようにさまざまな視点を組み合わせるのは、テレビ向きではない。

「超予測力」より引用

すなわち、ハリネズミ型思考というのは一つのことを強く信じて、一つの結論を補うために情報を集め、結論を出す思考の傾向のある人という意味です。

また、キツネ型思考というのは疑い深く、見極めるために複数の情報源にあたり一つの結論を言い切らず、断定的なことを言わない傾向のある人のことです。

テレビなどのメディアでは、自信たっぷりに劇的な変化が起こるという予測を言うと注目を浴びる傾向にあります。

テレビに限らずツイッターやブログなどを見ていても、断定的に何かを語る人というのは、その内容の正確性に比例せずフォロワーの数も多い傾向があります。

つまり、ハリネズミ型の思考で大胆な予測をすれば注目を浴びやすいということです。

しかし、「ハリネズミ型思考」の人と「キツネ型思考」の人に分類したときに、それぞれの予測する能力について「キツネ型」思考の人のほうが予測する能力に秀でているという事実が明らかになったのです。

一方、ハリネズミの予想はランダムに選んだ結果より悪かった。キツネの予測能力のほうが高いことが証明されたのである。

シグナル＆ノイズより引用

つまり、キツネ型思考の人は多くの問題は予測困難であり、「わからないことがある」ことをよく知っていて、一つの結論を断言するのではなく、より良い未来へと導いてくれる可能性が高いのです。

したがって、研究者などの専門家が未来に関して自身の意見を述べている場合、一つの結論について断言していないか、様々な可能性に言及しているのかなどについて注意深く観察してみるといいかもしれません。

研究結果が再現できない事実を知った上で現場の薬剤師が心がけること

では、論文発表される多くの研究結果が再現できない事実を、現場の薬剤師はどう行動すればよいのでしょうか。

ただでさえ業務に追われて忙しいのに、再現性がないのであれば論文なんて見る必要はないと思われるかもしれません。

しかし、研究結果がどの程度信頼できるのかを判断することにより、目の前の患者さんに活用することが出来るようになります。

数千人の被験者が対象である無作為化比較試験やメタアナリシスのような論文だと信頼性は高まり、再現できる可能性は高まります。

しかし、そのような研究論文が発表されているものはごくわずかです。

多くの場合、対象者の少ない、あるいはランダム試験ではないなどの研究論文です。

このような研究論文でも、何も情報が無いよりは参考にしてみる価値はあると思います。

どのような研究結果を活用する場合でも、患者さんに再現できない可能性があるという認識で対応する姿勢が大切です。

例えば、前述したある病気にかかっている2000名の患者さんにAとBの薬を投与した結果、Aという薬を投与したほうが病気が治りましたという研究結果を当てはまる場合を考えてみましょう。

ある病気を高血圧とした場合、2000名を対象とした研究であり、信頼性もそれなりに高そうです。

医師から高血圧の薬について相談され、「A」を薦めました。

その後、血圧が低下しているのか次回受診日に確認するという行為が大切です。

信頼性がある研究結果ですが、研究結果通りにいかない可能性があるという前提で行動するのです。

信頼性がそれほど高くない研究結果を活用する場合も、期待通りの効果が出ているのか、出ていない場合、他の推奨できる薬はあるのかを考えておくと良いのではないかと思います。

ただし、前述の報告にもあるように期待される効果、あるいは比較対象の効果の差が小さい場合はあまり参考にはならないかもしれません。

薬剤師が研究論文の結果を活用して目の前の患者さんに活用しようとする姿勢は、とても素晴らしいことだと思います。

その研究論文の中身を吟味し、その論文はノイズではないかを考慮したうえで活用した場合には必ず薬剤師自身の目で確かめてみる姿勢を忘れないようにしたいと私は思っています。

日常の薬剤師業務体験や生活体験をもとに記事を書いています。よろしければサポート頂けたら嬉しいです。