見出し画像

統計的有意差がでない時のDiscussion

先月、PLOS BIOLOGYで、Analysis of 567,758 randomized controlled trials published over 30 years reveals trends in phrases used to discuss results that do not reach statistical significance
という論文がでており、興味深かったので紹介したいと思います。

近年、アメリカ統計協会の声明が出され、P値に依存した統計的有意性が議論されています。
また、P値が0.05(医学系では多くがこの値が慣習的に使用されている)に満たない結果が公表されない出版バイアスも問題になっています(今回紹介する論文のIntroによると生物医学系論文の96%はP≦0.05だったらしいです)。特に、システマティックレビューやメタアナリシスを行う際、このバイアスが介入効果を肯定的な方向に歪めるリスクも指摘されています。
一方で、P値が0.05をわずかに上回った場合、過度に結果を強調したり、主要アウトカムから副次的アウトカムへ強調点を切り替え、読者に有益なものである印象を与えるといった問題もあるようです。

そこで、今回の論文を紹介し、統計的な有意差がなかった場合にどのようなフレーズが使われているかを紹介したいと思います。
今回の論文ではRCTのみを含んでいます。

1位:marginally significant (7,735 RCTs)
2位:all but significant (7,015 RCTs)
3位:a nonsignificant trend (3,442 RCTs)
4位:failed to reach statistical significance  (2,578 RCTs)
5位:a strong trend (1,700 RCTs)

どうでしょう、中々うまく表現するなと思う反面、やはり有効性を過度に強調しているような印象を与えかねない表現でもあるように思いました。

紹介論文の中では、このようなフレーズは一般的であり、読者に介入の有効性を誤解させかねない表現と指摘されています。
また、このような表現や問題に対して、P値を0.05から0.005に下げることが提案されていること、「統計的有意性」の表現を放棄し、ケースバイケースで臨床的関連性を判断できるようにすべきなど議論されているようです。

紹介論文の著者らは、形式的な統計的有意性にこだわることは、結果の解釈の妨げとなることや、P-hacking、出版バイアスのリスクが高まるため、帰無仮説検定から脱却し、研究者の独創性を活かし、統計的差異をその効果量と臨床的利点で判断することを推奨しているとのことです。

いかがだったでしょうか。
P値が、0.05と0.049の違いは何なのか、この違いにこだわることにどのような意味があるのか考える必要がありそうです。
この論文を読んで、あらためてP値とはなんなのかを勉強し直したいと思いました。

                            文責:的場

この記事が気に入ったらサポートをしてみませんか?