統計検定、P値、信頼区間、検出力:誤った解釈の手引き


ヨーロッパ疫学ジャーナル
Eur J Epidemiol. 2016; 31: 337-350.
2016年5月21日オンライン公開。doi: 10.1007/s10654-016-0149-3
PMCID: PMC4877414
PMID: 27209009
統計検定、P値、信頼区間、検出力:誤った解釈の手引き

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4877414/

Sander Greenland, Stephen J. Senn, Kenneth J. Rothman, John B. Carlin, Charles Poole, Steven N. Goodman, and Douglas G. Altman
著者情報 記事の注釈 著作権とライセンス情報 免責事項
このページのトップへ
要旨
統計的検定、信頼区間、検出力の誤った解釈や乱用は、何十年も前から指摘されてきたが、依然として横行している。重要な問題は、これらの概念について、単純で、直感的で、正しくて、間違いのない解釈が存在しないことである。その代わりに、これらの統計の正しい使用と解釈には、現役の科学者の忍耐力を奪うような細部への配慮が必要です。このような高い認知的要求により、短絡的な定義や解釈が蔓延し、時には悲惨なまでに間違っているにもかかわらず、これらの間違った解釈が科学文献の多くを占めている。このような問題意識から、本書では、従来の入門書よりも一般的で批判的な基本統計学の定義と考察を提供します。私たちの目標は、統計理論や技法に関する知識が乏しいが、誤った解釈を避けたい、見抜きたいと考えている指導者、研究者、統計の消費者にリソースを提供することである。私たちは、しばしば明文化されていない解析プロトコルに違反すること(例えば、生成されるP値に基づいて解析結果を発表するために選択すること)が、宣言された検定仮説が正しくてもP値が小さくなり、その仮説が正しくなくてもP値が大きくなる可能性があることを強調します。次に、P値、信頼区間、検出力に関する25の誤った解釈の解説リストを提供します。最後に、統計的解釈と報告を改善するためのガイドラインを示す。
キーワード 信頼区間、仮説検定、ヌル検定、P値、検出力、有意性検定、統計的検定
このページのトップへ
はじめに
統計的検定の誤った解釈や乱用は何十年も前から指摘されてきたが、いまだに横行しているため、一部の科学雑誌では「統計的有意性」の使用(P値に基づいて結果を「有意」かどうか分類すること)を推奨していない [1] 。ある学術誌では、統計的検定や信頼区間のような数学的に関連する手続きをすべて禁止しており[2]、このような禁止のメリットについてかなりの議論と討論が行われている[3, 4]。
このような禁止令が出されているにもかかわらず、私たちは、問題となっている統計的手法が今後何年にもわたって私たちと共にあることを期待しています。したがって、これらの手法の基礎的な教育や一般的な理解を向上させることが必要不可欠であると考える。そのために、有意差検定、信頼区間、検出力の意味を、従来よりも一般的かつ批判的に説明し、25のよくある誤解を説明した上で、見直すことを試みる。また、より微妙ではあるが、広く浸透しているいくつかの問題についても説明し、個々の結果に注目するのではなく、科学的な疑問に関連するすべての結果を検討し、統合することが重要である理由を説明する。さらに、統計的検定が、関連や効果に関する推論や判断の唯一の材料となるべきでない理由についても説明します。その理由は、ほとんどの科学的な場面で、結果を「有意」と「非有意」に任意に分類することは、データの有効な解釈にとって不要であり、しばしば有害であること、効果の大きさと推定値を取り巻く不確実性を推定することは、科学的推論と健全な判断にとって、その分類よりもはるかに重要であることである。
一般的な問題については、統計的手法とその解釈に関する多くの記事、章、書籍でより詳細に説明されている[5-20]。特定の問題については、これらの情報源や、帰無仮説検定や「統計的有意性」の一般的な誤解を批判する多くの査読付き論文 [1, 12, 21-74] で詳しく述べられています。
こちらへ
統計的検定、P値、信頼区間:苛烈な入門書
統計モデル、仮説、検定
統計的推論のあらゆる方法は、データがどのように収集され、分析されたか、そして分析結果がどのように発表のために選択されたかについての複雑な仮定の網に依存しています。この仮定は、その方法を支える統計モデルとして具現化されます。このモデルはデータのばらつきを数学的に表現したもので、理想的にはばらつきの原因をすべて正確にとらえることができる。しかし、この統計モデルには非現実的な、あるいはせいぜい不当な仮定が含まれていることが多いため、多くの問題が発生します。これはいわゆる「ノンパラメトリック」な手法でも同様で、(他の手法と同様)ランダムサンプリングやランダム化の仮定に依存しています。これらの仮定は、数学的に書き表すとごまかしのきかないほど単純であることが多いが、実際には、長い一連の行動(被験者の特定、連絡、同意の取得、協力の獲得、フォローアップ、さらに治療割り付け、マスキング、データ解析に関する試験プロトコルの順守など)がうまく完了するかどうかに依存するため、満たしたり検証することが困難である。
また、観察されたデータを適切に表現するだけでなく、観察されたかもしれない仮想的な代替データも表現できるようにしなければならないという点で、モデルの範囲を定義するという重大な問題がある。例えば、複数の結果指標や複数の予測因子が測定され、データ収集後に解析の選択に関する多くの決定がなされた場合など、「観察されたかもしれない」データの参照枠が不明確であることが多い(必ずそうである) [33]。
基礎となる仮定を理解し評価することの難しさは、統計モデルが通常、非常に圧縮された抽象的な形で提示される(提示されるとしても)という事実によって、さらに悪化する。その結果、多くの仮定は注目されず、統計の消費者だけでなく利用者にも認識されないことが多い。つまり、モデルがデータセット間で見られると予想される変動を適切に表現し、研究を取り巻く状況やその中で起こる現象を忠実に反映しているという仮定である。
統計的検定のほとんどの用途において、モデルの1つの仮定は、特定の効果が特定の大きさを持ち、統計的分析の対象になっているという仮説である。(簡単のため、「効果」という言葉を使いますが、ほとんどの調査のような非因果的な研究を許容するためには、「関連または効果」の方が間違いなくよいでしょう)。この対象となる仮定は研究仮説または試験仮説と呼ばれ、それを評価するための統計的手法は統計的仮説検定と呼ばれます。多くの場合、目標とする効果量は、効果がゼロであることを表す「帰無」値であり(例えば、研究の治療が平均的な結果に違いをもたらさないということ)、この場合、検定仮説は帰無仮説と呼ばれます。しかし、それ以外の効果量を検証することも可能である。また、効果が特定の範囲に入るか入らないかという仮説を検証することもあります。例えば、効果が特定の量より大きくないという仮説を検証することがあり、この場合、仮説は片側仮説または分割仮説と呼ばれます [7, 8] 。
多くの統計教育と実践は、研究の主な目的は帰無仮説を検証することであるという考えに強く(そして不健全に)焦点を当てて発展してきました。実際、統計的検定に関するほとんどの記述は、帰無仮説の検定にのみ焦点を当てており、このトピック全体は「帰無仮説の有意性検定」(NHST)と呼ばれています。このように帰無仮説にのみ焦点を当てることは、検定に対する誤解を助長する。さらに誤解を深めているのは、R.A.Fisherを含む多くの著者が、「帰無仮説」をあらゆる検定仮説を指すのに使っていることです。この使い方は、他の著者や通常の英語の「帰無」の定義と矛盾しており、「有意性」や「確信度」の統計的な使い方も同じようなものです。
不確実性、確率、統計的有意性
統計解析のより洗練された目標は、効果の大きさに関する確実性または不確実性の評価を提供することである。このような確からしさを仮説の「確率」で表現するのは自然なことである。しかし、従来の統計手法では、「確率」は仮説ではなく、想定される統計モデルの下でのデータパターンの仮想的な頻度である量を指す。そのため、これらの手法は頻度論的手法と呼ばれ、彼らが予測する仮説的な頻度は "頻度確率 "と呼ばれる。しかし、統計的教育を受けた科学者の多くは、この頻度確率を仮説確率と誤解する癖がある。(さらに紛らわしいことに、「パラメータ値の尤度」という用語は、統計学者によって、パラメータ値が与えられたときに観測されるデータの確率を指すために予約されており、パラメータが与えられた値をとる確率を指すものではない)。
このような問題が多発するのは、P値という仮想的な度数、別名、検定仮説の「観測有意水準」の適用においてである。この概念に基づく統計的な「有意性検定」は、何世紀にもわたって統計解析の中心的な部分を占めてきた[75]。従来のP値と統計的有意性の定義では、帰無仮説に焦点が当てられ、P値を計算するために使用される他のすべての仮定が正しいことが知られているかのように扱われてきた。このような他の仮定は、不当でないにしても疑わしいことが多いことを認識し、P値について、統計モデル全体(P値を計算するために使用されるすべての仮定)が正しいとわかっている場合に、観測されたデータと予測または期待されるものとの間の適合性を統計的に要約したものという、より一般的な見方を採用することにします。
具体的には、データとモデル予測との間の距離を検定統計量(t統計量やカイ二乗統計量など)を用いて測定する。そして、P値は、試験仮説を含むすべてのモデルの仮定が正しかった場合に、選択した試験統計量が観察値と同じ大きさになっていた確率を表します。この定義は、従来の定義で失われていた重要な点を体現しています: 論理的に言えば、P値は、検証すべき対象仮説(帰無仮説など)だけでなく、データの生成方法に関するすべての仮定(モデル全体)を検証します。さらに、これらの仮定は、従来、モデル化や確率の仮定として提示されてきたものだけでなく、例えば、どの分析を提示するかを決定するために中間的な分析結果を使用しないといった分析の実施に関する仮定も含まれています。
P値が小さいほど、すべての仮定が正しければ、より異常なデータであることは確かだが、P値が非常に小さくても、どの仮定が正しくないかは分からない。例えば、P値が非常に小さいのは、狙った仮説が偽だからかもしれませんが、そうではなく(あるいはそれに加えて)、研究プロトコルに違反したため、あるいはサイズが小さいことを理由に発表の対象として選ばれたためかもしれません。逆に、P値が大きいということは、そのモデルのもとではデータが異常でないことを示すだけで、そのモデルやその側面(標的仮説など)が正しいことを意味するものではない。その代わりに(あるいはさらに)大きいのは、(やはり)研究プロトコルに違反していた、あるいはその大きさに基づいて発表用に選択されたからかもしれない。
P値の一般的な定義は、なぜ統計的検定が多くの人が考えているよりもずっと少ないことしか教えてくれないのかを理解するのに役立つかもしれません: P値は、検証の対象となった仮説が正しいかどうかを教えてくれないだけでなく、P値の計算に使われた他のすべての仮定が正しいと完全に保証されない限り、その仮説に関連することは何も教えてくれません(この保証は、あまりにも多くの研究で欠けています)。
しかし、P値はデータとそれを計算するために使われたモデル全体との間の適合性を表す連続的な尺度として見ることができ、完全に適合しない0から完全に適合する1まであり、この意味でモデルのデータへの適合性を測るものとみなすことができる。しかし、P値がカットオフ値(通常は0.05)以下になると「統計的に有意」とされ、それ以外は「有意でない」とされるという二項対立に陥っていることが多い。有意水準」と「アルファ水準」(α)という用語は、しばしばカットオフを指すのに使われるが、「有意水準」という用語は、カットオフをP値そのものと混同させるものである。カットオフ値αはあらかじめ決まっているはずのもので、データに照らし合わせても変化しない研究デザインの一部であり、両者の違いは深い。これに対して、P値はデータから計算される数値であり、計算されるまでわからない解析結果である。
検定から推定への移行
他の仮定はそのままに、検定仮説を変化させて、競合する検定仮説の間でP値がどのように異なるかを確認することができます。通常、これらの検定仮説は、対象となる効果について異なるサイズを指定します。例えば、2つの処理グループの平均差がゼロであるという仮説(帰無仮説)を検定したり、20や-10など、関心のあるサイズについて検定したりします。検定でP = 1となった効果量は、検定で使用した他の仮定(統計モデル)がすべて正しい場合に、データに最も適合する(実際に観察されたものを予測するという意味で)サイズであり、これらの仮定における効果の点推定値を提供する。検定でP > 0.05となった効果量は、一般的に、その範囲外のサイズよりもデータとの適合性が高いと考えられる(観測値がモデルの予測値に近いという意味で)サイズの範囲(例えば、11.0から19.5まで)を定義します(繰り返しますが、統計モデルが正しい場合です)。この範囲は、1 - 0.05 = 0.95 または 95 % 信頼区間に相当し、多くの効果量に対する仮説検定の結果を要約する便利な方法を提供します。信頼区間は区間推定値の例である。
Neyman[76]が信頼区間をこのように構成することを提案したのは、信頼区間には次のような性質があるためである: 有効なアプリケーションで、例えば95 %の信頼区間を繰り返し計算すると、平均してその95 %が真の効果量を含む(すなわち、含むまたは覆う)ことになる。したがって、指定された信頼水準は、被覆確率と呼ばれる。Neymanが繰り返し強調したように、この被覆確率は、単一の信頼区間の特性ではなく、有効なモデルから計算された信頼区間の長いシーケンスの特性である。
現在、多くの雑誌が信頼区間を要求していますが、ほとんどの教科書や研究では、効果がないという帰無仮説についてのみP値を論じています。このように検定において帰無仮説にのみ焦点を当てることは、検定の誤解や推定の過小評価を招くだけでなく、P値と信頼区間の密接な関係や、両者に共通する弱点も見えにくくしています。
こちらへ
P値、信頼区間、検出力計算が教えてくれないこと
多くの歪みは、P値やその親戚(信頼区間など)が教えてくれないことを基本的に誤解していることから生じています。そこで、参考文献リストにある論文に基づき、防御的な解釈と発表に向かう方法として、一般的なP値の誤った解釈をレビューします。Goodman[40]の形式を採用し、研究報告やレビューが提供する結論を批判的に評価するために使用できる誤った解釈のリストを提供します。このリストにある太字の記述はすべて、科学文献の統計的歪曲に寄与しており、誤った解釈であるばかりでなく、「実用上十分な真実ではない」記述を強調するために「No!」と付け加えています。
単一のP値に関するよくある誤った解釈
例えば、帰無仮説の検定でP = 0.01となった場合、帰無仮説が真である確率は1 %であり、代わりにP = 0.40となった場合、帰無仮説が真である確率は40 %となります。いいえ!P値は検定仮説が真であると仮定したもので、仮説の確率ではなく、検定仮説の妥当な確率とはかけ離れている可能性があります。P値は、データが、検定仮説と検定で使われた他のすべての仮定(基礎となる統計モデル)によって予測されたパターンに適合する度合いを示すだけです。したがって、P = 0.01は、データが統計モデル(検定仮説を含む)の予測にあまり近くないことを示し、P = 0.40は、データがモデルの予測にかなり近いことを示し、偶然の変動を許容することを示します。
帰無仮説のP値は、観察された関連性が偶然だけで生じた確率です。例えば、帰無仮説のP値が0.08の場合、偶然だけで関連性が生じた確率は8%です。いいえ!これは、最初の誤りのよくあるバリエーションで、同じように間違っています。偶然だけが観察された関連を生み出したと言うことは、帰無仮説を含め、P値を計算するために使われたすべての仮定が正しいと主張することと論理的に同じです。したがって、ヌルP値が、偶然が観察された関連を生み出した確率であると主張することは、完全に逆である: P値は、偶然が単独で作用したと仮定して計算された確率なのです。P値は、偶然が単独で作用していると仮定して計算された確率です。一般的な逆解釈の不合理さは、一連の仮定(統計モデル)から推測される確率であるP値が、どうしてその仮定の確率を指すのか、考えてみればわかるでしょう。
注:この説明から「単独」が削除され、「帰無仮説のP値は、偶然が観察された関連を生み出した確率である」となっているのをよく見かけますが、これはよりあいまいな表現ですが、同じように間違っています。
有意な検定結果(P≦0.05)は、検定仮説が誤りである、あるいは棄却されるべきことを意味する。いいえ!P値が小さいのは、その値を計算するために使われたすべての仮定(検定仮説を含む)が正しい場合に、データが異常であることを示すだけです。大きなランダムエラーがあったため、あるいは検定仮説以外の仮定(たとえば、このP値は0.05以下なので発表には選ばれなかったという仮定)が破られたために小さいのでしょう。P≦0.05は、仮説の予測(例えば、治療群間に差がない)との不一致が、偶然に不一致が生じた場合(試験仮説の違反や間違った仮定とは異なる)、5%以上の確率で観察されるのと同じかそれよりも大きくなることを意味するのみです。
有意でない検定結果(P > 0.05)は、検定仮説が真であること、または受け入れるべきであることを意味します。いいえ!P値が大きいということは、P値を計算するために使われたすべての仮定(テスト仮説を含む)が正しければ、そのデータが異常ではないことを示唆しているだけです。同じデータでも、他の多くの仮説の下では異常ではないでしょう。さらに、たとえ検定仮説が間違っていたとしても、P値が大きいのは、大きな確率誤差によって膨らんだか、他の誤った仮定(例えば、このP値は0.05以上なので発表に選ばれなかったという仮定)のためかもしれない。P > 0.05は、仮説の予測(例えば、治療群間に差がない)との不一致が、偶然に生じた場合、5%以上の確率で観察されるのと同じかそれ以上であることを意味します。
大きなP値は、検定仮説を支持する証拠となります。いいえ!実際、P値が1より小さいと、テスト仮説がデータに最も適合する仮説ではないことを意味します。なぜなら、P値がより大きい他の仮説は、データとの適合性がさらに高くなるためです。P値が小さい仮説との関係以外では、P値が試験仮説に有利であるとは言えません。さらに、P値が大きいということは、データが多くの競合する仮説の間で識別できないことを示すだけであることが多い(信頼区間の範囲を調べればすぐにわかることであろう)。例えば、帰無仮説の検定でP=0.70を得た場合、多くの著者は効果がないことの証拠と誤解しますが、実際には、帰無仮説がP値を計算するのに用いた仮定のもとでデータに適合していても、データに最も適合する仮説ではないこと、つまりP=1の仮説にその名誉が属することを示します。しかし、たとえP=1であっても、データとの整合性が高い仮説は他にもたくさんあるので、どんなに大きなP値でも「関連なし」という決定的な結論は導き出せない。
無仮説P値が0.05より大きいということは、「効果が観察されなかった」「効果がないことが示された」「実証された」ということです。ないことを意味する!帰無仮説のP > 0.05は、帰無仮説がP > 0.05を持つ多くの仮説のうちの1つであることを意味するだけです。したがって、点推定値(観察された関連性)が帰無値と正確に一致しない限り、P > 0.05から、ある研究が「関連なし」または効果の「証拠なし」と結論づけるのは間違いである。ヌルP値が1より小さい場合、データには何らかの関連が存在するはずで、仮定したモデルのもとでデータに最も適合する効果量を決定するために点推定値を見なければならない。
統計的有意性は、科学的または実質的に重要な関係が検出されたことを示します。ない!特に研究が大規模な場合、非常に小さな効果や小さな仮定違反が、帰無仮説の統計的に有意な検定につながることがあります。この場合も、帰無仮説のP値が小さければ、帰無仮説を含むすべての仮定が正しければ、データが異常であることを示すだけで、そのデータが異常であることは臨床上何の興味もないことかもしれません。信頼区間を見て、科学的あるいはその他の実質的(例えば臨床的)な重要性を持つ効果量が、モデルから見てどのデータと比較的適合しているかを判断しなければなりません。
統計的有意性の欠如は、効果量が小さいことを示します。ない!特に研究が小規模な場合、大きな効果も「ノイズに紛れて」しまい、統計的検定で統計的に有意であると検出されないことがあります。しかし、同じデータでも、帰無仮説以外の多くのモデルや仮説のもとでは、帰無仮説と同じように帰無仮説と同じように帰無仮説になる。ここでも信頼区間を見て、重要な効果量が含まれているかどうかを判断する必要がある。
例えば、P = 0.05は、観察された関連性が、テスト仮説のもとでは5%の確率で起こることを意味します。いいえ!P値は、我々が観察したものだけでなく、我々が観察したものよりも極端な観察(ここで「極端さ」は特定の方法で測定される)も参照します。そしてまた、P値は、それを計算するために使われたすべての仮定が正しい場合のデータの頻度を指します。この仮定には、検定仮説のほかに、サンプリング、治療割り付け、損失、欠落のランダム性、さらにP値の大きさや結果の他の側面に基づいて提示するために選択されなかったという仮定が含まれます。
P≦0.05で検定仮説を棄却した場合、誤りの確率(「有意な所見」が偽陽性である確率)は5%です。いいえ、そうではありません!この説明がなぜ間違っているかというと、仮に検定仮説が実際に真であったとします。そして、その仮説を否定した場合、間違う確率は5%ではなく100%になります。この5%というのは、試験仮説と試験に使われた他のすべての仮定が真である場合に、異なる研究間で非常に多くの試験を使用した場合に、どれくらいの頻度でそれを棄却し、したがって誤りであるかに言及しているだけです。これは、仮定違反やランダムなエラーによって狂わされる可能性のある、あなたの1回の検定の使用には言及しません。これは、誤解1.の別のバージョンです。
P = 0.05とP ≤ 0.05は同じ意味だ。いいえ!身長=2m」と「身長≦2m」は同じ意味です。「身長=2m」の場合は、背の高い人はほとんど含まれず、「身長≦2m」の場合は、小さな子供も含めてほとんどの人が含まれます。同様に、P = 0.05は統計的有意性の点で境界線上の結果とみなされますが、P ≤ 0.05は境界線上の結果とモデルとは非常に相容れない結果(例えばP = 0.0001)を一緒にしてしまい、その意味が曖昧になってしまい、何の意味もありません。
P値は不等号として正しく報告される(例えば、P = 0.015の場合は「P < 0.02」、P = 0.06またはP = 0.70の場合は「P > 0.05」と報告されます)。いいえ!これは、読者が統計結果を正確に解釈することを困難または不可能にするため、悪い習慣です。P値が非常に小さい場合(例えば、0.001以下)にのみ、不等式が正当化されるのです: P値を計算するための仮定が、その精度を正当化するのに十分な確実性を持って知られておらず、P値を計算するためのほとんどの方法が、ある点以下では数値的に正確でない場合、非常に小さなP値の間で実用上の差はほとんどありません。
統計的有意性は、研究されている現象の特性であり、したがって、統計的検定は有意性を検出する。いいえ!このような誤解は、研究者が統計的に有意な効果の「証拠」を発見した、あるいは発見していないと述べるときに助長されます。テストされる効果は、存在するかしないかのどちらかです。「統計的有意性」は、P値(選択したカットオフ値以下であること)の二項対立の記述であり、したがって統計的検定の結果の特性であり、研究されている効果や集団の特性ではありません。
常に両側P値を使用する必要があります。いいえ!両側P値は、対象となる効果測定が特定の値(例えば、ゼロ)に等しく、この値より上でも下でもないという仮説を検定するために設計されています。しかし、科学的または実用的な関心のある検定仮説が片側(分割)仮説である場合、片側P値が適切です。例えば、ある新薬が生存期間を延ばすのに標準薬と同等以上の効果があるかどうかという実用的な問題を考えてみましょう。この問題は片側なので、この仮説の検定には片側のP値が必要です。しかし、通常、両側P値がデフォルトであるため、片側P値が代わりに使われるときとその理由に注意することが重要であろう。
P値の解釈は他にもあり、「No!」と断言できるかどうかは、統計学の哲学や関係する用語に与えられた正確な意味によって異なるという点で、議論の余地がある。このような論争を避けたいのであれば、論争となっている主張は評価に値する。
例えば、ベイズ分析において証拠指標として中心的な役割を果たすある量(尤度比とベイズ係数)に対してP値を直接比較することに基づいて、P値は検定仮説に対する証拠を誇張していると主張されてきた[37, 72, 77-83]. しかし、他の多くの統計学者は、これらの量をゴールドスタンダードとして認めず、代わりに、P値は、統計的検定に基づく決定の誤り率を測定するために必要な重要な証拠を要約していると指摘している(これらの決定を行うには十分とはいえないが)。したがって、この frequentist の観点からは、P値は証拠を誇張するものではなく、証拠の一面を測定していると考えることもできる [7, 8, 84-87] 。Murtaugh [88]とその付随する議論も参照。
P値の比較と予測に関するよくある誤った解釈
統計的検定によって生じる科学文献の最も深刻な歪みのいくつかは、異なる研究または研究サブグループからの結果の誤った比較と統合を含んでいる。中でも最悪なのは
15.
同じ仮説を異なる研究で検証した結果、統計的に有意な結果が得られなかったり、少数であった場合(すべてP > 0.05)、全体として仮説を支持する証拠となる。いいえ!この信念は、ある文献では効果がないことを支持しているにもかかわらず、その逆を主張するためによく使われます。これは、「ほとんどの研究の検出力を過大評価する」研究者の傾向を反映しています[89]。現実には、すべての研究が統計的有意性に達しなかったとしても、組み合わせれば統計的に有意な関連性を示し、効果の説得力のある証拠となりうる。例えば、それぞれP=0.10の研究が5つあった場合、0.05の水準で有意なものはないが、これらのP値をフィッシャー式 [9] を用いて組み合わせると、全体のP値は0.01となる。統計的に有意な」関連性を報告した研究がほとんどない、あるいは全くない場合に、重要な効果を示す説得力のある証拠が得られた実例が数多くある [90, 91] 。したがって、個々の研究の統計的有意性の欠如は、エビデンスの全体が効果なしを支持することを意味するものとして受け取られるべきでない。
16.
16.同じ仮説を2つの異なる集団で検証し、その結果得られたP値が0.05の反対側にある場合、その結果は相反するものである。いいえ!統計的検定は、それぞれの集団における比較群の大きさなど、結果が一致するかどうかとは無関係な、研究集団間の多くの違いに敏感である。その結果、2つの研究が同じ検証仮説に対して全く異なるP値を出しても、完全に一致する(例えば、観察された関連性が同じである)ことがあります。例えば、ある治療法に関する2つの無作為化試験A、Bがあり、試験Aでは治療群間の平均差の標準誤差が2であるのに対し、試験Bでは差の標準誤差が1であること以外は同じであったとする。両試験で治療群間の差がちょうど3であった場合、通常の正規検定では、AではP = 0.13、BではP = 0.003となる。P値の差にもかかわらず、試験間の効果に差がないという仮説の検定ではP = 1となり、試験で観察した平均差は完全に一致すると考えられる。結果の違いは直接評価する必要があり、例えば、その違いを推定して検定し、信頼区間と結果を比較するP値を作成する(しばしば異質性、相互作用、または修正分析と呼ばれる)ことである。
17.
同じ仮説を2つの異なる集団で検証し、同じP値が得られた場合、その結果は一致する。ない!繰り返しになりますが、検定は、結果が一致するかどうかとは無関係な、集団間の多くの違いに敏感です。2つの異なる研究では、同じ仮説の検証で同じP値が得られても、観察された関連性が明らかに異なることもあります。例えば、無作為化実験Aでは治療群間の平均差が3.00で標準誤差1.00、Bでは平均差が12.00で標準誤差4.00と観察されたとする。しかし、研究間の効果に差がないという仮説の検定では、平均差の大きな差(12.00 - 3.00 = 9.00)を反映して、P = 0.03が得られる。
18.
18.小さなP値を観測した場合、次の研究でも同じ仮説に対して少なくとも同じように小さなP値が得られる可能性は高い。いいえ!これは、両研究が独立していて、試験仮説を含むすべての仮定が両研究で正しいという理想的な条件のもとでも誤りである。この場合、例えばP = 0.03を観測した場合、新しい研究がP ≤ 0.03を示す確率はわずか3 %です。したがって、新しい研究が同じかそれ以下のP値を示す確率(「再現確率」)は、まさに観測したP値です!一方、小さなP値が、真の効果が観察された推定値と正確に等しいという理由だけで生じた場合、同じデザインの繰り返し実験がより大きなP値を示す確率は50%である[37]。一般に、新しいP値の大きさは、研究規模や、新しい研究で検定仮説や他の仮定がどの程度破られているかに非常に敏感です[86]。特に、研究と違反が大きいか小さいかによって、P値は非常に小さくなったり大きくなったりします。
最後に、そうするのは(明らかに)間違っているのですが、帰無仮説と別の(代替)仮説を、帰無仮説は両側P値、代替仮説は片側P値で比較するのを見かけることがあります。この比較は、両側検定が帰無仮説を偽る頻度が、片側検定が代替仮説を偽る頻度の半分しかないという点で、帰無仮説に有利な偏りがある(これも、検定に使われるすべての仮定のもとで)。
信頼区間のよくある誤認識
上記の誤った解釈のほとんどは、信頼区間についても同様の誤った解釈をしています。例えば、P > 0.05のもう一つの誤解は、検定仮説が偽である確率が5%しかないことを意味し、信頼区間の観点からは、これが一般的な誤謬となる:
19.
ある研究が提示した95%の信頼区間は、真の効果量を含む可能性が95%である。いいえ!報告された信頼区間は、2つの数値の間の範囲である。観察された区間(例えば、0.72-2.88)が真の効果を含む頻度は、真の効果が区間内にある場合は100 %、ない場合は0 %のどちらかであり、95 %は、非常に多くの研究から計算した95 %信頼区間が、区間の計算に使用したすべての仮定が正しい場合、真のサイズを含む頻度を示しているだけです。しかし、このような計算には、信頼区間を計算するために使用した仮定だけでなく、モデルにおける効果の大きさについてのさらなる仮定が必要です。これらのさらなる仮定は事前分布と呼ばれるものに要約され、結果として得られる区間は通常、信頼区間と区別するためにベイズ事後(または信頼)区間と呼ばれる[18]。
対称的に、小さなP値を検定仮説の反証と誤認することは、次のように訳すことができる:
20.
95 %信頼区間の外側にある効果量は、データによって否定された(または除外された)。いいえ!P値と同様に、信頼区間は多くの仮定から計算され、その違反が結果を導いたと考えられます。したがって、区間外の効果量が何らかの形で観察結果と相容れないと宣言するために必要なのは、任意の95 %基準とともに、データと仮定の組み合わせなのです。それでも、効果量が反論された、あるいは除外されたと言うような極端な判断は、さらに強い条件を必要とします。
P値と同様に、信頼区間のナイーブな比較は、非常に誤解を招く可能性がある:
21.
2つの信頼区間が重なっている場合、2つの推定値や研究間の差は有意ではない。いいえ!2つのサブグループまたは研究からの95 %信頼区間がかなり重なっていても、それらの間の差の検定がP < 0.05を出すことがあります。例えば、分散がわかっている正常集団からの平均値に対する2つの95 %信頼区間が(1.04, 4.96) と (4.16, 19.84) だとします。これらの区間は重なっていますが、研究間の効果に差がないという仮説の検定はP = 0.03 を与えます。P値と同様に、群間の比較には、群間の差を直接検定し推定する統計が必要である。しかし、2つの95%信頼区間が重ならない場合、信頼区間を計算するために使用した同じ仮定を使用すると、差のP < 0.05となり、95%区間の一方に他のグループまたは研究からの点推定値が含まれている場合、差のP > 0.05となることに留意することができます。
最後に、P値と同様に、信頼区間の再現性の特性は通常誤解されている:
22.
観察された95 %信頼区間は、将来の研究からの推定値の95 %が観察された区間内に収まることを予測する。いいえ!この記述はいくつかの点で間違っている。最も重要なことは、このモデルでは、95 %は、他の未観測区間が真の効果を含む頻度であり、提示された1つの区間が将来の推定を含む頻度ではない。実際、理想的な条件下でも、将来の推定値が現在の区間に含まれる確率は、通常95 %よりずっと低くなる。例えば,同じ量の2つの独立した研究が,同じ標準誤差を持つ不偏の正規点推定を提供する場合,最初の研究の95 %信頼区間が2番目の研究の点推定を含む確率は83 %(これは2つの推定間の差が1.96標準誤差より小さい確率である)である.繰り返しますが、観測された区間は、真の効果を含むか含まないかのどちらかです。95 %は、区間を計算するために使われたすべての仮定が正しい場合、非常に多くの研究から計算された95 %信頼区間が真の効果を含むであろう頻度を示しているだけです。
23.
ある95 %信頼区間がヌル値を含み、別の95 %信頼区間がその値を含まない場合、ヌル値を含まない区間の方がより正確である。いいえ!モデルが正しい場合、統計的推定の精度は、信頼区間の幅(適切な尺度で測定)で直接測定されます。ヌルや他の値を含むか含まないかは問題ではありません。平均値の差に対する2つの95%信頼区間、1つは限界値が5と40、もう1つは限界値が-5と10であることを考える。最初の区間は、帰無値の0を除外しているが、幅は30単位である。一方、2番目の区間は、帰無値を含むが、その幅は半分であり、したがって、より正確である。
上記の誤った解釈に加え、95%信頼区間は、0.05レベルのカットオフを読者に強制し、P > 0.05のすべての効果量をひとまとめにし、この方法では、P値を二項対立として提示するのと同じくらい悪いことである。しかし、信頼区間が検定やP値よりも優れているのは、帰無仮説から、データに適合する効果量の全範囲に焦点を移すことができるからであり、多くの著者や増え続けるジャーナルが推奨するシフトであることに多くの著者が同意している。例えば、帰無仮説に代わる科学的に妥当な効果量として認識されている効果量について、P値を提示したり要求したりすることができます。
P値と同様に、信頼区間を誤解して、正当な答えがないにもかかわらず、鋭い答えを与えていると誤解しないように、さらに注意が必要である。点推定値が正しい効果であるとする仮説は、最大のP値(ほとんどの場合、P = 1)を持ち、信頼区間の内側の仮説は、区間の外側の仮説よりも高いP値を持つことになる。しかし、P値は、区間内の仮説の間でも、区間外の仮説の間でも、大きく変化する。また、2つの仮説の一方が区間内にあり、他方が区間外にあるにもかかわらず、P値がほぼ等しい場合もある。したがって、P値を使って仮説とデータの適合性を測定し、この尺度で仮説を比較したい場合、単に仮説が区間の内側か外側かを問うのではなく、そのP値を直接調べる必要がある。この必要性は、(通常のように)精査中の仮説の1つが帰無仮説である場合に特に顕著である。
検出力のよくある誤認識
正しい対立仮説を検出するための検定の検出力は、検定が検定仮説を棄却する研究前の確率(例えば、Pが0.05のような事前に指定したカットオフ値を超えない確率)である。(代替仮説が正しいときに検定仮説を棄却できない対応する試験前の確率は、検出力を1マイナスしたもので、II型またはベータ誤り率としても知られている) [84] P値や信頼区間と同様に、この確率は同じ研究デザインの繰り返しで定義されているので、頻度確率となる。合理的な代替仮説の1つのソースは、研究提案で検出力を計算するために使用された効果量である。一方、観察されたデータから計算された検出力は、ヌルP値の直接的な(不明瞭な)変換であるため、代替仮説の検証を行うことができない。したがって、検出力を提示しても、区間推定値や代替案の直接検定の必要性がなくなるわけではありません。
これらの理由から、多くの著者は、(信頼区間とは対照的に)仮説の直接比較から注意をそらし、次のような新しい誤解をもたらすとして、推定値と統計的検定の解釈のための検出力の使用を非難している [42, 92-97] :
24.
NullPvalueが0.05を超え、検定の検出力が90%であるため、帰無仮説を受け入れた場合、誤りの可能性(発見が偽陰性である可能性)は10%です。いいえ!帰無仮説が偽で、あなたがそれを受け入れた場合、あなたが間違っている可能性は10%ではなく、100%です。逆に、帰無仮説が真で、それを受け入れた場合、間違う確率は0%です。10%というのは、検出力を計算するために使われた特定の代替案が正しく、検定に使われた他のすべての仮定がすべての研究で正しい場合に、異なる研究間で非常に多くの検定を使用した場合に、どれくらいの頻度で誤りを犯すかということだけです。これは、検出力を計算するために使用されたもの以外の代替効果量における、あなたの1回の検定の使用やエラー率に言及するものではありません。
2つの仮説について、一方は検定値またはP値、他方は検出力を提示して結果を比較することは、特に誤解を招く可能性があります。例えば、P≦0.05かどうかを見て帰無値を検定し、代替案については1-0.05=0.95より小さい検出力で検定すると(日常的に行われている)、帰無値を誤って棄却する確率(0.05)が、代替案が正しい場合に帰無値を誤って受け入れる確率より低くなるので、比較は帰無値を支持して偏ったものになります。したがって、相対的な支持や証拠に関する主張は、両方の仮説に対する支持や証拠の直接的かつ比較可能な測定に基づく必要があり、そうでない場合は、次のような間違いが生じます:
25.
nullPvalue が0.05を超え、この検定の検出力が代替案で90%であれば、結果は代替案よりnullを支持する。この主張は多くの人にとって直感的なものだと思われるが、反例は簡単に構築でき、ヌルP値が0.05から0.10の間であっても、自身のP値が0.10を超え、検出力が0.90である代替案が存在する。類似の結果は、互換性、証拠、および支持の他の受け入れ可能な測定について生じ、ヌルP値が0.05アルファレベルで「有意ではない」、代替に対する検出力が「非常に高い」という事実にもかかわらず、データは代替よりもヌルと低い互換性と多くの証拠を示していることを示す[42]。
現在のデータの解釈には欠点があるものの、検出力は研究の設計や、理想的な条件下でも「統計的有意性」の再現がしばしば失敗する理由を理解するのに有用である。有意水準0.05を用いた場合、主要な代替案に対して80%の検出力があるとして研究が計画されたり主張されたりすることが多いが、実際には被験者の募集が少ないなどの予期せぬ問題のために検出力が低くなることが多い。このように、代替案が正しく、2つの研究の実際の検出力が80%である場合、2つの研究がともにP≦0.05を示す確率は、せいぜい0.80(0.80)=64%しかない。さらに、一方の研究がP≦0.05を示して、他方が示さない(したがって、矛盾した結果を示していると誤解される)確率は2(0.80)=32%と3分の1程度と考えられる。典型的な問題を考慮した同様の計算をすると、出版バイアスや報告バイアスがなかったとしても、「再現の危機」が予想されます。これは、現在のデザインとテストの慣習が、個々の研究結果を「有意」/「非有意」または「棄却」/「受容」の二値出力として扱っているためです。
に移動します:
統計モデルはギリシャ文字の数式以上のものである
上記のリストは、研究文献を見直すことでさらに増やすことができます。しかし、ここでは、最近注目されているにもかかわらず、統計学の教育や発表において、まだ広く見落とされているか、あるいは狭く解釈されている問題について、直接議論することにします: それは、結果を得るために使用された統計モデルが正しいかどうかということです。
あまりにも多くの場合、完全な統計モデルは、ギリシャ文字で示されるパラメータによって効果が表される単純な回帰式または構造方程式として扱われます。そして、「モデルのチェック」は、適合性のテストやモデルの追加項のテストに限定されます。しかし、これらの適合性の検定は、それ自体、完全なモデルの一部と見なすべき、さらなる仮定をしている。例えば、すべての一般的な検定と信頼区間は、観察または治療のためのランダムな選択と、制御された共変量のレベル内でのランダムな損失または欠落の仮定に依存している。これらの仮定は感度解析やバイアス解析によって徐々に精査されるようになったが[98]、このような方法はほとんどの研究者に与えられる基本的な統計トレーニングから遠く離れたままである。
さらに重要なのは、解析そのものが非有意性や有意性を見出す方向に誘導されていないこと(解析バイアス)、解析結果が非有意性や有意性に基づいて報告されていないこと(報告バイアス、出版バイアス)であることはあまり知られていない。選択的な報告は、統計的有意性、P値、信頼区間といった限られた理想的な意味さえも偽ることになる。著者が結果を報告するかどうか、編集者が結果を公表するかどうかは、P値が0.05以上か以下かで決まることが多いため、選択的報告は科学文献の大部分において大きな問題として認識されている[99-101]。
この選択問題も感度分析の対象になっているが、報告と出版バイアスの研究には偏りがある:通常、これらのバイアスは有意性を支持すると仮定されている。この仮定は、(しばしば見られるように)研究者がP≦0.05のときに発表する結果を選択する場合、もちろん正しいが、これは関連性を誇張する傾向がある行為である [101-105] 。しかし、P≦0.05を報告することに有利なバイアスは、証拠や常識によって支持されることはもちろん、常にもっともらしいとは言えない。例えば、帰無仮説を支持する利害関係者から資金提供を受けている出版物では、P>0.05を選択すると予想される(関連を控えめにする傾向がある)。この予想と一致し、いくつかの実証研究では、他の研究よりもそのような出版物でより小さな推定値と「非有意性」がより頻繁に観察されている [101, 106, 107].
このような問題に対処するには、統計の誤認に対処するよりもはるかに多くの政治的意思と努力が必要であり、例えば、すべての完了した試験からデータおよび解析コードをオープンにして、試験の登録を強制する(AllTrialsイニシアチブのように、http://www.alltrials.net/)ことが考えられる。いずれにせよ、読者は、研究報告書の統計や結論を解釈する際には、研究報告書が作成され、表示される背景全体を考慮することをお勧めします。
次へ
結論
統計的検定が通常誤った解釈をされることを知ると、これらの検定が科学に役立つとしたら何だろうと考えるかもしれない。もともと統計検定は、誤差の原因であるランダムな変動性を考慮し、観察された関連を真の効果として、あるいは帰無仮説に対して正当な根拠よりも強い証拠として過剰に解釈しないように注意を喚起するためのものであった。しかし、いつの間にか、この使い方は逆手に取られ、「統計的有意性を達成できなかった」「達成できなかった」という形で帰無仮説の裏付けとなるようになりました。
現代の統計的検定の創始者たちが、自分たちの発明を一般的に扱うことに恐怖を感じていることは間違いないだろう。NeymanとPearson [108]は、統計的検定への二元的アプローチを説明した最初の論文で、「(P値が)0.05ではなく、本当は0.03(または0.06)だったという知識が、実際に我々の判断を修正するかどうかは疑わしい」、「検定自体は最終判断を与えず、道具としてそれを使用している作業者が最終判断を下すのに役立つ」と書いています。ピアソン[109]は後に、「間違いなく我々は、"彼の最終的または暫定的な判断 "と言った方が適切だっただろう」と付け加えている。フィッシャー [110]はさらに進んで、「どんな科学者でも、年ごとに、そしてあらゆる状況において、仮説を否定する一定の有意水準は持っていない、むしろ彼は自分の証拠と自分の考えに照らして、それぞれの特定のケースに心を砕くのだ」と言った。しかし、Pが0.05以上か以下かが発見の普遍的な判断材料であるという信念を含め、誤った、儀礼的な検定の使用は広がり続けたのである。そして、「有意差なし」から「差なし」と推論することがあまりにも多いのです。
これに対して、よく理解されたシステムに関する厳重に管理された実験では、試験仮説が確立された理論(例えばメンデル遺伝学)から特別な支持を得ているかもしれないし、他のあらゆる仮定(例えば無作為割付)が研究の慎重な設計と実行によって成立せざるを得ない場合、多少の誤った解釈は害にならないと議論されてきた。しかし、社会科学、健康、医療分野など、より制御不能で不定形な研究環境では、統計的検定の害がその利点をはるかに上回ると長い間主張され、研究報告書での検定を禁止する声が上がり、ある雑誌では信頼区間と同様にP値も禁止されている[2]。
しかし、統計的検定が深く浸透していること、一般に認められた代替法がないことから、有意差検定での使用からP値を切り離すことで、P値を救済する試みが数多く行われている。その一つが、先に述べたように、P値を連続的な適合性の尺度として注目するアプローチである。このアプローチには限界があるが(1、2、5、9、15、18、19に記載)、0.05などの任意のカットオフ値とのP値の比較を避けることができる(3、4、6-8、10-13、15、16、21、23-25に記載されているように)。もう一つのアプローチは、仮説確率に対するP値の正しい関係を教え、使用することである。例えば、一般的な統計モデルの下では、片側P値は効果の方向に関する仮説の確率の下界を提供できる[45, 46, 112, 113]。このような再解釈が、最終的に一般的な誤った解釈に取って代わり、良い効果をもたらすことができるかどうかは、まだ分からない。
仮説検証から推定への重点のシフトは、実践を改善するためのシンプルで比較的安全な方法として推進されており [5, 61, 63, 114, 115] 、信頼区間の使用とそれに対する編集者の要求が増加している。しかし、このシフトによって、上記の19-23のような区間の誤った解釈が表面化している [116] 。他のアプローチでは、帰無仮説の検定と帰無仮説と対立仮説の両方を含むさらなる計算を組み合わせている [117, 118] ;しかし、このような計算は、より複雑であると同時に、検出力について上で述べたようなさらなる誤解をもたらすかもしれない ;そして、そのような計算は、より複雑である。
一方、現在の慣行の害を最小限に抑えることを期待して、我々は統計の利用者と読者にいくつかのガイドラインを提供し、誤った解釈のリストからいくつかの重要な警告を再強調することができます:
統計的検定の正しく慎重な解釈には、効果推定値の大きさや信頼限界、正確なP値(P値が0.05やその他の閾値より上か下かだけではない)を調べることが必要です。
注意深い解釈はまた、統計解析に使われた仮定と慣例、つまり通常の統計的仮定だけでなく、結果がどのように生成され、発表のために選択されたかについての隠れた仮定についても批判的に検討する必要があります。
統計的に有意でない結果が、ある検証仮説を支持していると主張するのは、単に誤りである。
区間推定値は、データが効果量に関する様々な仮説を識別できるかどうか、あるいは統計結果が他の仮説でよりよく説明できるにもかかわらず、ある仮説を支持しているように誤って表示されていないかどうかを評価するのに役立ちます(ポイント4-6を参照)。しかし、信頼区間はこれらの作業の最初のステップに過ぎないことが多いので注意が必要である。データと統計モデルに照らして仮説を比較するためには、各仮説のP値(または相対的尤度)を計算する必要があるかもしれない。さらに、信頼区間は、不確実な統計モデルに依存する限り、データによって残された不確実性や曖昧さを測る最良のケースに過ぎないことに注意する。
複数の研究を正しく統計的に評価するには、研究の偏りを正しく処理するプール解析やメタ解析が必要である [68, 119-125] 。しかし、これが行われたとしても、前述の注意点はすべて適用される。さらに、統計的手法の結果は、エビデンスの全体像を検討する際に評価しなければならない多くの検討事項の一つに過ぎない。特に、統計的有意性は、一連の観測の科学的または実用的な重要性を決定するために必要でも十分でもない。この見解は、連邦最高裁判所によって満場一致で肯定された(Matrixx Initiatives, Inc.ら対Siracusanoら No.09-1156. Argued January 10, 2011, Decided March 22, 2011)、NeymanとPearsonの引用に見られるように。
仮説の確率、可能性、確実性、または同様の性質について提供される意見は、統計的手法だけから導き出すことはできない。特に、有意差検定や信頼区間は、それ自体、ある効果が確実に存在する、あるいはある確率で存在しないと結論づけるための論理的な根拠にはならない。この点は、仮説の確率、可能性、確実性を示すような結論を見るたびに、心に留めておく必要がある。このような結論に至るには、分析されたデータや従来の統計モデル(データの確率のみを与える)に含まれる以上の仮説に関する情報が使用されなければならない。その情報は、結論を提示する者によって明示的に認められ、説明されなければならない。ベイズ統計学は、必要な情報を統計モデルに直接取り込もうとする手法である。しかし、哲学的な反対や、その使用に関する慣習が確立されていないこともあり、P値や信頼区間ほどの普及には至っていない。
すべての統計手法(頻度主義かベイズ主義か、検定か推定か、推論か決定か)は、データの生成だけでなく、分析の選択においても、提示された結果に至った一連の出来事について広範な仮定を置いています。したがって、批判的な評価を可能にするために、研究報告書(メタアナリシスを含む)は、研究の動機、デザイン、当初の解析計画、被験者(または研究)とデータを含めたり除外したりするために使用した基準、および実施したすべての解析の完全な記述を含む、提示した統計につながった完全な一連の出来事を詳細に記述するべきである。
最後に、どのような統計手法も誤った解釈や誤用を免れることはできませんが、統計の慎重な利用者は、特に深刻な乱用が起こりやすい手法を避けることに留意します。この点で、我々は、P値を「有意」と「非有意」に分解することを、特に悪質な統計的慣行として特別視する他の人たちと共に[126]するものである。
に行く:
謝辞
SJSは、欧州連合(EU)の第7次枠組み計画の研究・技術開発・実証のためのIDEALプロジェクト(助成契約番号602552)から資金援助を受けています。Stuart Hurlbert, Deborah Mayo, Keith O'Rourke, Andreas Stangの有益なコメントと、Ron Wassersteinのこのプロジェクトにおける貴重な励ましに感謝します。
に行く:
脚注
編集部注
この論文は、Wasserstein RL, Lazar NA.の論文の補足資料としてオンラインで公開されたものである。p値に関するASAの声明:文脈、プロセス、目的。アメリカン スタティスティシャン 2016年
アルバート・ホフマン編集長 EJE.
にアクセスしてください:
寄稿者情報
サンダー・グリーンランド、Email: ude.alcu@semodsel.
Stephen J. Senn, Email: ul.hil@nnes.nehpets.
John B. Carlin, 電子メール:ua.ude.ircm@nilrac.nhoj.
Charles Poole、Eメール:ude.cnu@eloopc.
Steven N. Goodman, Email: ude.drofnats@namdoog.evets.
Douglas G. Altman, Eメール:ku.ca.xo.msc@namtla.guod.
こちらへ
参考文献

  1. Lang JM、Rothman KJ、Cann CI. その混乱したP値。Epidemiology. 1998;9:7-8. doi: 10.1097/00001648-199801000-00004. [PubMed] [CrossRef] [Google Scholar].

  2. Trafimow D, Marks M. Editorial. Basic Appl Soc Psychol. 2015;37:1-2. doi: 10.1080/01973533.2015.1012991. [CrossRef] [Google Scholar].

  3. Ashworth A. Veto on the use of null hypothesis testing and p intervals: right or wrong? Taylor & Francis Editor. 2015. リソースオンライン、http://editorresources.taylorandfrancisgroup.com/veto-on-the-use-of-null-hypothesis-testing-and-p-intervals-right-or-wrong/。2016年2月27日にアクセスしました。

  4. Flanagan O. Journal's ban on null hypothesis significance testing: reactions from the statistical arena. 2015. Stats Life online, https://www.statslife.org.uk/opinion/2114-journal-s-ban-on-null-hypothesis-significance-testing-reactions-from-the-statistical-arena. Accessed 27 Feb 2016.

  5. Altman DG, Machin D, Bryant TN, Gardner MJ, editors. Statistics with confidence. 2. London: BMJ Books; 2000. [Google Scholar].

  6. Atkins L, Jarrett D. The significance of "significance tests" In: Irvine J, Miles I, Evans J, editors. Demystifying Social Statistics. London: Pluto Press; 1979. [Google Scholar】。]

  7. Cox DR. 有意差検定の役割(考察を交えて)Scand J Stat. 1977;4:49-70. [Google Scholar] 7.

  8. コックスDR. 統計的有意性検定。Br J Clin Pharmacol. 1982;14:325-331. doi: 10.1111/j.1365-2125.1982.tb01987.x. [PMC free article] [PubMed] [CrossRef] [Google Scholar].

  9. コックスDR、ヒンクリーDV. 理論統計学。New York: Chapman and Hall; 1974. [Google Scholar】。]

  10. Freedman DA, Pisani R, Purves R. Statistics. 4. New York: Norton; 2007. [Google Scholar】。]

  11. Gigerenzer G, Swijtink Z, Porter T, Daston L, Beatty J, Kruger L. The empire of chance: How probability changed science and daily life. New York: Cambridge University Press; 1990. [Google Scholar].

  12. Harlow LL, Mulaik SA, Steiger JH. もし有意差検定がなかったらどうなるか?New York: Psychology Press; 1997. [Google Scholar】。]

  13. ホグベンL. 統計理論. London: Allen and Unwin; 1957. [Google Scholar】。]

  14. Kaye DH, Freedman DA. 統計学に関するリファレンスガイド。In: 科学的証拠に関するレファレンスマニュアル、第3版、ワシントンDC: Federal Judicial Center; 2011. p. 211-302.

  15. Morrison DE, Henkel RE, editors. 有意差検定論争。シカゴ: Aldine; 1970. [Google Scholar].

  16. Oakes M. Statistical inference: a commentary for the social and behavioural sciences. Chichester: Wiley; 1986. Google Scholar] [Google Scholar

  17. Pratt JW. 標準的な推論文のベイズ的解釈。J Roy Stat Soc B. 1965;27:169-203. [Google Scholar】。]

  18. Rothman KJ, Greenland S, Lash TL. 現代疫学。3. Philadelphia: Lippincott-Wolters-Kluwer; 2008. [Google Scholar】。]

  19. Ware JH, Mosteller F, Ingelfinger JA. p-Values。In: Bailar JC, Hoaglin DC, editors. Ch. 8. 統計の医学的利用。3. Hoboken, NJ: Wiley; 2009. 175-194. [Google Scholar】。]

  20. Ziliak ST, McCloskey DN. The cult of statistical significance: How the standard error costs us jobs, justice and lives. Ann Arbor: U Michigan Press; 2008. [Google Scholar].

  21. Altman DG, Bland JM. エビデンスの不在は不在の証拠ではない。doi: 10.1136/bmj.311.7003.485. [PMC free article] [PubMed] [CrossRef] [Google Scholar].

  22. Anscombe FJ. 臨床実験の有意水準によるまとめ方。Stat Med. 1990;9:703-708. doi: 10.1002/sim.4780090617. [PubMed] [CrossRef] [Google Scholar].

  23. Bakan D. The test of significance in psychological research. Psychol Bull. 1966;66:423-437。[PubMed] [CrossRef][Googleスカラー]。

  24. Bandt CL, Boen JR. サンプルサイズ、統計的有意性、臨床的重要性に関する一般的な誤解。J Periodontol. 1972;43:181-183。[PubMed] [CrossRef] [Google Scholar].

  25. バークソンJ.エビデンスとして考慮される有意性のテスト。(注) 1.本データはこの書籍が刊行された当時に掲載されていたものです この文書は英文著書『J Am Stat Assoc. [CrossRef] [Google Scholar].

  26. Bland JM, Altman DG. Best (but oft forgotten) practices: Test for treatment effects in randomized trials by separate analysis of changes from baseline in each group is a misleading approach. Am J Clin Nutr. 2015;102:991-994. doi: 10.3945/ajcn.115.119768. [PubMed] [CrossRef] [Google Scholar].

  27. Chia KS. "有意差炎"-P値への執着。Scand J Work Environ Health. 1997;23:152-154. doi: 10.5271/sjweh.193. [PubMed] [CrossRef] [Google Scholar].

  28. コーエンJ.地球は丸い(p < 0.05) Am Psychol. 1994年;47:997-1003。[クロスリーフ] [グーグル スカラー]。

  29. Evans SJW, Mills P, Dawson J. The end of the P-value? Br Heart J. 1988;60:177-180. doi: 10.1136/hrt.60.3.177. [PMC free article] [PubMed] [CrossRef] [Google Scholar].

  30. Fidler F, Loftus GR. なぜエラーバー付きの数値がp値に取って代わるべきなのか:いくつかの概念的な議論と実証的なデモンストレーション。J Psychol. 2009;217:27-37. [Google Scholar].

  31. Gardner MA, Altman DG. P値よりも信頼区間:仮説検定よりも推定。1986年、292:746-750.doi: 10.1136/bmj.292.6522.746.Br Med J. [PMC free article] [PubMed] [CrossRef] [Google Scholar].

  32. Gelman A. P値と統計的実践。Epidemiology. 2013;24:69-72. doi: 10.1097/EDE.0b013e31827886f7. [PubMed] [CrossRef] [Google Scholar].

  33. Gelman A, Loken E. The statistical crisis in science: Data-dependent analysis-a "garden of forking paths" -explains why many statistically significant comparisons don't hold up. Am Sci. 2014;102:460-465. Erratum at http://andrewgelman.com/2014/10/14/didnt-say-part-2/. Accessed 27 Feb 2016.

  34. Gelman A, Stern HS. 有意」と「有意でない」の差は、それ自体統計的に有意ではない。Am Stat. 2006;60:328-331. doi: 10.1198/000313006X152649. [CrossRef] [Google Scholar].

  35. Gigerenzer G. Mindless statistics. J Socioecon. 2004;33:567-606. Google Scholar] [Google Scholar] [Google Scholar] [Google Scholar] [Google Scholar

  36. Gigerenzer G, Marewski JN. サロゲート・サイエンス:科学的推論のための普遍的手法の偶像。J Manag. 2015;41:421-440. [Google Scholar】。]

  37. グッドマンSN. 再現性、p値、エビデンスに関するコメント。Stat Med. 1992;11:875-879。[PubMed] [CrossRef] [Google Scholar].

  38. グッドマンSN. P値、仮説検定、尤度:無視された歴史的議論の疫学への影響。Am J Epidemiol. 1993;137:485-496. [PubMed] [Google Scholar].

  39. Goodman SN. エビデンスに基づく医学統計学に向けて、I:P値の誤謬。Ann Intern Med. 1999;130:995–1004. doi: 10.7326/0003-4819-130-12-199906150-00008. [PubMed] [CrossRef] [Google Scholar].

  40. Goodman SN. A dirty dozen: 12 P-value misconceptions. Semin Hematol. 2008;45:135-140. doi: 10.1053/j.seminhematol.2008.04.003. [PubMed] [CrossRef] [Google Scholar].

  41. Greenland S. Null misinterpretation in statistical testing and its impact on Health Risk Assessment. Prev Med. 2011;53:225-228. doi: 10.1016/j.ypmed.2011.08.010. [PubMed] [CrossRef] [Google Scholar].

  42. Greenland S. Nonsignificance plus high power does not imply support for the null over the alternative. Ann Epidemiol. 2012;22:364-368. doi: 10.1016/j.annepidem.2012.02.007. [PubMed] [CrossRef] [Google Scholar].

  43. 透明性と開示、中立性とバランス:共有された価値観か、単なる共有された言葉か?J Epidemiol Community Health. 2012;66:967-970. doi: 10.1136/jech-2011-200459. [PubMed] [CrossRef] [Google Scholar].

  44. Greenland S, Poole C. Problems in common interpretations of statistics in scientific articles, expert reports, and testimony. Jurimetrics. 2011;51:113-129. Google Scholar] [Google Scholar] [Google Scholar] [Google Scholar] [Google Scholar] [Google Scholar

  45. グリーンランドS、プールC.P値と共存する:頻度論的統計学にベイズ的視点を復活させる。Epidemiology. 2013;24:62-68. doi: 10.1097/EDE.0b013e3182785741. [PubMed] [CrossRef] [Google Scholar].

  46. Greenland S, Poole C. Living with statistics in observational research. Epidemiology. 2013;24:73-78. doi: 10.1097/EDE.0b013e3182785a49. [PubMed] [CrossRef] [Google Scholar].

  47. Grieve AP. How to test hypotheses if you must. Pharm Stat. 2015;14:139-150. doi: 10.1002/pst.1667. [PubMed] [CrossRef][Googleスカラー]。

  48. Hoekstra R, Finch S, Kiers HAL, Johnson A. Probability as certainty: dichotomous thinking and the misuse of p-values. 2006;13:1033-1037.doi:10.3758/BF03213921。[PubMed] [CrossRef] [Google Scholar].

  49. ハールバート・ロンバルディCM.Neyman-Pearson決定理論の枠組みの最終的な崩壊とneoFisherianの台頭。Ann Zool Fenn. 2009;46:311-349、doi: 10.5735/086.046.0501. [CrossRef] [Google Scholar].

  50. Kaye DH. 統計的有意性の証明は適切か?Wash Law Rev. 1986;61:1333-1366. Google Scholar] [Google Scholar] [Google Scholar] [Google Scholar

  51. Lambdin C. Significance tests as sorcery: Science is empirical-significance tests are not. Theory Psychol. 2012;22(1):67-90. doi: 10.1177/0959354311429854. [CrossRef] [Google Scholar].

  52. ラングマンMJS. 推定と信頼区間にむけて。BMJ. 1986年;292:716. doi: 10.1136/bmj.292.6522.716. [PMC無料記事] [PubMed] [CrossRef] [Google Scholar].

  53. LeCoutre M-P, Poitevineau J, Lecoutre B. Even statisticians are not immune to misinterpretations of null hypothesis test. Int J Psychol. 2003;38:37-45. doi: 10.1080/00207590244000250. [CrossRef] [Google Scholar].

  54. Lew MJ. 薬理学(および他の基礎生物医学分野)における悪い統計的慣行:あなたはおそらくPを知らない。2012;166:1559-1567. doi: 10.1111/j.1476-5381.2012.01931.x. [PMC free article] [PubMed] [CrossRef] [Google Scholar].

  55. ロフタスGR。心理学は、データの分析方法を変えれば、もっと良い科学になる。Curr Dir Psychol. 1996;5:161-171. doi: 10.1111/1467-8721.ep11512376. [CrossRef] [Google Scholar].

  56. Matthews JNS, Altman DG. 相互作用2:P値ではなく、効果量を比較する。Doi: 10.1136/bmj.313.7060.808. [PMC free article] [PubMed] [CrossRef] [Google Scholar].

  57. Pocock SJ, Ware JH. 統計的知見を平易な英語に翻訳する。Lancet. 2009;373:1926-1928. doi: 10.1016/S0140-6736(09)60499-2. [PubMed] [CrossRef] [Google Scholar].

  58. Pocock SJ, Hughes MD, Lee RJ. 臨床試験の報告における統計的問題。N Eng J Med. 1987;317:426-432。doi: 10.1056/NEJM198708133170706. [PubMed] [CrossRef] [Google Scholar].

  59. Poole C. Beyond the confidence interval. Am J Public Health. 1987;77:195-199. [PMC free article] [PubMed] [CrossRef] [Google Scholar].

  60. Poole C. Confidence intervals exclude nothing. Am J Public Health. 1987年;77:492-493。[PMC無料記事] [PubMed] [CrossRef] [Google Scholar].

  61. Poole C. Low P-values or narrow confidence intervals: Which are more durable? Epidemiology. 2001;12:291-294. doi: 10.1097/00001648-200105000-00005. [PubMed] [CrossRef] [Google Scholar].

  62. 統計的手続きと心理科学における知識の正当化. Am Psychol. 1989;44:1276-1284. doi: 10.1037/0003-066X.44.10.1276. [CrossRef] [Google Scholar].

  63. ロスマンKJ. 自信の表れ。NEJM. 1978年;299:1362-1363.doi: 10.1056/NEJM197812142992410. [PubMed] [CrossRef] [Google Scholar].

  64. Rothman KJ. Significance questing. Ann Intern Med. 1986年;105:445-447.doi: 10.7326/0003-4819-105-3-445. [PubMed] [CrossRef] [Google Scholar].

  65. ロゼブームWM。無仮説有意差検定の誤り。Psychol Bull. 1960;57:416-428. [PubMed] [CrossRef] [Google Scholar].

  66. Salsburg DS. 医学雑誌で実践されている統計の宗教。Am Stat. 1985;39:220-223. Google Scholar] [Google Scholar] [Google Scholar] 66.

  67. Schmidt FL. 心理学における統計的有意差検定と累積知識: 心理学における統計的有意性検定と累積的知識:研究者養成の意味合い。Psychol Methods. 1996;1:115-129. doi: 10.1037/1082-989X.1.2.115. [CrossRef] [Google Scholar].

  68. Schmidt FL, Hunter JE. メタアナリシスの方法:研究結果のエラーとバイアスを修正する。3. Thousand Oaks: Sage; 2014. [Google Scholar】。]

  69. Sterne JAC, Davey Smith G. Sifting the evidence-what's wrong with significance test? Br Med J. 2001;322:226-231. doi: 10.1136/bmj.322.7280.226. [PMC free article] [PubMed] [CrossRef] [Google Scholar].

  70. Thompson WD. 疫学データの解釈における統計的基準。Am J Public Health. 1987;77:191-194. doi: 10.2105/AJPH.77.2.191. [PMC free article] [PubMed] [CrossRef] [Google Scholar].

  71. 心理学と教育における「意義」の危機. そのため、この論文では、心理学と教育における「意義」の危機を取り上げる。[CrossRef] [Google Scholar].

  72. ワーゲンメイカーズ E-J. p値の蔓延する問題に対する実践的な解決策。2007;14:779-804.doi:10.3758/BF03194105。[PubMed] [CrossRef] [Google Scholar].

  73. ウォーカーAM. 疫学研究の結果を報告する。Am J Public Health. 1986;76:556-558. doi: 10.2105/AJPH.76.5.556. [PMC free article] [PubMed] [CrossRef] [Google Scholar].

  74. 統計的有意性の傾向の罠:有意に近いP値が追加データでより有意になる可能性。BMJ. 2014;348:g2215. doi: 10.1136/bmj.g2215. [PubMed] [CrossRef] [Google Scholar].

  75. スティグラーSM. 統計学の歴史。Cambridge, MA: Belknap Press; 1986. Google Scholar] [Google Scholar] [Google Scholar] [Google Scholar] [Google Scholar

  76. Neyman J. Outline of a theory of statistical estimation based on the classical theory of probability. 1937;236:333-380.doi:10.1098/rsta.1937.0005.Philos Trans R Soc Lond A. [CrossRef] [Google Scholar].

  77. Edwards W, Lindman H, Savage LJ. 心理学研究のためのベイズ型統計的推論。心理学研究のためのベイズ型統計的推論. [CrossRef] [Google Scholar].

  78. Berger JO, Sellke TM. 点帰無仮説の検定:P値とエビデンスの両立不可能性。J Am Stat Assoc.1987;82:112-139。[Google Scholar].

  79. エドワーズAWF.尤度(Likelihood)。2. Baltimore: Johns Hopkins University Press; 1992. [Google Scholar】。]

  80. グッドマンSN、ロイアルR.エビデンスと科学的研究。Am J Public Health. 1988;78:1568-1574. doi: 10.2105/AJPH.78.12.1568. [PMC free article] [PubMed] [CrossRef] [Google Scholar].

  81. ロイアルR.統計的証拠. New York: Chapman and Hall; 1997. Google Scholar] [Google Scholar] [Google Scholar] [Google Scholar] [Google Scholar

  82. Sellke TM, Bayarri MJ, Berger JO. 正確な帰無仮説を検定するための p 値の校正。(注) 1.本データはこの書籍が刊行された当時に掲載されていたものです。[CrossRef] [Google Scholar].

  83. グッドマンSN. ベイズ法入門I:エビデンスの強さを測る。Clin Trials. 2005;2:282-290. doi: 10.1191/1740774505cn098oa. [PubMed] [CrossRef] [Google Scholar].

  84. Lehmann EL. 統計的仮説の検証。2. Wiley: New York; 1986. [Google Scholar】。]

  85. Senn SJ. P値に2つの喝采を。J Epidemiol Biostat. 2001;6(2):193-204. doi: 10.1080/135952201753172953. [PubMed] [CrossRef] [Google Scholar].

  86. Senn SJ. 編集者への手紙 re: Goodman 1992. Stat Med. 2002;21:2437-2444。doi: 10.1002/sim.1072. [PubMed] [CrossRef] [Google Scholar].

  87. Mayo DG, Cox DR. 帰納的推論の理論としてのフリークエンティスト統計学。In: J Rojo, editor. 最適性:第2回Erich L. Lehmannシンポジウム, Lecture notes-monograph series, Institute of Mathematical Statistics (IMS). 2006;49: 77-97.

  88. マータフPA. P値の擁護(議論あり) Ecology. 2014;95(3):611-653. doi: 10.1890/13-0590.1. [PubMed] [CrossRef] [Google Scholar].

  89. Hedges LV, Olkin I. Vote-counting methods in research synthesis. Psychol Bull. 1980;88:359-369. doi: 10.1037/0033-2909.88.2.359. [CrossRef] [Google Scholar].

  90. Chalmers TC, Lau J. Changes in clinical trials mandated by the advent of meta-analysis. Stat Med. 1996;15:1263–1268. doi: 10.1002/(SICI)1097-0258(19960630)15:12<1263::AID-SIM305>3.0.CO;2-K. [PubMed] [CrossRef] [Google Scholar].

  91. Maheshwari S, Sarraj A, Kramer J, El-Serag HB. 経口避妊薬と肝細胞癌のリスク。J Hepatol. 2007;47:506-513. doi: 10.1016/j.jhep.2007.03.015. [PubMed] [CrossRef] [Google Scholar].

  92. Cox DR. The planning of experiments. New York: Wiley; 1958. p. 161. [Google Scholar】。]

  93. Smith AH, Bates M. Confidence limit analyses should replace power calculations in the interpretation of epidemiologic studies. Epidemiology. 1992;3:449-452. doi: 10.1097/00001648-199209000-00011. [PubMed] [CrossRef] [Google Scholar].

  94. グッドマンSN。編集者への手紙、スミスとベイツについて。Epidemiology. 1994年;5:266-268。[PubMed] [CrossRef] [Google Scholar].

  95. Goodman SN, Berlin J. The use of predicted confidence intervals when planning experiments and the misuse of power when interpreting results. Ann Intern Med. 1994;121:200–206. doi: 10.7326/0003-4819-121-3-199408010-00008. [PubMed] [CrossRef] [Google Scholar].

  96. ホーニッヒJM、ハイシーDM.The abuse of power: the pervasive fallacy of power calculations for data analysis. (注) 1.本データは、本書刊行時点のものです。[CrossRef] [Google Scholar].

  97. Senn SJ. Power is indeed irrelevant in interpreting completed studies. BMJ. 2002年、325:1304。[PMC free article] [PubMed] [CrossRef] [Google Scholar].

  98. Lash TL, Fox MP, Maclehose RF, Maldonado G, McCandless LC, Greenland S. Good practices for quantitative bias analysis. Int J Epidemiol. 2014;43:1969-1985. doi: 10.1093/ije/dyu149. [PubMed] [CrossRef] [Google Scholar].

  99. Dwan K, Gamble C, Williamson PR, Kirkham JJ, Reporting Bias Group Systematic review of the empirical evidence of study publication bias and outcome reporting bias-an updated review. PLoS One. 2013;8:e66844. doi: 10.1371/journal.pone.0066844. [PMC free article] [PubMed] [CrossRef] [Google Scholar].

  100. Page MJ, McKenzie JE, Kirkham J, Dwan K, Kramer S, Green S, Forbes A. Bias due to selective inclusion and reporting of outcomes and analyses in systematic reviews of randomised trials of healthcare intervention. Cochrane Database Syst Rev. 2014;10:MR000035. [PMC無料記事】【PubMed】。

  101. You B, Gan HK, Pond G, Chen EX. 登録から出版までの腫瘍学ランダム化比較試験における一次エンドポイントの解析と報告の一貫性:システマティックレビュー。J Clin Oncol. 2012;30:210-216. doi: 10.1200/JCO.2011.37.0890. [PubMed] [CrossRef] [Google Scholar].

  102. Button K, Ioannidis JPA, Mokrysz C, Nosek BA, Flint J, Robinson ESJ, Munafò MR. Power failure: Why small sample size undermines the reliability of neuroscience. Nat Rev Neurosci. 2013;14:365-376. doi: 10.1038/nrn3475. [PubMed] [CrossRef] [Google Scholar].

  103. 大うつ病の急性期治療におけるレボキセチン:公開および未公開のプラセボおよび選択的セロトニン再取り込み阻害薬対照試験の系統的レビューとメタ分析。BMJ. 2010;341:c4737. doi: 10.1136/bmj.c4737. [PMC free article] [PubMed] [CrossRef] [Google Scholar].

  104. Land CE. 低線量の電離放射線による癌リスクの推定。Science. 1980;209:1197-1203. doi: 10.1126/science.7403879. [PubMed] [CrossRef] [Google Scholar].

  105. ランドCE. サンプルサイズに関連した統計的限界。Environ Health Perspect. 1981;42:15-21。[PMC無料記事] [PubMed] [CrossRef] [Google Scholar].

  106. Greenland S. Dealing with uncertainty about investigator bias: disclosure is informative. J Epidemiol Community Health. 2009;63:593-598. doi: 10.1136/jech.2008.084913. [PubMed] [CrossRef] [Google Scholar].

  107. Xu L, Freeman G, Cowling BJ, Schooling CM. 男性におけるテストステロン療法と心血管イベント:プラセボ対照無作為化試験のシステマティックレビューとメタアナリシス。BMC Med. 2013;11:108. doi: 10.1186/1741-7015-11-108. [PMC free article] [PubMed] [CrossRef] [Google Scholar].

  108. ネイマンJ、ピアソンES. 統計的推論を目的としたある種の検定基準の使用と解釈について:パートI. Biometrika. 1928;20A:175-240. [Google Scholar].

  109. ピアソンES. 現実との関係における統計的概念。J R Stat Soc B. 1955;17:204-207. [Google Scholar】。]

  110. フィッシャーRA. 統計的手法と科学的推論。Edinburgh: Oliver and Boyd; 1956. [Google Scholar].

  111. Hill AB. 環境と病気:関連性か因果関係か?Proc R Soc Med. 1965;58:295-300. [PMC free article] [PubMed] [Google Scholar].

  112. カセラG、バーガーRL。ベイズ派と頻度派の証拠を片側検定問題で調和させる。そのため、このような問題が発生する可能性があります。[CrossRef] [Google Scholar].

  113. カセラG、ベルガーRL。コメント Stat Sci. 1987;2:344-417. doi: 10.1214/ss/1177013243. [CrossRef] [Google Scholar].

  114. Yates F. The influence of statistical methods for research workers on the development of the science of statistics. J Am Stat Assoc. 1951;46:19-34. Google Scholar] [Google Scholar] [Google Scholar] [Google Scholar] [Google Scholar] [Google Scholar

  115. カミング G. 新しい統計学を理解する:効果量、信頼区間、メタアナリシス. London: Routledge; 2011. Google Scholar] [Google Scholar].

  116. Morey RD, Hoekstra R, Rouder JN, Lee MD, Wagenmakers E-J. 信頼区間に自信を持たせることの誤謬。Psychon Bull Rev (in press). [PMC無料記事] [PubMed]を参照してください。

  117. ローゼンタールR、ルービンDB。効果量のcounternull値:新しい統計量。また、このような統計は、"Psychol Sci. "誌に掲載されている。

  118. Mayo DG, Spanos A. Severe testing as a basic concept in a Neyman-Pearson philosophy of Induction. Br J Philos Sci. 2006;57:323-357. doi: 10.1093/bjps/axl003. [CrossRef] [Google Scholar].

  119. Whitehead A. Meta-analysis of controlled clinical trials. New York: Wiley; 2002. Google Scholar] [Google Scholar] [Google Scholar] [Google Scholar] [Google Scholar

  120. Borenstein M, Hedges LV, Higgins JPT, Rothstein HR. メタアナリシスへの導入。New York: Wiley; 2009. [Google Scholar】。]

  121. Chen D-G, Peace KE. Applied meta-analysis with R. New York: Chapman & Hall/CRC; 2013. [Google Scholar].

  122. クーパーH、ヘッジスLV、バレンタインJC. The handbook of research synthesis and meta-analysis. Thousand Oaks: Sage; 2009. [Google Scholar】。]

  123. Greenland S, O'Rourke K. Meta-analysis Ch. 33. In: Rothman KJ, Greenland S, Lash TL, editors. 現代疫学(Modern epidemiology). 3. Philadelphia: Lippincott-Wolters-Kluwer; 2008.pp.682-685。[Google Scholar】。]

  124. Petitti DB. メタアナリシス、意思決定分析、費用対効果分析:医学における定量的統合のための方法。2. New York: Oxford U Press; 2000. [Google Scholar】。]

  125. Sterne JAC. メタアナリシス:Stataジャーナルからの最新コレクション。カレッジステーション、TX: Stata Press; 2009. [Google Scholar].

  126. Weinberg CR. P値のリハビリをする時が来た。Epidemiology. 2001;12:288-290. doi: 10.1097/00001648-200105000-00004. [PubMed] [CrossRef] [Google Scholar].
    European Journal of Epidemiologyの記事は、Springerの提供でここに提供されます。
    ama apa mla nlm
    NCBIをフォローする
    NLMとつながる

国立医学図書館
8600 Rockville Pike
ベセスダ、MD 20894
ウェブポリシー
FOIA
HHS 脆弱性の開示
ヘルプ
アクセシビリティ
採用情報
NLM
NIH
米国保健省
USA.gov

この記事が気に入ったらサポートをしてみませんか?