見出し画像

Big Data Paradox:n数に騙されてはいけない

▼ 文献情報 と 抄録和訳

代表性のない大規模な調査は、米国のワクチン摂取率を著しく過大評価した

Bradley, Valerie C., et al. "Unrepresentative big surveys significantly overestimated US vaccine uptake." Nature (2021): 1-6.

[ハイパーリンク] DOI, PubMed, Google Scholar

✅ この研究において比較している4つのワクチン接種率データ
①米国疾病管理予防センター(CDC):ワクチンを「打つ」側。これが答えといえる。今回の研究の中ではゴールデンスタンダードをこのCDCデータとしている
②Delphi-Facebook [n = 250000人]:Facebookのアクティブユーザーを対象。
③Census Household Pulse [n = 75000人]:家主への電話による国勢調査で、電話帳などからランダムサンプリング。
④Axios-Ipsos [n = 1000人]:社会構成を反映させたパネルを対象。

スライド2

[背景・目的] 調査は、世論や行動を理解するための重要なツールであり、その精度は、あらゆる要因によるバイアスを最小化することで、対象集団の統計的代表性を維持することにかかっている。データサイズが大きくなると、信頼区間が狭くなる一方で、調査バイアスの影響が大きくなるため、ビッグデータのパラドックスと呼ばれている。

[方法・結果] ここでは、2つの大規模な調査から得られた、2021年1月9日から5月19日までの米国の成人におけるCOVID-19ワクチンの初回接種の推定値において、このパラドックスを実証した。Delphi-Facebook(1週間あたり約25万件の回答)とCensus Household Pulse4(2週間ごとに約75,000件)である。2021年5月、Delphi-Facebookは、疾病管理予防センターが2021年5月26日に発表した遡及更新したベンチマークと比較して、17ポイント(14~20ポイント、ベンチマーク不正確度5%)、Census Household Pulseは14ポイント(11~17ポイント、ベンチマーク不正確度5%)取得を過大評価した。さらに、そのサンプル数の多さから、不正確な推定値の誤差は極小であった。対照的に、調査研究のベストプラクティスに従った週あたり約1,000件の回答を得たAxios-Ipsosオンラインパネルでは、信頼性の高い推定値と不確実性の定量化が行われた。

スクリーンショット 2021-12-21 13.09.18

✅ 図.  2021年の米国成人のワクチン摂取量の推定値をCDCベンチマークデータと比較し、各調査ウェーブの終了日ごとにプロットしたもの。点は各調査の初回接種ワクチン摂取量の加重推定値を示し、区間は報告された標準誤差とデザイン効果を用いた95%信頼区間である。

[結論] 25万人の回答者を対象とした調査が、10人規模の単純な無作為標本からの推定値よりも正確でない母平均の推定値を生み出すことがあることを示す。我々のメッセージは、データの質はデータの量よりも重要であり、前者を後者で補うことは数学的に証明可能な敗北の命題であるということである。

▼ So What?:何が面白いと感じたか?

まず、Natureである。座して姿勢を正して向かおう。

「n数が少ないですね」
これが、論文のリジェクトの原因となりやすい。

スクリーンショット 2021-12-21 13.54.13

✅ 図. 論文のリジェクトの原因となりやすい研究デザイン上の問題
【Daniel W. Byrne】「国際誌にアクセプトされる医学論文」より一部抜粋

そもそも、なぜn数を増やす必要があるのか?
中心極限定理というものがあるからだ。

スクリーンショット 2021-12-21 14.06.56

✅ 図. 中心極限定理
症例数が多くなればなるほど、平均の分布はどんどん正規分布に近づくというのが中心極限定理です。
新谷歩, 「今日から使える医療統計」

n数が多ければ多いほど、その集団の中心に近づいていく。
ここで、考えてほしい。

「その集団の選択自体が間違っていたら?」

その場合も中心に近づいていく。
ただし、間違った集団の中心に、だ。
すなわち、n数が増えるほど真の正解から遠ざかっていく、ということがあり得る。それが、「Big Data Paradox」である。

✅ Big Data Paradox から得られる教訓
● 闇雲にn数を増やすことが善ではない
● 以下の3 stepを踏むことが推奨される
 (1) 真の標的母集団の社会的構成など特徴を明らかにしておく
 (2) 対象のリクルート方法が、真に標的母集団に近いものかを徹底検証する
 (3) n数を増やす

(1)-(2)をすっ飛ばして(3)だけ強調していたのが、今回のDelphi-Facebook、Census Household Pulseにあたる。
臨床研究の読み手としても、担い手としても、重々気をつけるべし。

○●━━━━━━━━━━━・・・‥ ‥ ‥ ‥
良質なリハ医学関連・英論文抄読『アリ:ARI』
こちらから♪
↓↓↓

【あり】最後のイラスト

#理学療法 #臨床研究 #研究 #リハビリテーション #論文 #英論文 #文献抄読 #英文抄読 #エビデンス

‥ ‥ ‥ ‥・・・━━━━━━━━━━━●○