超過死亡と区間推定

日本では2021年8月の超過死亡が通常よりかなり大きかった、という情報を聞いて、その内容を確認したくなりました。超過死亡とは、予想される死者数よりも実際の数が多いことを言いますが、今回は今日本ではどの位の人が亡くなっているのかという基本的なことを調べてみました。(半分くらい自分用メモです)

まず、いったいどの位の人が日々亡くなっているのか。それを週毎や月ごとにまとめると、グラフを描くことができます。いきなり超過死亡のグラフですが、下記の水色のグラフが、過去の日本の週毎の死亡者数ということです。

画像1

2020年の死亡者数は137万2648人ということなので、週になおすと2.6万人位。グラフからも1週間に2万人から3万人が亡くなっていることがわかります。また死亡者数には季節性があって、冬場は増えるのですね。


次のグラフは、1987年~2021年の月ごとの実際の死亡者数(=水色)に加え、予想死亡者数(予測上限=緑、予測下限=赤)をグラフにしたものだそうです。予測と実際ですから、かなり重なって見えます。

画像2

では、このじわーっと増加しているのはどういう意味か。これは人口の高齢化の影響で、亡くなる人が増えているから。季節性の増減を繰り返しながら、増え続けていることがわかります。(但し縦軸がゼロからではないため、変動は強調されていることに注意)

この死亡者数を予測する時には、予測閾値下限、予測閾値上限が使われます。これは区間推定というもので、上のグラフでは95%片側予測区間というものを使っているそうです。ざっくり言うと、95%の確率でこの区間に入っているだろう、という区間です。上のグラフでも、多くの期間で実際の死亡者数が上限と下限の間に入っています。この上限よりも実際の死者数が多い場合は超過死亡、少ない場合は過少死亡となります。

ということで、この上限、下限を推定することが、大事なステップであることがわかります。例えば、日本の超過および過少死亡数ダッシュボード
の「超過および過少死亡数の算出法」に推定手法の説明があります。

プロセスとしては、最初に死亡者数の推定(上限、下限)が行われる。そして実際の死亡者数がわかったら、その上限、下限と比較して超過死亡・過少死亡の確認を確認する、ということです。(さらに速報値と確定値などがあって、かなりややこしい)


少しだけグラフを見ておきましょう。
上のグラフは、日本全国のグラフです。+で超過死亡、-で過少死亡がわかるようになっています。昨年は、超過死亡はなかった、と聞いていましたが、そのとおりのようです。今年は要注意、という感じですね。(県別も確認できます)
下のグラフでは、時々水色が見えます。水色が見える所が超過死亡・過少死亡です。90年代はほぼ1年おきの冬、2011年は春から夏に超過死亡が見えます。それぞれ理由が把握されていると思います。(少なくとも1995年と2011年は災害の影響)


そしてこのプロセスで、確認しておきたいこと。
・統計学(区間推定)が使われている
・区間を推定する手法はいろいろある
・実際との違いが大きい場合、超過・過少死亡となる
という点です。推定する手法がいろいろあるということは、使う手法や、どこまでのデータをどのように使うかに裁量があるということでもあります。誰がやっても同じ、ということにはならない。これが数学と統計学の違いの1つだと思っています。

区間推定、例えば95%信頼区間は、ある意味一般的な概念です。手法によらず、実際にわからないことについて幅を持って推定した結果を表す方法です。(統計学を学ぶと必ず出て来るし、論文では当たり前に使われる概念です。しかし一般的な報道では点推定が使われ、区間推定を見ることはほとんどありません。)


やっぱり例の政治家には「 数学・確率・統計がどのように使われているか」を知って欲しいと思いました。

(b) 数学・確率・統計がどのように使われているか
全数調査できないから一部を調査/幅のある推定を知ろう/「有効性あり」と科学的に主張するには仮説検定/因果関係と相関関係は別物/直接の因果関係が不明でも統計ならできることがある/人は無意識に数学を使っている