再捕獲法について
Introduction to Statistics: The Nonparametric Wayという本に、再捕獲法 (Capture-Recapture) という手法が載っていました。鯨とか鳥とか生息数を推定するのに使われるそうですが、簡単に計算できる割にうまく推測できるようで、自宅で試してみました。
元々はこちらのブログで紹介されていた本に、ドイツ軍が律儀に戦車に連番を振っていたのを利用して、連合国側が戦車の生産数を推測した、という話に興味を持って買いました。
どんな手法か?
湖に鯉がいて、鯉が何匹いるか数えたいとします。日本庭園の池の鯉なら自力で数えられますが、広い湖だと現実的には不可能です。計算の手続きは以下の通りです。
魚を捕まえて、捕まえた魚の数を数える (n1)
捕まえた魚にマークをつけて、放流する
数日後ぐらいに同じように魚を捕まえて、捕まえた魚の数(n2)と、マークがついた魚の数(X)を数える
n1 x n2 / X が魚の生息数の推定値
簡単な四則演算です。この手法知りませんでした。。。
豆を使って試してみた
本当にうまくいくんかいな、と思い自宅で試してみました。使うのは豆です。
ぱっと見数えられるんじゃないか、と思うかもしれませんが、正解を後で数えないといけないので、数えられそうな程度にしておきました。
ちなみに家族の予想は
家族1: 134個
家族2: 84個
でした。
ステップ1 - 豆を捕獲
捕獲というのも変ですが、手でグイッと掴みます。全部で27個ありました。
ステップ2 - マークをつけて再放流
豆にマジックなどでマークをつけてしまうと食べられなくなってしまうので、同じぐらいの大きさで緑色をした別の豆を用意しました。これをボールの中に27個投入します。理論ぽくなるので詳しくは説明しませんが、よく混ざっていた方が推定結果の精度が上がるので、よく混ぜます。魚の場合はかき混ぜられないので、数日待ったりするそうです。
ステップ3 - 再捕獲
豆のくせに捕獲とは変な感じですが、もう一回掴みます。今度は24個ありました。そのうち1回目にも取った豆(緑色の秘伝豆)は4個入っていました。
ステップ4 - 計算式で推定
最初に取った豆は27個、2回目に取った豆は24個、そのうち1回目にも取った豆は4個でした。これを計算式にぶち込むと、
27 x 24 / 4 = 162
となりました。これが再捕獲法による、豆の数の推定値です。
精度は?
気になる精度の方はと言いますと、全部の豆の数を数えたところ193個でした!31個の誤差があったので、31 / 193 = 16%の誤差でした。もうちょっと正確に出るのかな、と思いましたが、案外大きな誤差でした。
なんでこの計算で良いのか
求めたい数をNとして、1回目の捕獲数をn1、2回目の捕獲数をn2, 2回目の捕獲数のうち1回目も捕獲したマーク済みの数をXとします。1回目の捕獲が終わった後、湖にいるマーク済みの鯉の数の割合は
$$
P = \frac {n_1}{N}
$$
です。2回目の捕獲でマーク済みの鯉が含まれる割合は、
$$
p = \frac {X}{n_2}
$$
です。この時計算したpは、Pの割合の推定値になっているので、p = Pが(だいたい)成り立ちます。式を変形すると、
$$
\frac {X}{n_2} = \frac {n_1}{N}
\Rightarrow N = \frac {n_1 n_2}{X}
$$
で、最初の計算式になります。
もうちょっと複雑なケース
この手法は、1回目も2回目もランダムサンプリングできることなど、いくつかの前提条件を満たすことが必要なのですが、社会科学の分野ではうまく応用できないケースがあります。こちらの論文が、シェルターに宿泊に来たホームレスの数から、市内全体でのホームレスの数を推定するとか、DVでの逮捕歴のデータから、DVを受けている人の数を推定するとか、強制労働に従事させられている人の数を推定する、という問題を解決する手法を提案しています。
"Ratio Plot and Ratio Regression with Applications to Social and Medical Sciences"
この記事が気に入ったらサポートをしてみませんか?