見出し画像

条件付き独立とは

先日、今年目標にしていた統計検定準1級合格することができました。
合格できたのは100%、毎週すうがくぶんかの先生たちが見捨てることなく教えてくれたからです。複雑な(私から見るとですが、)数式でポカーンとするたびに翻訳してくれるというか、何とか私でもイメージできるように説明してくれ、内容を理解できるようにしてくれたからだと思っています。

自分が特にそうなのかもしれませんが、まずふわっと全体のイメージと特徴的なところをつかむと全体の理解が進みやすいなぁと思っています。

そんなわけで、勉強をしてきたことを少しずつアウトプットしていこうかなと思いまして、今日はその第1弾。

条件付き独立というものです。


はじめに

これは、統計検定準1級の1問目でいきなり出てきた確率の計算問題でした。準一級では条件付き独立の説明を問題でしてくれているのですが、いまいち理解(イメージ)ができていないなと感じたので、ちょっと整理のためにまとめておきます。

ちなみに、このサイトが分かりやすかったです。
(時間のない方はこのページだけをサクッとみるとよいかと。)

自分なりに整理するために、あえてもう一回書き残します。

前提となる独立、条件付き確率

まず、前提の知識として独立と条件付き確率を整理します。

独立とは A、Bという事象がそれぞれに影響しあわないときで、

P(A 、B) =P(A)*P(B)で計算できるとき。

具体的に言うと、サイコロを続けて2回振るときに、1回目2が出て、2回目4が出る確率みたいなやつです。1回目のサイコロの出目によって2回目の出目が影響することはないので、それぞれの確率1/6 を掛け合わせた1/36が確立となります。

次に条件付確率とは、ある条件が起きたときにさらに別ことが起きることでP(A|B)と書いたりします。ここも具体例上げると、サイコロで奇数が出たとき(条件 B)、それが1である確率(A) などで

P(A|B)=P(A and B)/ P(B)と計算できるので、(1/6)/(1/2)=1/3

$$
P_B(A) = \dfrac{P(A \cap B)}{P(B)}
$$

(サイコロ1,3,5のなかで1が出る確率なので直感的に1/3とわかるかとおもいます。)

以上を踏まえたうえで

P(A 、B | C) Cという条件でAとBが起きるとき AとBが独立になるということです。

上のページが分かりやすかったのは、この逆を最初に考えていてくれたところです。

条件が付いたときに独立でなくなる

独立だったのものが、条件を加えることで独立じゃなくなる。これは非常にイメージしやすいかなと。

たとえば、先ほどのページにもありましたが、

条件Cをサイコロの目の和が偶数になるとき

A 1回目のサイコロが1となる確率だった場合、 Bは奇数以外の選択肢はなくなります。ここで、独立が崩れるわけです。

このように、雰囲気的には、条件が追加される=制約条件が増えるので、とりうる選択肢が減るので、独立とは程遠くなっていきそう堕とは思いませんんか?

悪魔の実をたべると、泳げなくなる的な感じです。では条件が付くことで独立するとはどういうことなのかというと、

実はここからが本題 条件付き独立とは

先ほどリンクを掲載したページに書いてあった

身長と英単語の知っている数という例ですが、これらは一般的にある年齢までは年齢が大きくなるほど身長も伸び、英単語を知っている数も増えるので独立の関係ではなくなりそうです。ここで仮に、17歳という条件を付けくわえると、たしかに身長と英単語の知っている数は先ほどよりも独立の状態になりそうです。

他の例を考えてみます。

最初に思いついのは、生まれたときの赤ちゃんの体重と5年後の身長。人間と馬とかイルカとかそんなのをイメージしています。ここに『人間である』っていう条件追加すると、独立な関係になるかもなんて思いました。他の動物は成長早かったりしますしね。

なんて冗談はさておき、どんな例があるのかと考えると、この考え方って実はABテストの条件設定と一緒なのではと思ったわけです。

ABテストをするときにテスト群とコントロール群の条件が違い、テスト群だけより利用意向の高いユーザーにのみ発生する条件とかが付いてしまうことありませんか。その際にはコントロール群も同様の条件に絞る必要があったりするわけです。

つまり条件を付き独立ということは、二つの事象に影響を与えそうなものを、事前条件として最初から決めてしまうことでお互いが独立的な状態(若干乱暴かもしれませんが、平等化)にすることといえるのかなと自分の中で整理しました。

このABテストする際に気を付けている条件の確認が、実は条件付き独立のイメージに非常に近いのではないかと考えさせる問題だったとすると、1問目見にこれを持ってきた、統計検定やるな、と終わって一週間後くらいにこの解けなかった問題を考えながら、一人でニヤリとしていました。

ちなみに、統計検定の問題はこれとは全然関係なく計算問題なのですが、いろいろ答えを考えていた結果、多分、自分の選択した答えは間違っていたなぁと考えています。やはり、イメージを持っておくことが大事だったなぁと感じた印象でした。

ここまで読んでいただきありがとうございます。 スキを押していただけると嬉しいです。 フォローしていただけるとさらにうれしいです。