見出し画像

トレイルランナーとスノーボードと筋肉痛から始まる“条件付き確率“

YEAR IN SPORT 2021

STRAVAアプリには、1年間を振り返る機能がある。
YEAR IN SPORT では、アクティビティの合計タイム、距離、標高、日数などを振り返ることができる。

スクショiPhone8+

これによると、アクティビティの70%がランニングだったことがわかる。続いてヨガの12%に、ウォーキングの8%、その他はサイクリング、スノーボード、ハイキングなんかが含まれる。アプリ内の表示が2020年なのは気のせいでしょう😷

カラダはランニング仕様?!

ウィンターシーズンがやってくると、ランニング < ウィンタースポーツ が成り立つ。
ここで、見出し画像の一枚。2022年1月1日に、今シーズン初めてのスノーボードに行ってきた。

STRAVAアプリより

ゴンドラ7回乗ったこともアプリで拾ってくれる。
ランニングばかりのカラダで、スノボをやるとどうなるか…

答えは、激しい筋肉痛。
車の乗降や玄関で靴の履き脱ぎすると、容赦なく襲ってくる激痛。

筋肉痛から始まる“条件付き確率“

翌日も筋肉痛
翌々日も筋肉痛

やれることといったら、アクティブレスト
初売りでウォーキング
初詣でウォーキング
そしたらあとは、データサイエンティスト検定の勉強するか…という流れ。

書籍「最短突破 データサイエンティスト検定(リテラシーレベル)公式リファレンスブック」が手元にないと伝わりにくいかもしれません。悪しからず…

「DS2条件付き確率の意味を説明できる」を説明できるようになろう。

条件付き確率とは「ある事象が起こる条件の下で、別の事象が起こる確率」
最短突破 データサイエンティスト検定(リテラシーレベル)公式リファレンスブック

例題として、遺伝子Bを持つ時に病気Aにかかる確率を計算してみましょう。というのが書いてある。
$${P(A{_1}|B{_1})={\cfrac{P(A{_1}{\cap}B{_1})}{P(B{_1})}}}$$ って定義式が与えられるのだが、この先でつまずく。
(正確にはこの定義式をnoteで表現するところでもかなりつまずいていますが、なんとか一歩進めました😅)

公式リファレンスブックに書かれている式には続きがある。
$${\cfrac{P(A{_1}{\cap}B{_1})}{P(B{_1})}}$$=$${\cfrac{\cfrac{750}{2000}}{\cfrac{1000}{2000}}}$$ 

分母はわかるよ。
$${P(B{_1})}$$ 
全体で2000人いて、遺伝子Bを持つ人が1000人。

分子の$${\cfrac{750}{2000}}$$とは???
定義式的には$${P(A{_1}{\cap}B{_1})}$$が与えられている。

公式リファレンスブックは、初心者、初学者にはハードル高し。
そもそも「$${A{_1}}$$かつ$${B{_1}}$$」が、$${\cfrac{750}{2000}}$$ とは???

ネットで「条件付き確率」で検索すると、“わかりやすく“とか、“基礎からの“とかのキーワードを含む検索結果が出てくる。
わかったような気になりますが、当てはめることができない。

そこで、高校2年生の息子に教えてもらうことにしました。
『公式を意識したことがない。図を書けばいいんだよ。』

ブルース・リーの”Don’t think, feel!”あるいはヨーダの”Use the force. Feel it.”が頭をよぎる。

$${P(A{\cap}B)}$$は理論積 intersection
$${P(A{\cup}B)}$$は理論和 union

出典:Head First Statistics ―頭とからだで覚える統計の基本

知っている人には説明がいらないが、知らない人には説明のしようがない

これは、「わかりやすい医学統計の報告-医学論文作成のためのガイドライン」の著者のひとりThomas A. Langの言葉。

条件付き確率に限らず、往々にして成立する名言だと思っている。

10年以上前に出版された書籍

結局、理論積ということで納得することにした。

2000人のうち遺伝子Bを持つ人が1000人います。
$${\cfrac{1000}{2000}}$$

この1000人のうち750人が病気Aにかかります。
$${\cfrac{750}{1000}}$$

で、これらの理論積が $${{\cfrac{1000}{2000}}{\times}{\cfrac{750}{1000}}}$$ となって

こうゆう $${\cfrac{750}{2000}}$$ に落ち着くということですね。

筋肉痛になってなかったら、ここまで辿り着けてない。
ありがとう 筋肉痛

でも、実業務で例題と同じ場面に出くわしたら…
エクセルなんかに2000人分のデータがあって
フィルタリングで遺伝子Bの人に絞ってデータの個数は1000
さらに病気Aにかかる人に絞ってデータの個数は750
遺伝子Bを持つ時に病気Aにかかる確率は、 $${\cfrac{750}{1000}}$$ ってなるでしょう。

定義式いらない
Don’t think, feel!
 Use the force. Feel it.

あっ!! そうそう。息子は独立なのか従属なのか言ってたな。
この場合は独立だ。
遺伝子Bと病気Aは”医学的”に付随する関係性にあっても、”条件付き確率”的には独立してる。

従属の話は公式リファレンスブックのDS2には登場しないのでここでは触れないことにする。

本日のまとめ
「知っている人には説明がいらないが、知らない人には説明のしようがない」

この記事が気に入ったらサポートをしてみませんか?