Aegis in the Dark

宇宙物理学研究者・データ科学研究者。 フランス在住時にワイン好きに。 世界史、科学史、…

Aegis in the Dark

宇宙物理学研究者・データ科学研究者。 フランス在住時にワイン好きに。 世界史、科学史、民俗にも興味有。

最近の記事

統計学: 統計的推定と必要な標本数の決定(二項分布の場合)

前記事から続けて、二項分布で考えてみましょう。二項分布で出てくる確率pは母比率と呼ばれます。母比率pをデータから統計的に推定することを考えましょう。必要な精度の話をしたいので、区間推定を想定します。成功確率がpである試行をn回行うときに成功する回数をkとすると、前記事の通りkは二項分布 に従います。 二項分布のkの期待値E(k)と分散V(k)はそれぞれ となることを思い出しましょう。ここで、古典統計学で最も重要な、そして魔法のような定理である「中心極限定理」が登場します

    • 統計学: 0か1かの話(二項分布入門)

      昨今の世相を反映してか、0か1か、あるいは0か100かという議論(往々にして口論)をよく目にするようになりました。ここでは0か1かに規格化して話をしますが、白か黒か、正か負かでも基本的に同じ話です。 細かいことを考えないと、0か1かと言われたらどちらも同様に確からしいと思いがちな人が多いようです。しかし、こういう2者択一の問題には、ひとつ明示的になっていない重要な数値が隠れています。それが2つの選択肢の生じる確率で、0か1かと言った時点では50-50だとは誰も言っていないわ

      • 統計学: 相関係数の意味と限界

        データの相関という言葉も頻繁に目にするようになった。 データ間の関連性を検証するときによく用いるのが相関係数(正確にはピアソンの積率相関係数 Pearson's product-moment correlation coefficient)という量だ。定義などはWikipediaに丸投げしよう。 この統計量は、線型関係を持つ(つまり散布図にすると直線的関係を持つ)2つのデータ間の関連性の強さを定量的に示すための指標である。この定義を見失っている例が散見するが、そういう失敗

        • 統計学: 検定の基本的考え方

          統計的検定という結構難解な概念が日常に侵入したこの3年半。だた、大多数の人がそもそも定義すら理解していない状況は変わらない。ここでは統計学で仮説の確からしさを評価するための方法である「検定」について、考え方に重点を置いて書いてみる。 統計的検定のためにはまず、一つの仮説(仮説1としよう)を立てる。手元にデータがあるとき、仮説1が成り立って「いない」ときにそのデータが得られる確率を考える。つまり、仮説1は正しくないのに、あたかも仮説1が成り立つかのように見える偶然がどのくらい

        統計学: 統計的推定と必要な標本数の決定(二項分布の場合)