見出し画像

【統計理論を根本から理解しよう】 統計の"お気持ち"について考える①

はじめに

どうも、スミスです。
気づけば2020年も終わりを迎えようとしていますね。
例年以上に実感が湧きません。

さて、突然ですが、統計学の"お気持ち"について考えたことはありますか?
そもそも、統計学の"お気持ち"ってなんでしょうか?
ここでは、統計のお気持ち=「歴史学や哲学的背景に基づく統計学の考え方」とでもしておきます。
このような統計の"お気持ち"をきちんと整理することってあまりないのかなと思います。

なぜこれを書こうと思ったか。いわゆる「データ分析」が解き明かそうとしているのはビジネス課題であり、リサーチ課題であり、その道具としての統計学が、目の前の課題をどのような考え方で表現しようとしているのかについて整理することで、有用なデータ分析の第一歩となると実感しているからです。人間関係の中で、関わる人のバックグラウンドをもとに最適なコミュニケーションをとるように、統計学もその背景をもってより正しくそして幅広く使うことができると考えるからです。

※今回私が取り上げる内容は、個人の見解であり、解釈を間違えていたり、そもそもよりどころとする考え方がズレていたりなど多々あるかと思います。私自身も勉強中の身ゆえ、異論・反論・その他ご指摘等ぜひコメントください。基本的に間違ったことを残していることはよろしくないと思いますので、記事の内容はいただいたコメントや私自身の勉強に応じて都度修正していく所存です。

※ここではあくまで「統計学が持つものの見方や捉え方(=パラダイム)」について述べるのであり、統計の専門知識(統計用語理解や指数型分布族の性質etc)についての解説はしません。ご了承ください。

参考書籍

1. 現代統計学のパラダイム

今回は、「統計学」における最も根本的なフレームを歴史的・哲学的背景にも触れながら整理し、統計において用いられる様々な要素がどのような考え方で成立しているのかについてまとめていきます。

はじめに、「統計学(statistics)」について定義しておきます。統計学とは、「数字や数学を用いてデータをまとめ、それに基づき推論する」学問です。そして今回考える「統計学」は、記述統計と推測統計の2つとします。そして、これらの総称としての統計学は、その英語名称にも現れている通り、国家(states)の勃興と深い関わりがあるのです。

記述統計の"お気持ち" 〜実証主義と統計学〜

記述統計の考え方が確率した背景には、18〜19世紀ヨーロッパの時代潮流があります。この時代は、市民革命の勃発、産業革命などにより、資本主義に基づく近代国家が誕生した時期でありました。中央集権的国家体制は、国内のあらゆる情報を集め、数字として報告することを促しました。同時に、科学の研究体制も社会システムの一部として組み込まれることとなりました。こうして、為政者たちに報告される数字を適切に要約し、真に必要な情報を抽出する必要が生じました。さらに、「社会制度」として確立されたこの時代の科学には、実証主義的役割、すなわち、真実を現実の経験や観測に基づいて可能な限り完全な形で要約し、記述することが求められたのです。従って、大量の観測されたデータを人が把握しやすい「統計量」という形で示し、単なる数字の羅列からは見えなかったデータの関係性を表現する記述統計が価値を持ったのでした。

実証主義の限界と帰納推論

こうした、経験や事実に基づく以外のものを認めない実証主義に、大きな限界を突きつける考え方が登場します。それが、自然の斉一性帰納推論です。我々は日常的に、自然を過去、未来を通して同じように働くものと捉えており(自然の斉一性)、その仮定から生じる未来の状態を推察しています(帰納推論)。例えば、「正午ごろの食堂は混むから席を取るのは難しいだろう」みたいに。これは、「正午=人が皆お昼ご飯を食べる時間」という、ある種常識として植え付けられている前提であり、この前提が過去も未来も変わらないことを自然に仮定した上で、そこから予測される状態として、「混雑する」と「席を取るのが難しい」という推測が生じているのです。複雑なことを話しましたが、要は、自然の斉一性と帰納推論は、我々にとってものすごく日常的な思考活動だということです。さらに、科学に期待される役割も変化してきました。「現象を事実に基づいて要約することも必要であるが、科学に期待するものとしては乏しい」とする考え方が現れ、「現在観測される状況からその背後の観測できない状態や未来の状態を予測する」ことが期待されるようになってきたのです。従って、実証主義における科学の考え方は、このような日常的思考活動を認めない意味でも、科学に期待される役割においても必要十分とは言えない、ということになってきたのです。

推測統計

こうした流れを受けて、記述統計を超えて帰納推論を実現する枠組みとして登場したのが推測統計になります。推測統計では、データ(観測された事実)に対し、背後に確率分布(自然の斉一性)を仮定することで、母集団(データという「標本」として一部的にしか観測されない「世界」の全体)の状態を推測します。この、母集団の状態を表すのが確率モデルであり、その確率モデルを規定する指標として期待値(母平均や母分散など)があります。この確率モデルによって、データの背後にある「世界」を近似して表現しようとしているのが、推測統計というわけです。
推測統計の全体像とそこに存在する仮定・性質、構成要素をまとめます(下図)。

画像1

ここで事実として存在するのは、観測されたデータ(観測値)のみです。記述統計では、上図に見られる観測値以外の存在を認めません。一方、推測統計では、観測値は母集団から切り出された(サンプリングされた)「世界」の一部であるとされています。
推測統計で「世界」の状態を掴むことを可能にするのが、次の2つになります。1つは、サンプリングにおいて、それぞれのデータは独立同一分布に従うという仮定です。これは、データが示す「世界」において斉一性を保つための条件といえます。もう1つは、大数の法則と中心極限定理です。これらの性質により、データから真なる「世界」を要約することの妥当性が生まれます。

まとめ:統計学の世界観

今回は、歴史的・哲学的背景をベースに統計が持つ”お気持ち”を整理してきました。記述統計は、データに基づき観測された事象を要約することであり、事実や経験の域を超えた議論を認めない考え方がベースとなっています。これは例えば、「相関係数」における、あくまでAとBが同時に変化しているということであり、AとBに存在する因果関係を表現するものではない、という考え方のベースと捉えることができるでしょう。
推測統計は、観測された事実の背後にはその全貌としての「世界」があるという前提のもと、その「世界」を推測するために様々な数学的性質を導入していることが見てとれるかと思います。上で述べた全体像から、実際に推論していくにあたり「どの構成要素をどのように捉えるか」の違いから、ベイズ統計・古典統計・モデル選択といったアプローチの違いが派生する、ということになります。こうした推測統計の世界観を学ぶことで、推測統計を現実課題に適用する際、どの要素をどういう数学的性質・仮定で表現できるか、を整理できることになるでしょう。

今回は以上になります。
それではまた。

この記事が気に入ったらサポートをしてみませんか?