見出し画像

「統計学を哲学する」ことでデータサイエンスの足下を見つめ直す

先日,本書「統計学を哲学する」を執筆された大塚先生の講演を聴く機会に恵まれた.京大のある集まりでのことだ.本書の内容をかいつまんで話されたが,理解するのは大変だった.

統計学を哲学する
大塚淳,名古屋大学出版会,2020

本書の目的は「データ解析に携わる人にちょっとだけ哲学者になり,また哲学的思索を行う人にちょっとだけデータサイエンティストになってもらう」ことだと書かれている.

この目的を達するために,本書では,ベイズ統計,古典統計,モデル選択,機械学習,因果推論などの統計学における様々な手法を,存在論と意味論と認識論という3つの哲学的視点から考察している.主観主義対頻度主義という統計学界では古典的な話題から,深層学習はどのように解釈されうるかという新しい話題まで含まれており,データを解析する,何かを目的としたモデルを構築する,予測する,因果推論するといった行為が,実はどのような基盤を持つものであるのかを知らしめてくれる.いや,いかに曖昧な理解しかせずに道具を使っていたかを反省させてもくれる.

データサイエンスや機械学習を,学校で,あるいは独学で,学んでいる人は多いと思うが,是非,本書にも挑戦してもらいたいと思う.かなり難しいし,いきなり全部を理解できるとは思わないが,勉強していることの基盤を見つめ直すことができる.そうすることで,より強固な基盤の上に,自分の勉強や研究や実践を積み重ねていけるだろう.

統計学の存在論では,統計学において,何が所与として与えられており,何が仮定されなければならないのか,といった推論や説明のための素材についての前提が考察されている.もちろん,最も基礎的な存在物はデータである.記述統計は,所与のデータのみに基づき,そのデータの特徴をわかりやすい形式で取り出す.しかし,記述統計は未観測の事象については何も語らない.一歩進んで帰納推論を行うためには,データのもととなっているような存在,すなわちヒュームが自然の斉一性と呼んだものを仮定しなければならない.このような世界の在り方を数理的にモデル化したものが確率モデルであり,推測統計は確率モデルとデータの二元論を採用している.さらに,因果推論は因果モデルというより深い層の導入を要求する.それだけ因果推論は深く,可能な推論の幅も広いが,データからの推論は難しくもなる.

統計学の意味論では,統計学が生み出すモデルが,その対象とは異なる抽象的存在物であることを踏まえて,そのモデルから導き出される結論が現実世界でどのような意味を持つのかを問う.その範疇には,確率モデルの意味論に関する問題があり,主観主義と頻度主義の対立はまさにこの問題に関するものである.また,意味論的な問いは因果モデルについても向けられるとした上で,「因果関係は長らく謎に包まれた概念であった.この根底にあるのは,そもそも『XはYの原因である』というような因果命題が,一体何を意味しているのかよくわからない,という意味論的問題である」と書かれている.そこまで戻りますか.そこまで分からないことにしてしまいますか.やはり哲学だなと思わずにはいられない.

統計学の認識論では,統計学に基づいて為される統計的推論の結果はどのような意味において正当化されるのか,予測や仮説の成否を判断する根拠はどこにあるのかが議論される.例えば,ベイズ統計は信念間の整合性を重視する内在主義的認識論に立ち,検定理論は信念形成のプロセスの信頼性を重視する外在主義的認識論に立つとされる.このように位置づけることによって,どのように正当性が検証されなければならないかが明らかになる.

本書を読みこなすのは難しいだろうが,データ解析をするときの視野を広げてくれ,その基盤を明らかにしてくれるので,データサイエンスティストやその志望者は読んでみるといいと思う.

© 2021 Manabu KANO.

この記事が気に入ったらサポートをしてみませんか?