「ベイズ統計は主観確率を扱っている」というあまりにも無意味すぎる主張について

 統計学について数学を専門とする者以外の人間が何か強い主張をしていたら最大限に警戒すべきだということは多くの人が経験的に知っているはずだが、ちょっと見ていられないような酷いツイートがあったので言及しようと思う(計量経済学の論文には数学的誤りのノルマでもあるのだろうかと思ってしまうくらいに酷いものばかり読んできたので、経済学者に対する個人的な偏見や悪印象もかなり手伝ってしまっているが)。これはデマですねなどと言いながら少し考えればわかるような無意味な主張をばら撒く様子は滑稽極まりない。

 ツイッターでも述べた通り、「ベイズ統計は主観確率を扱う」だとか「事前分布は主観分布」だとかそういった主張は完全に無意味だ。これは現代において確率の扱いが変わってプラグマティックに統計学が運用されるようになったからだとかそういう理由ではなく、統計学という「科学」を扱うにあたって当たり前に考えなければならないことが考えられていないからである。あたかも哲学と数学(または漸近理論を用いた脱主義的な統計学)の間の対立が生じているかのように宣伝している者がそこそこいるが、そんなレイヤーにおける対立など一切生じていない。ただ、概念を適切に扱えない人とそうでない人の間に対立があるだけなのだ。


 冒頭のツイートのような主張をする人々の中で「主観」により決定されるとされているのは「事前分布」である。事前分布とは尤度モデル内におけるパラメータの分布であり、ベイズ統計を利用する分析者によって設定されるものだ。この事前分布の設定が分析者依存であるから分布の選択は「主観」に基づいている、というのがオーソドックスな「ベイズ=主観確率」論者の主張である。

 まともにモデリングというものをしたことのある人ならピンときたはずだが、これは「醤油には味がついている、だから醤油の特徴は味がついていることである」と言っているようなものである。味という"より広いカテゴリ"を、包含されているほうの醤油の説明に用いてもまったく意味はない。調味料として用いられるものは基本的に味がついている。データに対してモデリングを行うとき、後で何らかの手法によって調整するにせよ最初は「主観」によっていずれかのモデルを選択しなければならない(もしもベイズ統計における分布の選択を「主観」と呼ぶのであれば!)。尤度モデルを正規分布にするかどうか、目的変数を重回帰でモデリングするか、等々、少なくとも僕の知っている限りではあらゆるモデリングにおいてモデルは「主観」に基づいて設定され、その後に諸々の統計的手続きを経てより適切なもの(=より「客観的」なもの)へと更新・近似される。最尤法では「客観」に基づいて尤度を設定しているなどと主張する者がもしいれば、それは科学的にまったく取り合う必要のない異常な主張であると言うほかない。データが有限である以上、事前分布だろうと尤度だろうと分布の設定は「主観」に基づいている。醤油だろうと酢だろうと、味がついているのと同様に。

 よって、殊更にベイズ統計、しかもわざわざ事前分布を取り上げて「主観」という言葉で説明することにまったく意味はないのだ。少なくとも主観確率vs客観確率という枠組みのもとでベイズ主義と頻度主義という対立は存在せず、プラグマティックに考えるまでもなくこれらに違いはない。存在するのはこれらふたつの主義の対立ではなく、データに対する初期値としてのモデリングの無根拠さを「主観」という言葉を用いて表すかという言葉の使用法の好みだけだ。ベイズ統計に限らずあらゆる統計手法を「主観」と呼ぶか、いずれの統計手法にも「主観」という言葉を使わないか、そのどちらかなのである。ベイズ統計と他の手法で分けて考えることが、そもそも主義や思想以前の問題として、成り立ち得ないような考えなのだ。

 informative だから「主観」に基づいているというのもあまりに支離滅裂である。informative であるとされている分布を決定するのは過去データやそれに基づいたモデリングによる情報である。これは(少なくともベイズモデリングの個別の問題設定としては)基本的に分析者個人とは独立に存在するものであるし、非ベイズにおけるモデリングの意味(データから「だいたいこれだろう」と当たりをつけて初期値としてのモデルを定めること、またはその初期モデルを統計的手続きによってより適切なものに近づけること)で「主観」という言葉を使うのであれば、この「主観」度合いは非ベイズにおけるデータのモデリングとまったく違いはないだろう。


 上記の「主観」概念は(最も好意的に解釈すれば)データに対する初期値としてのモデリングの無根拠さを指すものだが、そもそも「主観確率」とはそのような意味の言葉ではない。「主観確率」とは、人間の主観とは独立して外在的に「確率」概念が存在することを前提とした「客観確率」に対し、① 客観確率を前提とした場合の人間の主観に基づいた信念の度合い ② 客観確率を認めない場合の(内在的にしか存在しえない)確率 のいずれかを表す(データをモデリングするという場面においてはベイズでも非ベイズでも、① においても ② においても「主観確率」を扱うことになる)。「主観確率」概念を ①(外在主義内における内在的確率)と ②(内在主義における確率そのもの)のどちらに置くかという主義の対立はあってけっこうだし、これは十分に面白い問題だ。であるにもかかわらず、ベイズ統計における一部の人々の混乱した「主観」解釈によって膨大なノイズが混入し、「確率とは何か」といった豊かな哲学的議論のサーベイを妨げている。なんと嘆かわしいことか。一日も早く、「統計の哲学」が本来の豊潤な哲学的議論のもとへと奪還されることを願うばかりである。

この記事が気に入ったらサポートをしてみませんか?