統計学・機械学習で重要なモデルの話

2018年4月23日 19:43

統計解析や機械学習では、さまざまなモデルが利用されています。

線形回帰では、測定誤差が正規分布に従っていることが仮定されることが多く、この場合のモデルは、Y=aX+εといった多項式の形になっています。

一般的なモデルの形として考えられるのは、

Y=f(X)+ε

のようなモデルです。ここに、Yは被説明変数で、Xは説明変数、εは測定誤差を表しています。

f(X)は、Yを説明するためのXを用いた関数です。上の線形回帰の場合、f(X)=aXとなります。

測定誤差とは、データを取得するときに発生する誤差で、基本的には正規分布に従っていると言われています。

おそらく統計学・機械学習で出てくる、あるいは作られるモデルのほとんどすべてが上のY=f(X)+εの形になっています。

そのため、一般形であるこのモデルのf(・)を求めるための良い方法があればいいわけですが、現実には上手くいかない場合がほとんどです。

一般形のモデルで当てはめるタイプの分析もないわけではなく、ランダムフォレストやディープラーニングは一般形に当てはめていると考えることもできます。

しかし、上記の方法で分析を行うとXからYを推測するのは上手くできるけれど、何の変数が効いてくるのかがわからない事態に陥ることが多いですし、何より理論が難しいので、いきなり一般形のモデルで推測するのは厳しいと思います。

より簡単なところから始めるという意味で、f(・)を先に決めておくという方法があります。

線形回帰の場合では、Y=aX+εというモデルをあらかじめ仮定してあげることで、aというパラメータを推測することができるというわけです。

このように推測に必要なパラメータをあらかじめ仮定しておくモデルのことを、パラメトリックモデルといいます。

パラメトリックモデルは、パラメータを決めることでモデルがどのような分布に従っているかを決めているともいえるので、分布を仮定するモデルと考えても良いかもしれません。

パラメトリックモデルの利点は２つあります。１つ目はモデルが簡単になるということ。２つ目は標本数に依存しないということです。

１つ目の利点についてはこれまでも見てきた通りです。

推測すべきパラメータが決まっているので、そのパラメータをどのように推測すればよいかという問題に集中することができます。

いくつかの仮定を与えることで数学的に問題を解くことが可能なので、理論的な正しさを求めるのが非常に簡単になります。

統計学の基礎的な本でランダムフォレストなどのパラメトリックでない手法があまり書いておらず、パラメトリックな分析(線形回帰やロジスティック回帰など)から入るのは、内容的にも簡単なのと、数学的にわかりやすいからなのかなと思っています。

２つ目の利点である、標本数に依存しないというのは、あまりピンとこないかもしれません。

標本数というのは、XとYのペアの観測値の数です。どんな手法も標本数が多いほど精度が高くなるわけですが、最低ラインが変わってきます。

パラメトリックモデルの場合、パラメータの推測に近似を用いることがほぼないので、標本数が少なくても上手くいくケースが多いです。

しかし、パラメトリックでないモデルでは、標本数による近似が利用される場合がほとんどなので、ある程度標本数が必要になります。

データをいくらでも集められればいいのですが、そんな状況はほとんどないわけで、治験などの場合では20～30人が普通なのではないでしょうか。

そういった、データ数が少ない場合でもある程度機能するというのは、データ分析をするうえで重要なんじゃないかなと思っています。

このように、利点だらけに思えるパラメトリックモデルですが、もちろん欠点もあります。

一番は、モデルがデータに当てはまらないケースがあることではないでしょうか。

パラメトリックモデルでは、パラメータや分布を仮定するので、データがどの分布に従っているのかをあらかじめ知っておく必要があります。

例えば指数分布に従っているはずのデータに対して、正規分布に使うべき手法を使ってしまうと、当てはまりが悪くなります。

どんな分布に従っているかを知るためには、それなりの数のデータが必要になってしまうので、少ないデータ数でも上手く分析できるというパラメトリックモデルの利点をつぶしてしまいます。

そのため、とりあえずやってみてあまり当てはまっていなかったら別の手法を試してみるっていうのも一つの手ではあります。多重性の問題とか出てきそうですが。。

本当はノンパラメトリック分析や中間であるセミパラメトリック分析についても書こうと思ったのですが、長くなってきたので次回に回します。

今回書きたかったのは、統計学に基づく分析では、どんなモデルを仮定するかが重要であるってことです。

パラメトリックモデルは統計モデルの基礎なので、ここが分かるとノンパラやセミパラについても分かってくるんじゃないかなあと思っています。

ではまた～

最後まで読んでいただきありがとうございました！サポートしてくれると非常に嬉しく、noteを書くモチベーションになります。