見出し画像

9/13 学んだこと

重回帰分析とラッソ回帰&リッジ回帰の違い

両方とも同じことは、予測値と目的変数の二重誤差を最小にするように回帰係数を推定すること。

ラッソ回帰&リッジ回帰はそれに加えて、その回帰係数自体を小さくするように推定する。回帰係数が大きい状態っていうのは、少しのインプットでaプットが大きく変わってしまうっていう状態のこと。データ分析においてこれは避けるべきだよね。っていう。


決定木の内容理解

説明変数の中でどれが目的変数の値を正しく推定できるかを考えてくれるもの。

以下の説明に、エントロピーという概念を用いる。エントロピーとは不純度のこと。エントロピーが高いとは不純度が高いということ。わかりやすくいうと、「この部屋のエントロピーが高い」というのは、「この部屋の不純度が高い」=「この部屋は散らかっているということ」である。以下に説明するエントロピーとは、あるものを確信してどちらかに振り分けることができるかという意味である。

以下には決定木の説明を示す。

あるキノコが「美味しいキノコ」か「毒キノコ」かを見極める時に、「キノコの色」「キノコの形」「キノコの採れた場所」「キノコの匂い」を説明変数と仮定しよう。

ここでいうエントロピー (0<=x<=1)とは、あるキノコが「美味しいキノコ」か「毒キノコ」かを見極める確信度合いである。上位の4つの説明変数のどれがエントロピーxの値をゼロに近づけてくれる(情報利得が高いとも言う)値がどれかを探してくれるのが決定木である。

つまり、決定木とは、説明変数が複数ある前提で、説明変数のどの値が目的変数の値を大きく変えるかを見つけてくれるものである。

↑これ、スプラコンペに使えそうです。スプラコンペにおいて情報利得が 高そうなものが自分のドメイン知識から何個か想定しているからです。今度やってみよう。


終わりに

一応こんな理解しているのですが、間違いがありそうなので、その場合はなんらかの形で伝えていただけると嬉しいです。

データ分析、エンジニアリング的な能力の他に、統計力も求められていて、どっちもないのがちょっと辛いです。頑張ろうって思います。

そういえば、最近新聞でみたんですが、気の抜けた炭酸水のことを flat sodaって言うみたいですね。勉強になりました。

この記事が気に入ったらサポートをしてみませんか?