決定木を使う理由と特徴

なぜかバギングを説明させられ、
説明した結果「何で決定木使うんですか?」
という自分の説明力が皆無だったこと知りちょっと落ち込みました
それ以前に、人に伝えられないのは理解できていないのでは?と不安になったので決定木を現地で簡単に説明できる分量でまとめてみました。(この投稿は内容が間違っていた時に投げられるまさかりを期待してたりします)

- 決定木を使う理由

決定木は教師あり学習の分類で行う手法の一つです。
決定木は説明変数を情報利得が最大化するように分類し、
バリアンスが高くなる(バリアンスは分散のことです)ことには目をつむってしっかり分類するために行います。(情報利得が最大化するように分ければ、結果を見たときにどうやって分けたか直感的に理解できます、このことから決定木は可読性が高いモデルであると言います。)

- 情報利得を最大化して説明変数を分類する理由

予測で分類を行うとき、分類をしたクラスには、求めたい値(説明変数)だけが入っている状態にしたいです。
そのためには、情報量が大きくなるような分け方が必要になります、この指標として使われるのがジニ係数やエントロピーです。

- 決定木の特徴
- メリット


1. モデルの可読性が高い(決定木の結果から予測した値をみて、どういう基準で分けたかを説明できる。)
2. モデル構築時の自由度が高い(学習させるときに人間がいろいろな設定ができる)
3. バイアスが低い(予測値の平均と実際の正解との誤差が小さい・偏りが小さい)


- デメリット


1. バリアンスが高い=(決定木の結果から予測した値と実際の正解とのズレが大きい)
2. 過学習しやすい(バイアスが低くなるからです)

アンサンブル学習のバギング(ランダムフォレスト)やブースティングは、
この決定木の可読性が高いという特徴を残したまま、
デメリットであるバリアンスを下げるために存在しています。

決定木の可視化結果からジニ係数くらい求めたほうが納得できると思ったんですが「以下のリンク先ににガッツリ書いてあるからそれ見て分からなかったら聞いて」でいいかななんて思ってます



この記事が気に入ったらサポートをしてみませんか?