特徴量の重要度

2019年3月6日 14:36

scikit-learnのデフォルトで付いてくるランダム木の特徴量解析はあてにならないことが知られている。代わりになる手法として、特徴量を表す列をランダムな順に並べ替えて、評価値の差を見ることによる方法(permutation method)がある。自分で実装しても簡単だが、可視化付きでやってくれるパッケージがある。

https://github.com/parrt/random-forest-importances

graphvizとrfmimpをインストールする。

!sudo apt install graphviz
!pip install rfpimp

例題は演習で最初につかう広告の効果の回帰分析だ。データを読んでおく。

import pandas as pd
data = pd.read_csv('http://logopt.com/data/Advertising.csv', index_col =0)
X = data[['TV', 'Radio', 'Newspaper']]
y = data['Sales']
X.head()

>>>
TV Radio Newspaper
1 230.1 37.8 69.2
2 44.5 39.3 45.1
3 17.2 45.9 69.3
4 151.5 41.3 58.5
5 180.8 10.8 58.4

モジュール読み込み。

from rfpimp import *
from sklearn.ensemble import RandomForestRegressor

可視化する。

rf = RandomForestRrgressor(n_estimators=100,
min_samples_leaf=5,
n_jobs=-1,
oob_score=True)
rf.fit(X, y)

imp = importances(rf, X, y, n_samples=-1)
viz = plot_importances(imp)
viz.view()

とまあこれだけだ。冒頭のような絵が描画され、テレビが重要で、次いでラジオ、新聞は効かないことがわかる。

この記事が気に入ったらサポートをしてみませんか？