特徴量とは

2020年5月3日 17:25

特徴量とは、説明変数のこと

特徴量の作成

与えられたデータや外部データを加工し、予測の手がかりになる新たな特徴を作ること

1．基本統計量を作る
　例1）AとBの値から「AとBの平均」を算出

2．データを集約する
　例）年齢「23, 31, 18, ...」から、年齢層「20代, 30代, 10代, ...」を算出

特徴量の選択

・特徴量は多すぎてもよくない。
　－過学習のリスク
　－不要なものが入ると精度が下がる

・数ある特徴量から重要なものだけ選択すること
　例）
　単変量解析：
　　目的変数と説明変数を１：１で確認し、取捨選択
　　（分散分析、など）

　モデルベース選択：
　　モデルにとっての各変数の重要度を算出し、取捨選択
　　（ツリー系機械学習手法の重要度をみてみる、など）

　反復選択
　　特徴量を増減させながらモデルを生成し、良い特徴量を探索
　　（ステップワイズ法、など）

精度を上げるための特徴量を検討する

これまでは、
・学習データ（説明変数、目的変数）からモデルを作り、
・そのモデルに評価データ（説明変数）を当て込み予測値(目的値)を算出
していた。

特徴量を検討するために以下を実施する。

1．上記モデルに訓練データ（説明変数）を当て込み予測値(目的変数)を算出
2．訓練データであれば目的変数の実績値がわかっているので、実績値と予測値の差分を取得（=実績値 - 予測値）
3．その差分から、予測値が大きく外れているものをみて共通点を探し、その要素を特徴量（説明変数）として新しく追加する

参考：【ゼロから始めるデータ分析】ビジネスケースで学ぶPythonデータサイエンス入門
https://www.udemy.com/course/optworks_1/