特徴量とは

特徴量とは、説明変数のこと

特徴量の作成

与えられたデータや外部データを加工し、予測の手がかりになる新たな特徴を作ること

1.基本統計量を作る
 例1)AとBの値から「AとBの平均」を算出

2.データを集約する
 例)年齢「23, 31, 18, ...」から、年齢層「20代, 30代, 10代, ...」を算出

特徴量の選択

・特徴量は多すぎてもよくない。
 -過学習のリスク
 -不要なものが入ると精度が下がる

・数ある特徴量から重要なものだけ選択すること
 例)
 単変量解析:
  目的変数と説明変数を1:1で確認し、取捨選択
  (分散分析、など)

 モデルベース選択:
  モデルにとっての各変数の重要度を算出し、取捨選択
  (ツリー系機械学習手法の重要度をみてみる、など)

 反復選択
  特徴量を増減させながらモデルを生成し、良い特徴量を探索
  (ステップワイズ法、など)

精度を上げるための特徴量を検討する

これまでは、
・学習データ(説明変数、目的変数)からモデルを作り、
・そのモデルに評価データ(説明変数)を当て込み予測値(目的値)を算出
していた。

特徴量を検討するために以下を実施する。

1.上記モデルに訓練データ(説明変数)を当て込み予測値(目的変数)を算出
2.訓練データであれば目的変数の実績値がわかっているので、実績値と予測値の差分を取得(=実績値 - 予測値)
3.その差分から、予測値が大きく外れているものをみて共通点を探し、その要素を特徴量(説明変数)として新しく追加する


参考:【ゼロから始めるデータ分析】 ビジネスケースで学ぶPythonデータサイエンス入門
https://www.udemy.com/course/optworks_1/