特徴量とは
特徴量とは、説明変数のこと
特徴量の作成
与えられたデータや外部データを加工し、予測の手がかりになる新たな特徴を作ること
1.基本統計量を作る
例1)AとBの値から「AとBの平均」を算出
2.データを集約する
例)年齢「23, 31, 18, ...」から、年齢層「20代, 30代, 10代, ...」を算出
特徴量の選択
・特徴量は多すぎてもよくない。
-過学習のリスク
-不要なものが入ると精度が下がる
・数ある特徴量から重要なものだけ選択すること
例)
単変量解析:
目的変数と説明変数を1:1で確認し、取捨選択
(分散分析、など)
モデルベース選択:
モデルにとっての各変数の重要度を算出し、取捨選択
(ツリー系機械学習手法の重要度をみてみる、など)
反復選択
特徴量を増減させながらモデルを生成し、良い特徴量を探索
(ステップワイズ法、など)
精度を上げるための特徴量を検討する
これまでは、
・学習データ(説明変数、目的変数)からモデルを作り、
・そのモデルに評価データ(説明変数)を当て込み予測値(目的値)を算出
していた。
特徴量を検討するために以下を実施する。
1.上記モデルに訓練データ(説明変数)を当て込み予測値(目的変数)を算出
2.訓練データであれば目的変数の実績値がわかっているので、実績値と予測値の差分を取得(=実績値 - 予測値)
3.その差分から、予測値が大きく外れているものをみて共通点を探し、その要素を特徴量(説明変数)として新しく追加する
参考:【ゼロから始めるデータ分析】 ビジネスケースで学ぶPythonデータサイエンス入門
https://www.udemy.com/course/optworks_1/