モデリングの流れ

1.説明変数を決め、データを準備する

・どのデータを使ってモデルを作るか決める
・欠損がある場合は前処理
・学習データからは、説明変数と目的変数を取り出す
・評価データからは、説明変数のみを取り出す
・学習データと評価データから取り出す説明変数は同じであること

学習データと評価データの基礎統計量(※)が同等でないと、過学習リスクが高まるので注意。

※ pandasでCSVデータを読み込むと、pandas.DataFrameと呼ばれる二次元の表形式データ(テーブルデータ)になる。pandasの基本的な型。describe()してやると、各列値の平均値や最大/最小値などの基礎統計量が出力される。

2.モデルの準備

・どの手法を使ってモデルを作るか決める

例)
単回帰モデル:
 1つの目的変数を1つの説明変数のみでモデル化
 y = ax + b

重回帰モデル:
 1つの目的変数を複数の説明変数(x_1, x_2, x_3, …)でモデル化
 y = a*x_1 + b*x_2 + c*x_3 + …

3.モデルの作成

・学習データから取り出した説明変数と目的変数を使ってモデルを作る

4.予測

・評価データから取り出した説明変数をモデルに当てはめ、予測値を算出

5.モデルの評価

・評価データに対するモデルの予測結果と実際の値を比較することでモデルを評価する


参考:【ゼロから始めるデータ分析】 ビジネスケースで学ぶPythonデータサイエンス入門
https://www.udemy.com/course/optworks_1/