データの予測とは

2020年5月3日 15:04

予測とは

”データ”に基づき、ある値がどのような値になるか想定すること

数値の時、ラベルの時、・・・

例）お弁当の売上を予測
必要なデータ：
　予測したいもの（目的変数）：
　　お弁当の売上実績数
　予測のヒントになりそうなもの（説明変数）：
　　気温、曜日、天気、来店客数、ほか

回帰問題：　目的変数が数値（予測したいものが数値）
分類問題：　目的変数がカテゴリ（予測したいものがカテゴリ）

汎用的なモデルを作る

よくある失敗：
・いきなりモデルを作り始めた
　（はじめにデータの基礎分析をしていなかった）
・モデルを作るときに全てのデータを使ってしまった
　（その結果、モデルが過学習になってしまった）

モデル作成に使ったデータに特化しすぎたモデルを作ってしまうこと

作ったモデルの精度を検証するには、「未知」のデータも予測できるような汎用性あるモデルを作ること。

そのためには、

データを分割して疑似的に未知のデータを作る

例えば、
・データの片方でモデルを作り、残りを未知のデータとする
　→この未知のデータを予測できることを目標にする

1．もとになるデータセットを2つに分割
　・学習データ（train）
　・評価データ（test）

2．学習データを使ってモデルを作る（学習）

3．作ったモデルへ評価データを入力し、精度を評価

参考：【ゼロから始めるデータ分析】ビジネスケースで学ぶPythonデータサイエンス入門
https://www.udemy.com/course/optworks_1/