データの予測とは
予測とは
”データ”に基づき、ある値がどのような値になるか想定すること
数値の時、ラベルの時、・・・
例)お弁当の売上を予測
必要なデータ:
予測したいもの(目的変数):
お弁当の売上実績数
予測のヒントになりそうなもの(説明変数):
気温、曜日、天気、来店客数、ほか
代表的な予測の種類
回帰問題: 目的変数が数値(予測したいものが数値)
分類問題: 目的変数がカテゴリ(予測したいものがカテゴリ)
予測モデルを作る基本
汎用的なモデルを作る
よくある失敗:
・いきなりモデルを作り始めた
(はじめにデータの基礎分析をしていなかった)
・モデルを作るときに全てのデータを使ってしまった
(その結果、モデルが過学習になってしまった)
過学習(オーバーフィッティング)とは
モデル作成に使ったデータに特化しすぎたモデルを作ってしまうこと
作ったモデルの精度を検証するには、「未知」のデータも予測できるような汎用性あるモデルを作ること。
そのためには、
データを分割して疑似的に未知のデータを作る
例えば、
・データの片方でモデルを作り、残りを未知のデータとする
→この未知のデータを予測できることを目標にする
1.もとになるデータセットを2つに分割
・学習データ(train)
・評価データ(test)
2.学習データを使ってモデルを作る(学習)
3.作ったモデルへ評価データを入力し、精度を評価
参考:【ゼロから始めるデータ分析】 ビジネスケースで学ぶPythonデータサイエンス入門
https://www.udemy.com/course/optworks_1/