データの予測とは

予測とは

”データ”に基づき、ある値がどのような値になるか想定すること

数値の時、ラベルの時、・・・

例)お弁当の売上を予測
必要なデータ:
 予測したいもの(目的変数):
  お弁当の売上実績数
 予測のヒントになりそうなもの(説明変数):
  気温、曜日、天気、来店客数、ほか

代表的な予測の種類

回帰問題: 目的変数が数値(予測したいものが数値)
分類問題: 目的変数がカテゴリ(予測したいものがカテゴリ)

予測モデルを作る基本

汎用的なモデルを作る

よくある失敗:
・いきなりモデルを作り始めた
 (はじめにデータの基礎分析をしていなかった)
・モデルを作るときに全てのデータを使ってしまった
 (その結果、モデルが過学習になってしまった)

過学習(オーバーフィッティング)とは

モデル作成に使ったデータに特化しすぎたモデルを作ってしまうこと

作ったモデルの精度を検証するには、「未知」のデータも予測できるような汎用性あるモデルを作ること。

そのためには、

データを分割して疑似的に未知のデータを作る

例えば、
・データの片方でモデルを作り、残りを未知のデータとする
 →この未知のデータを予測できることを目標にする

1.もとになるデータセットを2つに分割
 ・学習データ(train)
 ・評価データ(test)

2.学習データを使ってモデルを作る(学習)

3.作ったモデルへ評価データを入力し、精度を評価


参考:【ゼロから始めるデータ分析】 ビジネスケースで学ぶPythonデータサイエンス入門
https://www.udemy.com/course/optworks_1/