Python 学習データ・テストデータの分割の仕方（参考書籍『Pythonによるデータ分析の教科書』）

2020年8月17日 23:59

機械学習を行う前段階として学習データとテストデータの分割についての備忘録です。

書籍をもとに勉強した内容を残しています。

 #pandasをインポート 
import pandas as pd
 #データを目的変数と説明変数に分割 
df = pd.read_csv("03_iris.csv")
X = df[["PetalWidth","PetalLength","SepalWidth","SepalLength"]]
y = df["Name"]
 #学習データとテストデータに分割 　（テストデータ3割）
from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test = train_test_split(
   X,y, test_size=0.3, random_state=123
)
 #X_testのサイズ確認 
print(X_test.shape)

45行4列のテストデータへ分割成功

(45, 4)

ちょっと長いけどしっかりと分割できている

 #インデックス昇順 
X_test.sort_index()

追記：https://pythondatascience.plavox.info/scikit-learn/%E3%83%88%E3%83%AC%E3%83%BC%E3%83%8B%E3%83%B3%E3%82%B0%E3%83%87%E3%83%BC%E3%82%BF%E3%81%A8%E3%83%86%E3%82%B9%E3%83%88%E3%83%87%E3%83%BC%E3%82%BF

↑上記の方のページ、とても分かりやすいです！

この記事が気に入ったらサポートをしてみませんか？