DataPrepでデータ探索(EDA)

DataPrepとは?

DataPrepは、データ収集、探索、データのクレンジング、標準化といった処理を行うためのモジュールが用意されているPythonのライブラリです。

  • Connector:WEB APIやデータベースからデータを収集するためのコンポーネント(dataprep.connector

  • EDA:データ探索を行うためのコンポーネント(dataprep.eda

  • Clean:データのクレンジングや標準化のためのコンポーネント(dataprep.clean

今回はDataPrepのEDAのためのコンポーネントを使って、データ探索を行ってみたいと思います。

インストール

!pip install -U dataprep

ライブラリの読み込み

from dataprep.eda import *

EDAのためのモジュールの読み込みを行います。

分析したいデータの読み込み

import pandas as pd

df = pd.read_csv("train.csv")
df.head()

pandasで分析したいデータを読み込みます。
今回はKaggleにある下記のデータセットを読み込んで、DataPrepで分析してみたいと思います。

このデータセットは2006年から2010年にかけて、アイオワ州エイムズで住宅用不動産が販売された記録が含まれており、住宅の販売価格を予測する問題に利用されています。

train.csv

統計量を確認する

plot(df, "SalePrice")

指定したカラムの統計量、ヒストグラム、Q-Qプロット等が確認できます。

相関を確認する

plot_correlation(df, "SalePrice")

指定したカラムと他のカラムの相関をプロットして確認する事ができます。

2つのカラムの関係を可視化をする

plot(df, "GrLivArea", "SalePrice")

plotに、2つのカラムを指定すると、関係性を可視化することができます。
チャートからいくつかの外れ値などが確認できます。