ydata-profilingでたった1行でデータ探索(EDA)

ydata-profilingとは?

ydata-profilingは1行でデータ探索を行うというコンセプトで作れられたライブラリです。

たった1行で下記の分析結果をレポートとして出力してくれます。

  • データ全体の統計量

  • 各カラムの基本統計量

  • 各カラム同士の関係を散布図として表示

  • 各カラムの相関係数、ヒートマップ

  • 各カラムの欠損値

環境はGoogle Corabです。

インストール

!pip install -U ydata-profiling[notebook]==4.0.0 matplotlib==3.5.1

ライブラリの読み込み

import pandas as pd
from ydata_profiling import ProfileReport

データの読み込み

df = pd.read_csv('https://raw.githubusercontent.com/Data-Centric-AI-Community/awesome-data-centric-ai/master/medium/data-profiling-tools/data/hcc.csv')

レポートの出力

profile = ProfileReport(df,title="HCC Profiling Report")

profile.to_notebook_iframe()

レポートが出力され、下記の分析結果が確認できます。