Kaggleの流れ(ヒートマップの作り方)

1 データの概要をチェック

コンペの目的、データの概要をチェック

2 各データの意味や値をチェック

データは目的変数と関係あるか?しっかり分析する必要あるか?意味がわからないところは調べる

データが多い場合ヒートマップを用いる

ヒートマップの作り方(例としてKaggleのhome priceのtrain dataを用いた)

 #必要なライブラリのインポート 
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
 #相関係数の表示 
df_house=pd.read_csv("train.csv",index_col=0)
df_house_corr=df_house.corr()
df_house_corr
 #ヒートマップの作成 
fig,ax=plt.subplots(figsize=(12,9))
sns.heatmap(df_house_corr,square=True,vmax=1,vmin=-1,center=0)

square=True:ヒートマップのサイズを正方形に

vmax,vmin,center:最大値、最小値、真ん中の設定

annot=Trueでラベルを晴れる。


この記事が気に入ったらサポートをしてみませんか?