pycaret本番、とその前にデータ分析
前回の続きです。タイタニックデータを読み込むところまでやったのですが、pycaretに入る前にデータ分析を終わらせようと思います。
データを可視化
取得したデータの可視化にはseabornライブラリを使います。
# Seabornライブラリのインポート
import matplotlib.pyplot as plt
import seaborn as sns
各特徴の分布を表示
#sns.catplotで棒グラフを描く
sns.catplot(x="Pclass", data=data_titanic, kind="count")
sns.catplot(x="Sex", data=data_titanic, kind="count")
sns.catplot(x="SibSp", data=data_titanic, kind="count")
sns.catplot(x="Parch", data=data_titanic, kind="count")
各特徴と生存率を見てみる
各特徴の分布は分かりましたが、各特徴別の生存率はどのようになっているのでしょうか?それを見るための処理を書いてみます。
import numpy as np
# 各パラメータから生存率をグラフで表示する関数
def survival_rate(data,data_names):
cols=2
rows=round(len(data_names)/cols)
fig = plt.figure(figsize=(6*cols,7*rows))
ax=[]
for i, data_name in enumerate(data_names):
ax.append(fig.add_subplot(rows,cols,i+1))
plotTemp = data["Survived"].groupby(data_titanic[data_name]).mean()
ax[i].bar(x=plotTemp.index,height=plotTemp.values)
ax[i].set_ylabel("Survival rate")
ax[i].set_xlabel(data_name)
ax[i].set_xticks(plotTemp.index)
ax[i].set_yticks(np.arange(0, 1.1, .1))
ax[i].set_title(data_name+' and Survival Rate')
# 関数を呼び出して各特徴別の生存率をグラフ化
survival_rate(data_titanic,["Pclass","Sex","SibSp","Parch"])
なるほど。可視化でデータの傾向が見えました。
次からは本格的にpycaretの処理に入ります。
この記事が気に入ったらサポートをしてみませんか?