pycaret本番、とその前にデータ分析

2022年4月28日 09:32

前回の続きです。タイタニックデータを読み込むところまでやったのですが、pycaretに入る前にデータ分析を終わらせようと思います。

データを可視化

取得したデータの可視化にはseabornライブラリを使います。

# Seabornライブラリのインポート
import matplotlib.pyplot as plt
import seaborn as sns

各特徴の分布を表示

#sns.catplotで棒グラフを描く
sns.catplot(x="Pclass", data=data_titanic, kind="count")
sns.catplot(x="Sex", data=data_titanic, kind="count")
sns.catplot(x="SibSp", data=data_titanic, kind="count")
sns.catplot(x="Parch", data=data_titanic, kind="count")

各特徴と生存率を見てみる

各特徴の分布は分かりましたが、各特徴別の生存率はどのようになっているのでしょうか？それを見るための処理を書いてみます。

import numpy as np

# 各パラメータから生存率をグラフで表示する関数
def survival_rate(data,data_names):
    cols=2
    rows=round(len(data_names)/cols)
    fig = plt.figure(figsize=(6*cols,7*rows))
    ax=[]
    for i, data_name in enumerate(data_names):
        ax.append(fig.add_subplot(rows,cols,i+1))
        plotTemp = data["Survived"].groupby(data_titanic[data_name]).mean()
        ax[i].bar(x=plotTemp.index,height=plotTemp.values)
        ax[i].set_ylabel("Survival rate")
        ax[i].set_xlabel(data_name)
        ax[i].set_xticks(plotTemp.index)
        ax[i].set_yticks(np.arange(0, 1.1, .1))
        ax[i].set_title(data_name+' and Survival Rate')

# 関数を呼び出して各特徴別の生存率をグラフ化
survival_rate(data_titanic,["Pclass","Sex","SibSp","Parch"])

なるほど。可視化でデータの傾向が見えました。

次からは本格的にpycaretの処理に入ります。

この記事が気に入ったらサポートをしてみませんか？