![見出し画像](https://assets.st-note.com/production/uploads/images/77350086/rectangle_large_type_2_89ee4625ed80405f7e52fe72b0001d83.png?width=1200)
Photo by
cutboss
pycaret本番、とその前にデータ分析
前回の続きです。タイタニックデータを読み込むところまでやったのですが、pycaretに入る前にデータ分析を終わらせようと思います。
データを可視化
取得したデータの可視化にはseabornライブラリを使います。
# Seabornライブラリのインポート
import matplotlib.pyplot as plt
import seaborn as sns
各特徴の分布を表示
#sns.catplotで棒グラフを描く
sns.catplot(x="Pclass", data=data_titanic, kind="count")
sns.catplot(x="Sex", data=data_titanic, kind="count")
sns.catplot(x="SibSp", data=data_titanic, kind="count")
sns.catplot(x="Parch", data=data_titanic, kind="count")
![](https://assets.st-note.com/img/1651104911439-4xOjNFL98K.png?width=1200)
![](https://assets.st-note.com/img/1651105067187-H3g9ok8wg2.png?width=1200)
![](https://assets.st-note.com/img/1651105212358-cv5r15nNsm.png?width=1200)
![](https://assets.st-note.com/img/1651105285074-yTTzReWUHP.png?width=1200)
各特徴と生存率を見てみる
各特徴の分布は分かりましたが、各特徴別の生存率はどのようになっているのでしょうか?それを見るための処理を書いてみます。
import numpy as np
# 各パラメータから生存率をグラフで表示する関数
def survival_rate(data,data_names):
cols=2
rows=round(len(data_names)/cols)
fig = plt.figure(figsize=(6*cols,7*rows))
ax=[]
for i, data_name in enumerate(data_names):
ax.append(fig.add_subplot(rows,cols,i+1))
plotTemp = data["Survived"].groupby(data_titanic[data_name]).mean()
ax[i].bar(x=plotTemp.index,height=plotTemp.values)
ax[i].set_ylabel("Survival rate")
ax[i].set_xlabel(data_name)
ax[i].set_xticks(plotTemp.index)
ax[i].set_yticks(np.arange(0, 1.1, .1))
ax[i].set_title(data_name+' and Survival Rate')
# 関数を呼び出して各特徴別の生存率をグラフ化
survival_rate(data_titanic,["Pclass","Sex","SibSp","Parch"])
![](https://assets.st-note.com/img/1651105683803-8IAITHBAl6.png?width=1200)
なるほど。可視化でデータの傾向が見えました。
次からは本格的にpycaretの処理に入ります。
この記事が気に入ったらサポートをしてみませんか?