見出し画像

ChatGPTで探索的データ分析(EDA)

kaggleコンペ(多値分類)のEDAをChatGPTにお願いしてみた。
もはや定型的なEDAはAIアシスタントに任せていいみたい。

数値変数

import matplotlib.pyplot as plt
import seaborn as sns

# Set the size and style for the plots
sns.set(style="whitegrid")
plt.figure(figsize=(15, 10))

# Loop through numerical features to create boxplots
for i, feature in enumerate(numerical_features, 1):
    plt.subplot(3, 4, i)
    sns.boxplot(x='outcome', y=feature, data=df)
    plt.title(f"Boxplot of {feature}")

plt.tight_layout()
plt.show()

pulse: 'died' カテゴリでの値が高い傾向にあります。
packed_cell_volume: 'died' と 'euthanized' カテゴリでの値が高い傾向にあります。
respiratory_rate: 'died' カテゴリでの値がやや高い傾向にありますが、ばらつきが大きいです。
total_protein: カテゴリによる明確な違いは少ないようです。
rectal_temp: カテゴリによる明確な違いは見られません。

ChatGPT

カテゴリ変数

# Set the size and style for the plots
sns.set(style="whitegrid")
plt.figure(figsize=(20, 15))

# Loop through categorical features to create countplots
for i, feature in enumerate(categorical_features, 1):
    plt.subplot(4, 5, i)
    sns.countplot(x=feature, hue='outcome', data=df, order=df[feature].value_counts().index)
    plt.title(f"Countplot of {feature}")
    plt.legend(title='Outcome', loc='upper right')

plt.tight_layout()
plt.show()

たとえば、
surgery:手術を受けたケース('yes')では、'died' と 'euthanized' の頻度が高い。
age:'young' の場合、'died' の頻度が高い。
temp_of_extremities:'cold' の場合、'died' の頻度が高い。

ChatGPT

この記事が気に入ったらサポートをしてみませんか?