Pythonでデータ分析③: Pandasの「サマリー」と「マップ」

2023年11月6日 15:44

1. データのサマリー(Summary)

Pandasでは、データフレームやシリーズから統計的なサマリー（要約）を取得するための多くの関数を提供しています。以下に一例を挙げます。

describe()関数: 数値型の列について、カウント、平均、標準偏差、最小値、最大値、四分位数などの統計量を返します。

df.describe()

value_counts()関数: ユニークな要素の数をカウントします（シリーズオブジェクトのみ）。

df['column'].value_counts()

unique()関数: 存在するユニークな「値」を配列として返します。

df['column'].unique()

corr()関数: 列間の相関係数を計算します。

df.corr()

マップ関数は、データフレームやシリーズの各要素に対する操作を行います。以下に主な関数を示します。

map()関数: シリーズのすべての値を変換します。主に値の変換や代入に使用。

# 全ての値をその値自身の二乗に変換
df['column'] = df['column'].map(lambda x: x**2)

apply()関数: 行または列に対し関数を適用します。データフレーム全体の変換や特定の列に対し関数を適用する。

# column列すべてに平方根を適用
df['column'] = df['column'].apply(np.sqrt)

# 各列の値を合計
df = df.apply(np.sum, axis=0)

applymap()関数: データフレームの各要素（セル）に対し関数を適用する。

# すべての要素に平方根を適用
df = df.applymap(np.sqrt)

この記事が気に入ったらサポートをしてみませんか？