【Python】Pandasライブラリの使い方

Python を実務で使い始めてから半年ほど経過しました。

恥ずかしながら、PandasやNumpyといった基本的なライブラリに触っていなかったので、今更使ってみたという記事です。

実務でデータ処理をすることがほとんど無いので、触る機会が無かったのですが。


さて、Pandasはデータ処理に長けているライブラリです。

CSVやTSVを簡単に読み込み、データ操作を簡単に行えるようですね。

今まで、with(file.open('sample.csv', 'r'))のように読み込んでいたので、簡単すぎて目から鱗です。

以下、サンプルコードを残していきます。

サンプルコード

sample.csvの中身はxとyがあるものとする。

import pandas as pd

df = pd.read_csv('sample.csv')
# データの上から五行を表示,printは以下省略
df.head(5)
# x列のデータを格納
data_x = df['x']
# 平均値を算出
mean = df.mean()
x_mean = mean['x']
y_mean = mean['y']


meanについて小話

統計学上で平均を表すときは mean と表現するようですが、私たち日本人にとっては average が馴染み深いですよね。

それぞれの使い分けは以下になるようです。

mean: 統計学的な 平均 を表す

average: 日常会話で使う平均を表すほか、データの代表的な値のことを指すこともある。ここで言う代表的な値というのは、統計でいうところの中央値のこと。


meanの方がより学問的で、厳密だということです。

こういった、日本人が慣れ親しんだ英語と違う英語の関数名って覚えずらいです。英語力が無いと、英語力がある人に比べたらコーディング速度が落ちてしまいますね。

この記事が気に入ったらサポートをしてみませんか?