見出し画像

Pythonでデータ分析①: Pandasの基本的な使い方とデータ操作

pandasとは、python用データ分析ライブラリです。"Panel Data"(パネルデータ)から由来していて、特に数値表や時間系列データの操作に向いています。以下のコードでPandasをインポートすることができます。

import pandas as pd

データの作成

pandasにはDataFrameとSeriesという2つのコアオブジェクトがあります。

① DataFrame(データフレーム)

データフレームは、二次元のラベル付きデータ構造(テーブル)です。

# データフレームの作成と保存
df = pd.DataFrame({
    'Name': ['John', 'Anna', 'Peter', 'Linda'],
    'Age': [28, 22, 35, 58],
    'City': ['New York', 'Paris', 'Berlin', 'London']
})

# データフレームを表示
print(df)

以下のような出力になります。

   Name  Age      City
0  John   28  New York
1  Anna   22     Paris
2 Peter   35    Berlin
3 Linda   58    London

② Series(シリーズ)

シリーズは1次元のラベル付き配列で、複数のシリーズを組み合わせるとデータフレームになると考えることができます。

# データを提供
data = ['John', 'Anna', 'Peter', 'Linda']

# シリーズを作成します
s = pd.Series(data, name='Name')

# シリーズを表示します
print(s)

以下のような出力になります。

0     John
1     Anna
2    Peter
3    Linda
Name: Name, dtype: object

データファイルの読み込み

データフレームやシリーズを手作業で作ることができますが、実際はすでにあるデータを読み込んで作成する場合がほとんどです。

例えば、csv("Comma-Separated Values":カンマ区切りのデータ形式)のファイルを読み込む場合は、pd.read_csv()関数を使います。pd.read_csv()関数は充実しており、30以上のオプション・パラメータを指定できます。

# CSVファイルの読み込み
df = pd.read_csv('filename.csv')

データの確認

Shape:データ構造の形状(行数と列数)を表すタプルを返す

# データセットの作成
data = {
    'Name': ['John', 'Anna', 'Peter', 'Linda'],
    'Age': [28, 22, 35, 58],
    'City': ['New York', 'Paris', 'Berlin', 'London']
}

# データフレームの作成
df = pd.DataFrame(data)

# データフレームの形状を表示
print(df.shape)

このコードは(4, 3)を出力します。これは、データフレームが4行と3列から成ることを示しています。

head():DataFrameの最初のX行を表示する

# 先頭の5行を表示
print(df.head())

デフォルトでは5行の表示で、カッコ内に任意の数字を書くことで表示する行数を変更できます。

データの書き出し

to_csv関数を使ってデータフレームをCSVファイルとして保存することができます。

df.to_csv('filename.csv', index=True)

この記事が気に入ったらサポートをしてみませんか?