Pythonでデータ操作! -Pandas-
PandasはPythonでよく使われるライブラリなので自分でも使えるようにしたいので実行しながら覚えていきたいと思います。以下参考にしているサイトです。
まず何はともあれライブラリを使えるようにします。Google Colabを使いますので環境構築は不要です。
import pandas as pd
import numpy as np
とすれば準備完了!
pandasには、 Series と DataFrame の2つ配列を扱えるフレームワークがあります。Series は一次元の配列を扱えます。DataFrameは多次元のものを扱うことができます。
serieasTest = pd.Series([1,2,3])
とすると
0 1
1 2
2 3
とインデックス付きで作成されます。
今回は多次元のDataFrameを中心にやっていくために練習用の配列をNumpyを使って作ります。
testArray = np.arange(10).reshape((2, 5))
こんな配列が出来ています。
[[0, 1, 2, 3, 4],
[5, 6, 7, 8, 9]]
df = pd.DataFrame(testArray)
df
として表示してみると、
綺麗な表ができています。
もっとわかりやすく行名row、列名columの指定をします。
df.index = ["01", "02", "03"]
df.columns = ["A", "B", "C", "D", "E"]
df
名前が入ってわかりやすくなりました。
そのほかいろんなメソッドがあり抽出、行の追加、削除などできます。ちょっと先に行ってcsvの取扱をやってみます。
ファイルのアップロードはhttps://note.com/dngri/n/n9b6375caf7bf
で紹介しています。早速、アップロードしたファイルを使って試してみましょう。
読み込みは
df = pd.read_csv("yubin.csv")
こんな感じです。郵便番号のcsvを郵便局のサイトからダウンロードして"yubin.csv"とファイル名を変えて使っています。
最初の5行を出します。
df.head()
しっかりと読み込めているのが確認できました。あとはいろいろなメソッドで解析ができます。
この記事が気に入ったらサポートをしてみませんか?