Pythonを使ったデータ分析 入門編(2)
前回に引き続き、めちゃ基本的なPythonのデータ分析に必要なコードを復習してき行きます。
複数条件でデータを抽出
"housing_median_age"が27.0で、かつ、"total_rooms"が2000未満のレコードを抽出
california_housing_test[(california_housing_test["housing_median_age"] == 27.0) & (california_housing_test["total_rooms"] < 2000.0) ]
データベース名[データベース名(["フィールド名"] ==一致条件) & (データベース名(["フィールド名"] < 未満条件)]
「かつ」で抽出したい条件が複数ある場合は「()」で括って「&」で繋ぐ。
"housing_median_age"が27.0で、「または」、"total_rooms"が2000未満のレコードを抽出したい場合は条件を「()」で括って「|」で繋ぐ。
california_housing_test[(california_housing_test["housing_median_age"] == 27.0) | (california_housing_test["total_rooms"] < 2000.0) ]
データが何行、何列あるか確認 .shape
california_housing_test.shape
データベース名.shape
このデータベースは3000行、9列ということがわかります。
indexの振り方を確認 .index
california_housing_test.index
データベース名.index
インデックスが0から始まり、1ずつ増えて3000まであることがわかります。
レコードの一部だけ抽出 [ : ]
インデックスの11から20まで抽出したい時は以下のように書きます。
california_housing_test[11:21]
データベース名[開始インデックス番号:終了インデックス番号+1]
Pythonは範囲を指定するときに、終わりの数字は+1で書くお約束、らしい。
データベースのヘッダー(フィールド名)情報を取得 .columns
california_housing_test.columns
データベース名.columns
データベースにどんなヘッダー(フィールド名)があるのか、確認できます。
一部のフィールドだけを抽出
california_housing_test["population"]
データベース名["フィールド名"]
複数のフィールドを抽出したい時は以下のようにフィールド名をコンマで区切って書きます。
california_housing_test[["population", "latitude","longitude"]]
また明日から1週間頑張りマンモス。ぱおーん。
サポートしていただいたお金は、今住んでいる地元の商店街で、しかも個人経営のお店でつかいたいです。