Pythonを使ったデータ分析　入門編（2）

2019年12月8日 16:40

前回に引き続き、めちゃ基本的なPythonのデータ分析に必要なコードを復習してき行きます。

複数条件でデータを抽出

"housing_median_age"が27.0で、かつ、"total_rooms"が2000未満のレコードを抽出

california_housing_test[(california_housing_test["housing_median_age"] == 27.0) & (california_housing_test["total_rooms"] < 2000.0) ]

データベース名[データベース名(["フィールド名"] ==一致条件) & (データベース名(["フィールド名"] < 未満条件)]

スクリーンショット 2019-12-08 16.02.38

「かつ」で抽出したい条件が複数ある場合は「（）」で括って「＆」で繋ぐ。

"housing_median_age"が27.0で、「または」、"total_rooms"が2000未満のレコードを抽出したい場合は条件を「（）」で括って「|」で繋ぐ。

california_housing_test[(california_housing_test["housing_median_age"] == 27.0) | (california_housing_test["total_rooms"] < 2000.0) ]

スクリーンショット 2019-12-08 16.02.47

california_housing_test.shape

データベース名.shape

スクリーンショット 2019-12-08 16.06.35

このデータベースは3000行、９列ということがわかります。

california_housing_test.index

データベース名.index

スクリーンショット 2019-12-08 16.23.33

インデックスが0から始まり、１ずつ増えて３０００まであることがわかります。

インデックスの１１から２０まで抽出したい時は以下のように書きます。

california_housing_test[11:21]

データベース名[開始インデックス番号：終了インデックス番号＋１]

スクリーンショット 2019-12-08 16.29.27

Pythonは範囲を指定するときに、終わりの数字は＋１で書くお約束、らしい。

california_housing_test.columns

データベース名.columns

データベースにどんなヘッダー（フィールド名）があるのか、確認できます。

スクリーンショット 2019-12-08 16.32.32

california_housing_test["population"]

データベース名["フィールド名"]

スクリーンショット 2019-12-08 16.35.13

複数のフィールドを抽出したい時は以下のようにフィールド名をコンマで区切って書きます。

california_housing_test[["population", "latitude","longitude"]]

スクリーンショット 2019-12-08 16.35.42

また明日から１週間頑張りマンモス。ぱおーん。

サポートしていただいたお金は、今住んでいる地元の商店街で、しかも個人経営のお店でつかいたいです。