見出し画像

Pythonを使ったデータ分析 入門編(2)

前回に引き続き、めちゃ基本的なPythonのデータ分析に必要なコードを復習してき行きます。

複数条件でデータを抽出  

"housing_median_age"が27.0で、かつ、"total_rooms"が2000未満のレコードを抽出

california_housing_test[(california_housing_test["housing_median_age"] == 27.0) & (california_housing_test["total_rooms"] < 2000.0) ]

データベース名[データベース名(["フィールド名"] ==一致条件) & (データベース名(["フィールド名"]  < 未満条件)]

スクリーンショット 2019-12-08 16.02.38

「かつ」で抽出したい条件が複数ある場合は「()」で括って「&」で繋ぐ。

"housing_median_age"が27.0で、「または」、"total_rooms"が2000未満のレコードを抽出したい場合は条件を「()」で括って「|」で繋ぐ。

california_housing_test[(california_housing_test["housing_median_age"] == 27.0) | (california_housing_test["total_rooms"] < 2000.0) ]

スクリーンショット 2019-12-08 16.02.47

データが何行、何列あるか確認 .shape

california_housing_test.shape

データベース名.shape

スクリーンショット 2019-12-08 16.06.35

このデータベースは3000行、9列ということがわかります。

indexの振り方を確認 .index

california_housing_test.index

データベース名.index

スクリーンショット 2019-12-08 16.23.33

インデックスが0から始まり、1ずつ増えて3000まであることがわかります。

レコードの一部だけ抽出 [ : ]

インデックスの11から20まで抽出したい時は以下のように書きます。

california_housing_test[11:21]

データベース名[開始インデックス番号:終了インデックス番号+1]

スクリーンショット 2019-12-08 16.29.27

Pythonは範囲を指定するときに、終わりの数字は+1で書くお約束、らしい。

データベースのヘッダー(フィールド名)情報を取得 .columns

california_housing_test.columns

データベース名.columns

データベースにどんなヘッダー(フィールド名)があるのか、確認できます。

スクリーンショット 2019-12-08 16.32.32

一部のフィールドだけを抽出

california_housing_test["population"]

データベース名["フィールド名"]

スクリーンショット 2019-12-08 16.35.13

複数のフィールドを抽出したい時は以下のようにフィールド名をコンマで区切って書きます。

california_housing_test[["population", "latitude","longitude"]]

スクリーンショット 2019-12-08 16.35.42

また明日から1週間頑張りマンモス。ぱおーん。



サポートしていただいたお金は、今住んでいる地元の商店街で、しかも個人経営のお店でつかいたいです。