- 運営しているクリエイター
記事一覧
Python データ前処理 str関数で文字列の揺らぎ修正
データ入力をいろんな人がやっていると、同じものでも人によって入力の仕方がバラバラだったりします。
例としてこんなデータを準備してみました。
商品A〜Dまであるのですが、アルファベットが大文字、小文字混ざっていたり、半角、全角のスペースが入っていたりします。
こんな時は以下2つのデータ前処理が必要になります。
(1)アルファベットの大文字を小文字に変換
(2)半スペ、全スペを取り除く
これを
Python データを横方向に結合させてみる
今日はデータの横の結合について勉強してみました。
サンプルデータの準備サンプルデータとして、こんなデータを作ってみました〜
たったの10行です。
transaction_detail
何が何個購入されたか、というデータ。1製品ごとにtransacition_idというユニークIDを持ってる。
payment_date
transaction_idごとに誰がいつ買ったのか、というデータ。顧
Pythonを使ったデータ分析 入門編(6)
基本のきほん、おさらいシリーズは続きます。
データのレコード数を確認する print(len( ))今日は2つに別れているデータをくっつけて(ユニオンとか言いますよね)1つにする、ということをしたかったので、無意味な作業ではありますが、サンプルデータとして使っていた「california_housing_test.csv」のデータをエクセル使って2つに分けました。
3000行あったデータを適当に
Pythonを使ったデータ分析 入門編(5)
今日もまたまた続きます。基本のおさらい。
新しい集計フィールドを追加 .assigncalifornia_housing_test.assign(a = california_housing_test["population"]*2)
データベース名.assign(新規フィールド名 = 計算式)
『population』×2の集計値に『a』というフィールド名をつけてカラムを追加します。
この
Pythonを使ったデータ分析 入門編(4)
続き続きー!
グループ化して集計 .groupbycalifornia_housing_test.groupby(["housing_median_age"])[["latitude","population"]].mean()
一つのフィールドを基準として、他のフィールドの数値を集計してくれます。
この場合、「housing_mediun_age」ごとに、「latitude」「pupulat