[Python] pandas groupbyを使って、日付毎に最も売れた商品を取得する

2022年9月10日 11:01

はじめに

pandasで、groupbyを使用し、グループ内の最大値を持つ行を取得する実装について、まとめます。

売上一覧のサンプルデータを使用しました。

カラム構成は、下記です。

なお、このデータは、下記のサイトを使用して作成しました。

データ分析をサポートするライブラリです。

CSVファイルを読み込み、DataFrameオブジェクトを生成します。

import pandas as pd

file_path = r'pandas_sample_product.csv'
df = pd.read_csv(file_path, encoding='cp932')

DataFrameオブジェクトのheadメソッドで、先頭から5行データを表示して確認します。

df.head()

読み込んだ各カラムのデータ型を、DataFrameオブジェクトのdtypesメンバーで確認します。

df.dtypes

「date」カラムがobject型となっているため、pandasモジュールのto_datetimeメソッドを日付型に変換します。

df['date'] = pd.to_datetime(df['date'])

dtypesメンバーで、各カラムのデータ型を確認します。
「date」カラムが日付型になっていることが確認できました。

DataFrameオブジェクトをグループ化するには、groupbyメソッドを使用します。

今回は、「date」でグループ化します。

df_date_group = df.groupby(['date'])

続いて、各日付毎に最も売れた商品をmaxメソッドで取得します。

df_date_group['quantity'].max()

この方法だと、各日付毎に最も売れた商品の行が確認できません。

そのため、groupbyオブジェクトのidxmaxメソッドを使用して、最大値の行名を取得します。
続いて、取得した行名より、DataFrameオブジェクトのlocメソッドを使用し、対象となる行を取得します。

df.loc[df_date_group['quantity'].idxmax(), :]

日付毎に最も売れた行を取得することができました！

今回は、groupbyを使用し、グループ内の最大値を持つ行を取得する実装を、売上一覧をサンプルとして、日付毎に最も売れた行を取得する実装について、まとめました。

この記事が気に入ったらサポートをしてみませんか？