ChatGPTでECデータ分析を総浚い!(データ分析編)
ChatGPT部でChatGPTヘビーユーザーのこーたろーです。
まずは、前回記事を確認してください。
さて、今回もChatGPTを使ったノーコードでデータ分析のお話です。
前回の続きで、各種データ分析を行なっていきます!
本編に移る前に、私のやっているAI関連情報発信用アカウントの宣伝をしておきます。是非、フォローをお願いします。
【Twitter情報収集アカウント:https://twitter.com/DsfKotaro 】
それでは、本編をご覧ください。
はじめに
前回のおさらいですが、今回のデータ分析のテーマは、オンライン販売(Online Retail)のデータ分析です。
ChatGPT-4oのADA(Advanced Data Analysis)をフルに活用して実行していきます!
1. データ分析に関するプロンプト
今回使用するデータはオープンデータプラットフォームUCIからです。
データ分析や機械学習の実践向けの練習に用いられる実データになっています。
こちらのサイトから、小売のデータセットを今回は使用しました。
https://archive.ics.uci.edu/dataset/352/online+retail
1.1 どのようなデータ分析ができるか確認する
前回も示しましたが、データを読み込ませた後に、データから分析できそうな内容をChatGPTで確認します。
そこで出てきた内容を次のプロンプトで一つずつ実行させていきます。
このようなプロンプトにすることで、データ分析の概要を理解しつつ、どのようなどのような考察ができるのかを確認することができます。
以降では、データ分析の結果を順次説明していきます。
2. データ分析の結果
2.1 売上分析
目的
売上分析の目的は、総売上の計算や月次売上の推移を確認し、全体の売上トレンドを把握することです。また、国別売上を分析することで、主要な市場を特定し、ビジネス戦略を立てるための基礎情報を提供します。
分析手順
総売上の計算:
各取引の売上を計算します(Quantity × UnitPrice)。
月次売上の推移:
月ごとの売上を集計し、時間とともに売上がどのように変動するかを確認します。
国別売上:
各国ごとの売上を集計し、主要な市場を特定します。
売上分析の結果
1. 総売上の計算
各取引の売上を計算し、総売上を算出しました。結果として、各月の売上は以下のようになりました。
2. 月次売上の推移
売上は、特に年末(11月)に大幅に増加しています。
季節性が見られ、年末に向けて売上が増加する傾向があります。
3. 国別売上
圧倒的に売上が多いのは「United Kingdom」で、約£6,767,873.39です。
次いで「Netherlands」、「EIRE」、「Germany」、「France」と続きます。
考察
季節性: 売上は季節性があり、特に年末に向けて増加することがわかります。これはホリデーシーズンの影響が大きいと考えられます。
主要市場: 主な市場は「United Kingdom」であり、他の国と比較して圧倒的な売上を記録しています。これは、ビジネス戦略を立てる際に重要な情報です。
2.2 商品分析
目的
商品分析の目的は、どの商品が最も売れているか、売上が高い商品を特定し、商品ごとの売上分布を確認することです。これにより、売れ筋商品や売上が低い商品の特定が可能となり、在庫管理やマーケティング戦略に役立ちます。
分析手順
売れ筋商品分析:
商品ごとの総売上を計算し、最も売れている商品を特定します。
商品の売上分布:
商品ごとの売上の分布を確認し、売れ筋商品と売れ行きの悪い商品を区別します。
商品分析の結果
1. 売れ筋商品分析
商品ごとの総売上を計算し、上位10商品の売上を特定しました。
最も売れている商品は「22423」で、総売上は約£11,605.20です。
2. 商品の売上分布
商品ごとの売上の分布を確認しました。以下のヒストグラムは全商品の売上分布を示しています。
考察
売れ筋商品: 最も売れている商品の特定は、在庫管理や販売戦略の最適化に役立ちます。上位の商品に対して重点的にプロモーションを行うことで、売上をさらに伸ばすことが期待できます。
売上分布: 多くの商品は比較的低い売上を記録しており、少数の商品が高い売上を占めていることがわかります。この情報は、在庫の最適化や売れ筋商品の在庫切れを防ぐための戦略を立てる際に重要です。
2.3 顧客分析
目的
顧客分析の目的は、顧客のセグメンテーションを行い、顧客ごとの購入行動を理解することです。また、リピート顧客と一度きりの顧客を分析し、顧客の特性を把握します。これにより、顧客維持戦略やターゲティングに役立ちます。
分析手順
RFM分析:
Recency(最終購入日からの経過日数)、Frequency(購入回数)、Monetary(総購入金額)を計算し、顧客をセグメント化します。
リピート顧客分析:
リピート顧客と一度きりの顧客の割合を確認し、リピート顧客の特徴を分析します。
顧客分析の結果
1. RFM分析
Recency(最終購入日からの経過日数): 顧客が最後に購入してからの経過日数を示します。
Frequency(購入回数): 顧客の購入回数を示します。
Monetary(総購入金額): 顧客の総購入金額を示します。
2. リピート顧客分析
リピート顧客: 購入回数が1回以上の顧客。全体の約98.2%を占めます。
一度きりの顧客: 購入回数が1回のみの顧客。全体の約1.8%を占めます。
考察
RFM分析: RFMスコアを基に顧客をセグメント化することで、重要顧客(スコアが高い顧客)や離脱顧客(スコアが低い顧客)を特定できます。例えば、CustomerID 12347.0は高いRFMスコアを持つ重要顧客です。
リピート顧客: 大多数の顧客がリピート購入をしていることがわかります。これは、顧客満足度が高く、リピート率が高いことを示しています。
2.4 異常検知
目的
異常検知の目的は、極端に高額な取引や異常な数量の取引を検出し、不正取引やデータエラーの可能性を探ることです。これにより、ビジネスの健全性を保ち、異常なパターンを早期に発見することができます。
分析手順
極端な数量の取引の検出:
正常な取引量の範囲から大きく外れる取引を検出します。
極端な単価の取引の検出:
正常な単価の範囲から大きく外れる取引を検出します。
異常検知の結果
1. 極端な数量の取引の検出
以下の表は、異常な数量の取引の一部を示しています。
合計で172件の異常な数量の取引が検出されました。
2. 極端な単価の取引の検出
以下の表は、異常な単価の取引の一部を示しています。
合計で149件の異常な単価の取引が検出されました。
考察
数量の異常取引: 極端に大量の取引が検出されました。例えば、PAPER CRAFT , LITTLE BIRDIEが80,995個という異常な数量で注文されています。これらの取引は不正取引やデータ入力エラーの可能性があります。
単価の異常取引: 高額な単価で取引される商品が検出されました。特に、DOTCOM POSTAGEが1599.26ポンドで取引されています。これも不正取引やデータ入力エラーの可能性があります。
2.5 時系列分析
目的
時系列分析の目的は、売上データの季節性やトレンドを分析し、売上のパターンを理解することです。また、これに基づいて未来の売上を予測することができます。
分析手順
売上データの分解:
売上データをトレンド、季節性、残差に分解します。
未来の売上予測:
ARIMAモデルなどを用いて未来の売上を予測します。
時系列分析の結果
売上予測
ARIMAモデルを使用して、未来12ヶ月の売上を予測しました。以下のグラフは、実際の売上(青)と予測された売上(オレンジの破線)を示しています。
考察
トレンド: 売上には上昇トレンドが見られますが、データの期間が短いため、長期的なトレンドを明確に把握するのは難しいです。
予測精度: ARIMAモデルを用いた予測は、将来の売上をある程度予測するのに役立ちますが、データの期間が短いことを考慮する必要があります。より多くのデータがある場合、予測精度は向上する可能性があります。
2.6 クラスタリング
目的
クラスタリングの目的は、顧客の購入行動や商品の特性に基づいてグループ化を行い、類似したパターンを特定することです。これにより、マーケティング戦略や在庫管理の改善に役立ちます。
分析手順
顧客クラスタリング:
RFMスコアに基づいて顧客をクラスタリングします。
商品クラスタリング:
商品の特性(売上や数量など)に基づいてクラスタリングします。
クラスタリングの結果
1. 顧客クラスタリング
顧客をRFMスコアに基づいて5つのクラスターに分けました。各クラスターの特徴は以下の通りです。
クラスター4: 最も優良な顧客を含むグループ。最近の購入頻度が高く、総購入金額も高い。
クラスター0: 最近の購入頻度が低く、総購入金額も低い顧客。
2. 商品クラスタリング
商品を数量と売上に基づいて5つのクラスターに分けました。各クラスターの特徴は以下の通りです。
クラスター2: 高売上・高数量の商品を含むグループ。主力商品と言える。
クラスター0: 低売上・低数量の商品。改善の余地がある商品。
考察
顧客クラスタリング: 顧客をセグメント化することで、各クラスターに対して異なるマーケティング戦略を適用することが可能になります。例えば、クラスター4の顧客にはロイヤルティプログラムを提供し、クラスター0の顧客には再購入を促すキャンペーンを行うことが考えられます。
商品クラスタリング: 商品の特性に基づいてクラスタリングすることで、主力商品とそうでない商品を区別し、在庫管理やプロモーションの最適化が可能になります。
3.まとめ
時系列データ分析については、1年間のデータしかなかったため、季節性などのトレンドは確認できなかったものの、コンサルでデータ分析するとすると、これらの殆どのデータ分析は完了するものと考えられます。
記事には載せていませんが、各種分析をする際には、Pythonのソースコードも書かれているため、Python環境での実行も可能となっています。
データ分析のコンサル業をやっている人にはとっても強力なパートナーとなりそうですね!
この記事が気に入ったらサポートをしてみませんか?