![見出し画像](https://assets.st-note.com/production/uploads/images/131715553/rectangle_large_type_2_0f39bb0fe8d7d0a84b39763bbe5818ee.png?width=800)
DataSaberへの道!Ord1備忘録(Q10~Q17)
Ord1_Q10
サブカテゴリごとの売上と、そのサブカテゴリを購入した顧客数の間に関連性はありますか?
Ord1_A10
列:個別のカウント(顧客Id)
行:合計(売上)
マーク:色(サブカテゴリ)
:ラベル(サブカテゴリ)
傾向線を引いて、関連性を確認する
散布図に傾向線を引いてみると傾きがないので、サブカテゴリごとの売上と顧客数には関連性がないとのことが分かります。
![](https://assets.st-note.com/img/1708600609876-OZHln5U7ky.png?width=800)
ちょっと違う目線で、カテゴリごとに傾向線をみると、事務用品は下がってみえます。(顧客数は多いけど、売上が少ない)
こうして視点をかえるだけで見えてくるものが変わるので、様々な視点での分析が必要ですね。
※売上だけに絞って推測すると、家具・家電に比べれば事務用品の単価は低いので、顧客数の多さに比べて売上が低いとわかると。試作としては単純に単価を上げればいいという話ではないですが、一つの傾向はみえますね。
![](https://assets.st-note.com/img/1708601236580-LHmDe7EX6U.png?width=800)
Ord1_Q11
4年間を通じて、購入顧客数が最も多い曜日はどれですか?
また、その人数は何人ですか?
Ord1_A11
列:曜日(オーダー日)
行:個別のカウント(顧客Id)
マーク:ラベル(個別のカウント(顧客Id))
顧客数が最も多いのを知りたいので、ラベルで最大値のみを表示するようにしました。
![](https://assets.st-note.com/img/1708606036826-0iV1SUUKsF.png)
![](https://assets.st-note.com/img/1708606007728-rT3uqzDDhK.png?width=800)
金曜日が561で一番多いのが分かります。
Ord1_Q12
オーダー日の全ての曜日で、利益率が15%を切っている年はありましたか?
Ord1_A12
計算フィールドで利益率を作成する。
利益率:sum(利益)/ sum(売上)
![](https://assets.st-note.com/img/1708606722032-f33btqEDW8.png)
列:曜日(オーダー日)
行:個別のカウント(顧客Id)
マーク:ラベル(個別のカウント(顧客Id))
アナリティクスペインでリファレンスラインを15%固定で引く
![](https://assets.st-note.com/img/1708606868276-z2pYe3ZOkk.png)
![](https://assets.st-note.com/img/1708606947409-P46axabkfo.png?width=800)
2016年が全ての曜日でリファレンスラインより下回っているのが分かりますね。
おまけvizとしては、利益率をアドホック計算で表すのもしてみました。
マーク:集計(利益率)>0.15
![](https://assets.st-note.com/img/1708607094754-5hvGPlncY3.png)
![](https://assets.st-note.com/img/1708607115075-GjS6MwVZBn.png?width=800)
2016年だけ、オレンジ(利益率0.15以上)がないのが分かるので、リファレンスラインを使わないこのやり方でも分かりますね。
Ord1_Q13
サブカテゴリ・顧客区分の組み合わせで、割引率が相対的に高いと分類される組み合わせはどれですか。
その組み合わせをグループとしてまとめてください。
それ以外は「その他」とします。
作成したグループごとに売上の伸びと利益率を年月の推移で比較して、割引率を上げるべきか下げるべきか教えてください。
Ord1_A13
サブカテゴリ・顧客分の組み合わせで、割引率が相対的に高いものを分類します。
列:顧客区分
行:サブカテゴリ
マーク:色(平均(割引率))
![](https://assets.st-note.com/img/1708607683223-whyPWOG5LN.png?width=800)
色の編集でステップドカラーを「2」に設定
![](https://assets.st-note.com/img/1708607716970-2SZECG5m19.png)
割引率が高いものをグループ化する
・すべてのディメンションにする
![](https://assets.st-note.com/img/1708607901785-Sokfa02bCh.png?width=800)
・すべてのディメンション
一つずつ選択したものに対してグループ化されました。
![](https://assets.st-note.com/img/1708608500412-v6ZtReOVcJ.png)
・サブカテゴリ
画材小規模の顧客分だけですが、行(サブカテゴリ)に一つでも該当すると、グループ化されました。
![](https://assets.st-note.com/img/1708608202902-6a23nomJCz.png)
・顧客区分
顧客分に一つでも該当するものがあれば、全部がグループ化されました。
(テーブルの顧客分が3つとも該当するので)
![](https://assets.st-note.com/img/1708608230037-HA8dU3Sq1O.png)
グループ化したディメンションを使用して、売上と利益率の関係をみてみます。
列:月(オーダー日)
行:サブカテゴリ&顧客分(グループ化したもの)
:合計(売上)
:集計(利益率)
<集計(利益率)>
棒グラフ
マーク:色(集計(利益率))
傾向線を入れる
![](https://assets.st-note.com/img/1708609198392-EnHWDyjIPf.png?width=800)
傾向線をみると割引率が高いグループは売上はさほど伸びていないし、利益も赤字が多いというのが見てわかります。
割引率をメリットがないようなので、割引率は下げた方がいいと読み取れます。
Ord1_Q14
2013年で一番売上が低い月と2015年で一番売上が高い月だけの平均金額は、全月の平均金額よりも高いですか?
Ord1_A14
リファレンスラインで平均線を引いて、2013年で一番売上が低い月と2015年で一番売上が高い月の2点を選択すると、それらの平均線が表示され、回答にたどり着けました。
列:年(オーダー日)、月(オーダー日)
行:サブカテゴリ
リファレンスライン
値:合計(売上) 平均
ラベル:カスタム 平均:<値>
ツールヒント:カスタム 平均:<値>
![](https://assets.st-note.com/img/1708664564333-tx1qjUQre9.png)
![](https://assets.st-note.com/img/1708664630786-qtmDBFY5wG.png?width=800)
全月の平均値が「4,732,851」
2013年2月+2015年5月の平均値が「4,932,248」
なので、後者が全月平均よりも大きいのが分かります。
Ord1_Q15
Q14で作成したチャートで年月の売上のトレンドを見ることができるようになりました。さらにブレイクダウンして、各年や月で何(カテゴリ、サブカテゴリ)が誰(顧客区分)に売れたのかをクロス集計表で確認したいです。2枚のシートを組み合わせてチャートをクリックするとフィルターされるダッシュボードを作りたいのですが、一つのマークをクリックしたときに月でフィルターするだけでなく年でフィルターするオプションを選ばせることはできますか?
Ord1_A15
カテゴリ、サブカテゴリ、顧客分の売上のクロス集計表を作成
列:年(オーダー日)
行:カテゴリ、サブカテゴリ、顧客区分
マーク:ラベル(合計(売上))
分析で総計を表示
![](https://assets.st-note.com/img/1708665655280-wdJ6jkBTCW.png?width=800)
![](https://assets.st-note.com/img/1708666131881-cXwuTwv20n.png?width=800)
A14で作成したvizとクロス集計表のvizの二つをダッシュボードで表現します。
ダッシュボードのアクションで、「年」でフィルター、「年+月」でフィルターの二つを設定
名前のところは挿入で、年や月を選択することにより、選択した年月でメニュー欄に表示されます。
![](https://assets.st-note.com/img/1708666908778-mOGzdON9hM.png?width=800)
![](https://assets.st-note.com/img/1708667061784-5lQ7ZAziXN.png?width=800)
![](https://assets.st-note.com/img/1708667095641-AE2T3j9Tya.png?width=800)
メニューで年または年月のフィルターをユーザーが選択することができる。
Ord1_Q16
「家具」カテゴリにおいて一番出荷までの平均日数が長い地域に面する地域の中で、最も出荷までに時間がかかる地域を調べてください。その地域の「事務用品」カテゴリでの出荷にかかる日数は何日ですか?
Ord1_A16
この問題を最初読んで、いきなりできた人は凄いと思いました。
面する地域ってどうやってわかるの?
って、悩んでも悩んでも答えが分からず、私はKT動画を見ました。
まず、出荷日数を出すのはDATEDIFF関数を使えばいいので。
DATEDIFF関数('day',[オーダー日],[出荷日])
※2つの日付の間の差を返す関数
![](https://assets.st-note.com/img/1708669084420-trODyfZ5pQ.png?width=800)
地域ごとの出荷日数をとりあえず出して、東北地方が一番出荷日数が掛かっているのがわかるのですが、それに対して面している地域ってこれじゃ、わからないんですよね。
![](https://assets.st-note.com/img/1708669147814-OilzjFeEYw.png)
そこで、地理的役割で都道府県と地域を階層にして表現します。
ここで、地域は都道府県を元に作成するを選択することで、階層構造になります。(各都道府県は複数の地域に属さないので、これにより都道府県を元に地域が紐づけされます。)
元々ある、国/地域は意味合いが違っているので、これを選択しても意図する結果にならない
![](https://assets.st-note.com/img/1708669784869-uAFR211phZ.png)
![](https://assets.st-note.com/img/1708670345390-bqYAGtpFHa.png?width=800)
列:年(オーダー日)
行:カテゴリ、サブカテゴリ、顧客区分
フィルター:カテゴリ(家具)
マーク:色(地域)
:ラベル(平均(出荷日数))
東北地方に面するのは、北海道、中部、関東の3つだというのがこれで分かります。
面している地域では中部地方が一番出荷日数が掛かっているのが分かります。
![](https://assets.st-note.com/img/1708670521361-l40SI7htSp.png?width=800)
カテゴリで「事務用品」に対して、中部地域の日数を表示すればいいので、内容を変更すると。
中部地方:4.0173日というのが分かります。
![](https://assets.st-note.com/img/1708670640267-dcwf68YJqg.png?width=800)
Ord1_Q17
売上と利益の相関を、製品名とカテゴリごとの分布で見てください。クラスター分析を使用して売上が高いグループがどこまでか割り出したとき、売上の高いと思われるクラスターに属する製品名が少ないように見えるカテゴリを教えてください。厳密な個数を比較する必要はなく、目視で確認できるレベルで構いません。なお、クラスター数は自動のまま変更する必要はありません。
Ord1_A17
売上と利益と製品名でまず散布図を作成します。
列:合計(売上)
行:合計(利益)
マーク:詳細(製品名)
![](https://assets.st-note.com/img/1708672489686-FVvpjRU5lw.png?width=800)
アナリティクスでクラスター分析ができるので、それを利用します。
問題の指定で、自動のままでいいとのことなので、そのままにします。
![](https://assets.st-note.com/img/1708672514352-uYdOWZBEpt.png?width=800)
列にカテゴリを入れてみると、事務用品のクラスター2(売上が高い)の数(製品数)が少ないように読み取ることができます。
![](https://assets.st-note.com/img/1708672851648-k9O6IicB94.png?width=800)
Q1~Q17まで基本ということで何回も解いてみました。
特に地理的役割(Q16)は普段使わないので、どうやるのか全く想像もつかなかったです。Ordを進めていくうえで、どんどん引き出しを増やさないとDataSaberにはなれないと痛感させられたOrd1でした。。。
この記事が気に入ったらサポートをしてみませんか?