見出し画像

DataSaberへの道!Ord1備忘録(Q10~Q17)

Ord1_Q10

サブカテゴリごとの売上と、そのサブカテゴリを購入した顧客数の間に関連性はありますか?

Ord1_A10

列:個別のカウント(顧客Id)
行:合計(売上)
マーク:色(サブカテゴリ)
   :ラベル(サブカテゴリ)
傾向線を引いて、関連性を確認する

散布図に傾向線を引いてみると傾きがないので、サブカテゴリごとの売上と顧客数には関連性がないとのことが分かります。

回答viz

ちょっと違う目線で、カテゴリごとに傾向線をみると、事務用品は下がってみえます。(顧客数は多いけど、売上が少ない)
こうして視点をかえるだけで見えてくるものが変わるので、様々な視点での分析が必要ですね。
※売上だけに絞って推測すると、家具・家電に比べれば事務用品の単価は低いので、顧客数の多さに比べて売上が低いとわかると。試作としては単純に単価を上げればいいという話ではないですが、一つの傾向はみえますね。

おまけ:カテゴリでの傾向線

Ord1_Q11

4年間を通じて、購入顧客数が最も多い曜日はどれですか?
また、その人数は何人ですか?

Ord1_A11

列:曜日(オーダー日)
行:個別のカウント(顧客Id)
マーク:ラベル(個別のカウント(顧客Id))

顧客数が最も多いのを知りたいので、ラベルで最大値のみを表示するようにしました。

ラベル設定
回答viz

金曜日が561で一番多いのが分かります。

Ord1_Q12

オーダー日の全ての曜日で、利益率が15%を切っている年はありましたか?

Ord1_A12

計算フィールドで利益率を作成する。
 利益率:sum(利益)/ sum(売上)

計算フィールド(利益率)

列:曜日(オーダー日)
行:個別のカウント(顧客Id)
マーク:ラベル(個別のカウント(顧客Id))
アナリティクスペインでリファレンスラインを15%固定で引く

リファレンスライン設定


回答viz

2016年が全ての曜日でリファレンスラインより下回っているのが分かりますね。

おまけvizとしては、利益率をアドホック計算で表すのもしてみました。
マーク:集計(利益率)>0.15

アドホック計算


おまけ:回答viz

2016年だけ、オレンジ(利益率0.15以上)がないのが分かるので、リファレンスラインを使わないこのやり方でも分かりますね。

Ord1_Q13

サブカテゴリ・顧客区分の組み合わせで、割引率が相対的に高いと分類される組み合わせはどれですか。
その組み合わせをグループとしてまとめてください。
それ以外は「その他」とします。
作成したグループごとに売上の伸びと利益率を年月の推移で比較して、割引率を上げるべきか下げるべきか教えてください。

Ord1_A13

サブカテゴリ・顧客分の組み合わせで、割引率が相対的に高いものを分類します。
列:顧客区分
行:サブカテゴリ
マーク:色(平均(割引率))

割引率が相対的に高いものを分類

色の編集でステップドカラーを「2」に設定

割引率高いものとその他の二分化にする色設定

割引率が高いものをグループ化する
・すべてのディメンションにする

グループ化

・すべてのディメンション
一つずつ選択したものに対してグループ化されました。

すべてのディメンション

・サブカテゴリ
画材小規模の顧客分だけですが、行(サブカテゴリ)に一つでも該当すると、グループ化されました。

サブカテゴリ

・顧客区分
顧客分に一つでも該当するものがあれば、全部がグループ化されました。
(テーブルの顧客分が3つとも該当するので)

顧客分

グループ化したディメンションを使用して、売上と利益率の関係をみてみます。

列:月(オーダー日)
行:サブカテゴリ&顧客分(グループ化したもの)
 :合計(売上)
 :集計(利益率)
<集計(利益率)>
棒グラフ
マーク:色(集計(利益率))
傾向線を入れる

回答viz

傾向線をみると割引率が高いグループは売上はさほど伸びていないし、利益も赤字が多いというのが見てわかります。
割引率をメリットがないようなので、割引率は下げた方がいいと読み取れます。

Ord1_Q14

2013年で一番売上が低い月と2015年で一番売上が高い月だけの平均金額は、全月の平均金額よりも高いですか?

Ord1_A14

リファレンスラインで平均線を引いて、2013年で一番売上が低い月と2015年で一番売上が高い月の2点を選択すると、それらの平均線が表示され、回答にたどり着けました。
列:年(オーダー日)、月(オーダー日)
行:サブカテゴリ

リファレンスライン
値:合計(売上) 平均
ラベル:カスタム 平均:<値>
ツールヒント:カスタム 平均:<値>

リファレンスライン


回答viz

全月の平均値が「4,732,851」
2013年2月+2015年5月の平均値が「4,932,248」
なので、後者が全月平均よりも大きいのが分かります。

Ord1_Q15

Q14で作成したチャートで年月の売上のトレンドを見ることができるようになりました。さらにブレイクダウンして、各年や月で何(カテゴリ、サブカテゴリ)が誰(顧客区分)に売れたのかをクロス集計表で確認したいです。2枚のシートを組み合わせてチャートをクリックするとフィルターされるダッシュボードを作りたいのですが、一つのマークをクリックしたときに月でフィルターするだけでなく年でフィルターするオプションを選ばせることはできますか?

Ord1_A15

カテゴリ、サブカテゴリ、顧客分の売上のクロス集計表を作成
列:年(オーダー日)
行:カテゴリ、サブカテゴリ、顧客区分
マーク:ラベル(合計(売上))
分析で総計を表示

分析で総計を表示


クロス集計表

A14で作成したvizとクロス集計表のvizの二つをダッシュボードで表現します。
ダッシュボードのアクションで、「年」でフィルター、「年+月」でフィルターの二つを設定

名前のところは挿入で、年や月を選択することにより、選択した年月でメニュー欄に表示されます。

年月のフィルター設定


年フィルターの設定


回答viz

メニューで年または年月のフィルターをユーザーが選択することができる

Ord1_Q16

「家具」カテゴリにおいて一番出荷までの平均日数が長い地域に面する地域の中で、最も出荷までに時間がかかる地域を調べてください。その地域の「事務用品」カテゴリでの出荷にかかる日数は何日ですか?

Ord1_A16

この問題を最初読んで、いきなりできた人は凄いと思いました。
面する地域ってどうやってわかるの?
って、悩んでも悩んでも答えが分からず、私はKT動画を見ました。

まず、出荷日数を出すのはDATEDIFF関数を使えばいいので。
DATEDIFF関数('day',[オーダー日],[出荷日])
※2つの日付の間の差を返す関数

出荷日数の計算フィールド

地域ごとの出荷日数をとりあえず出して、東北地方が一番出荷日数が掛かっているのがわかるのですが、それに対して面している地域ってこれじゃ、わからないんですよね。

平均出荷日数の確認

そこで、地理的役割で都道府県と地域を階層にして表現します。
ここで、地域は都道府県を元に作成するを選択することで、階層構造になります。(各都道府県は複数の地域に属さないので、これにより都道府県を元に地域が紐づけされます。)
元々ある、国/地域は意味合いが違っているので、これを選択しても意図する結果にならない

地理的役割の設定


地域別平均出荷日数


列:年(オーダー日)
行:カテゴリ、サブカテゴリ、顧客区分
フィルター:カテゴリ(家具)
マーク:色(地域)
   :ラベル(平均(出荷日数))

東北地方に面するのは、北海道、中部、関東の3つだというのがこれで分かります。
面している地域では中部地方が一番出荷日数が掛かっているのが分かります。

地域別出荷日数平均

カテゴリで「事務用品」に対して、中部地域の日数を表示すればいいので、内容を変更すると。
中部地方:4.0173日というのが分かります。


回答viz

Ord1_Q17

売上と利益の相関を、製品名とカテゴリごとの分布で見てください。クラスター分析を使用して売上が高いグループがどこまでか割り出したとき、売上の高いと思われるクラスターに属する製品名が少ないように見えるカテゴリを教えてください。厳密な個数を比較する必要はなく、目視で確認できるレベルで構いません。なお、クラスター数は自動のまま変更する必要はありません。

Ord1_A17

売上と利益と製品名でまず散布図を作成します。

列:合計(売上)
行:合計(利益)
マーク:詳細(製品名)


散布図

アナリティクスでクラスター分析ができるので、それを利用します。
問題の指定で、自動のままでいいとのことなので、そのままにします。

クラスター分析

列にカテゴリを入れてみると、事務用品のクラスター2(売上が高い)の数(製品数)が少ないように読み取ることができます。


回答viz

Q1~Q17まで基本ということで何回も解いてみました。
特に地理的役割(Q16)は普段使わないので、どうやるのか全く想像もつかなかったです。Ordを進めていくうえで、どんどん引き出しを増やさないとDataSaberにはなれないと痛感させられたOrd1でした。。。

この記事が気に入ったらサポートをしてみませんか?