見出し画像

難問解読_DaterSaber_Ord9-8

今日もDaterSaberの試練”技術力に関する十の試練”より難問解読をお届けしたいと思います。

■DaterSaber_Ord9-8

KTさんの動画では
DATA Saber Boot Camp Week7 "HandsOn - Advanced II" 1:22:33~あたりから解説されているところですが、少し分解して解読してみたいと思います。

Ord9-8

■準備

vizを作る前に、まずこのケースの正規分布図を描いてみたいと思います。
Tableauでも描けると思うのですが・・・
私の実力ではとりあえずエクセルです。

オーダー日の週ごとの【出荷までの平均日数】とその【確率】を出して散布図を作成。
4あたりを中心にした、キレイな正規分布になっているようです。

エクセルで作った正規分布表

■①管理限界線を引く

では作図していきます。
【出荷までの日数】(オーダー日から出荷日までの日数)はDATEDIFFで。

DATEDIFF

【出荷までの日数】を行に、オーダー日の週(連続)を列に入れます。
週ごとの【出荷までの日数】が折れ線で出てきました。

週ごとの出荷までの日数

アナリティクスから
リファレンスライン(平均)と分布バンドを追加します。
※分布で【標準偏差、-3,3】を選ぶと自動的に3σ限界線を塗ってくれます。

リファレンスライン(平均)と分布バンド
リファレンスライン(平均)と分布バンドを追加したところ

■別の目線から見てみる(余談です)

ここで、目線を変えてデータを確認してみたいと思います。
【オーダー日の週】を(連続)→(不連続)に変更して、棒グラフにしてみます。
不連続なので、平均日数の多い週から順にソートすることができます。
左端の1つの棒が答え(3σ以上)ですね。

オーダー日の週を不連続にしてソートしたところ

ヒストグラムも作ってみたいと思います。
まず【オーダー日の週(FIX)あたりの出荷までの平均日数】を作ります。

FIXオーダー日の週:出荷までの平均日数

この値からビンを作成します。
サイズは0.1くらいにしておきます。

【オーダー日の週(FIX)あたりの出荷までの平均日数】のビンを作成

ビンを列に、行には【オーダー日の週】のカウントを入れて完成です。

ヒストグラムが完成

冒頭に紹介した正規分布図を重ねてみます。
統計素人の私がイメージしやすいのはこんな感じです。
明らかに3σ(99.7%)から上に外れている棒が1つあります。

ヒストグラム×正規分布

管理限界線σとの関係性はこんな感じです。

ついでに、箱ひげ図で表現するとこんなバラつきになります。

箱ひげ図バージョン

■②標準偏差をTableau計算式で

3σを超えてしまった週を色分け(判定)するため、標準偏差を計算式で書くことにします。
判定式は【平均+(3×σ:標準偏差)】を超える、というイメージです。
何も考えず、標準偏差の計算式を書くとこうなります。

STDEV(標準偏差)

①で作ったワークシートに入れてみると、当たり前ですが
平均日数が変わるたびに変化してしまうことが分かります。

NGな標準偏差計算式

WINDOW内でのサンプルに修正します。

WINDOW_STDEV(ウィンドウ内標準偏差)

同様に①で作ったワークシートに入れてみると
正しく計算できているようです。→(5.421-3.996)/3=0.475

OKな標準偏差計算式

同じ要領で、出荷までの平均日数を作ります。
相変わらず、vizに入れて確認します。

WINDOW_AVG(平均日数)
vizに入れて確認

計算フィールドが増えるのはイマイチですが、解読編なので。
3σ=【出荷までの平均日数】+3×【標準偏差】

3σの値を作成

■③3σを超えたか判定

【折れ線グラフ+点(こちらを彩色)】の二十軸→軸の同期で表現します。
判定式は【AVG[出荷までの日数]>3σ】です。

AVG[出荷までの日数]>3σで点を色分け
色分けができたところ

■オーダーあたりの出荷日数を表示

見つけた3σを超えた週の詳細を確認せよとのことなので
オーダーあたりの出荷日数も確認してみます。

ここで、KTChannelではさらっと作図が行われているのですが、
私は意外と引っ掛かりました。。。
元のデータがどういうもの(LOD/階層)だったか、確認しておきます。

【場所】地域>都道府県>市区町村 の階層はいいとして
このデータの最も細かいLODは【行ID】でした。
1つのオーダーに対していくつかの製品がまとめて購入されているので、オーダーID>行IDですが
1つのオーダーIDには1つの顧客ID(1オーダーに複数名はない)です。

オーダーID(顧客別)>行ID

【場所】地域、都道府県、市区町村との関係としては
1つのオーダーで複数の場所への注文があることが分かります。

オーダーID:市区町村は1対多の関係

”市区町村を確認”という問題なので、細かいところはケースバイケースなのだと思いますが、個人的な感覚として
オーダーIDごと×配送(場所)の遅延度が知りたい、ような気がするので
私はオーダーIDごとの日数が見えるワークシートにしてみました。

出荷までの日数(オーダーID別)

■完成

あとはダッシュボードにまとめて完成です。

全体
フィルタしたところ

自分なりの解釈というところですが、
正規分布やヒストグラムとの関係を確認してみたことで、少し理解が深まった?様な気はします。

vizはこちら↓
【難問解読】Order9-8 | Tableau Public

この記事が気に入ったらサポートをしてみませんか?