難問解読_DaterSaber_Ord9-8
今日もDaterSaberの試練”技術力に関する十の試練”より難問解読をお届けしたいと思います。
■DaterSaber_Ord9-8
KTさんの動画では
DATA Saber Boot Camp Week7 "HandsOn - Advanced II" 1:22:33~あたりから解説されているところですが、少し分解して解読してみたいと思います。
■準備
vizを作る前に、まずこのケースの正規分布図を描いてみたいと思います。
Tableauでも描けると思うのですが・・・
私の実力ではとりあえずエクセルです。
オーダー日の週ごとの【出荷までの平均日数】とその【確率】を出して散布図を作成。
4あたりを中心にした、キレイな正規分布になっているようです。
■①管理限界線を引く
では作図していきます。
【出荷までの日数】(オーダー日から出荷日までの日数)はDATEDIFFで。
【出荷までの日数】を行に、オーダー日の週(連続)を列に入れます。
週ごとの【出荷までの日数】が折れ線で出てきました。
アナリティクスから
リファレンスライン(平均)と分布バンドを追加します。
※分布で【標準偏差、-3,3】を選ぶと自動的に3σ限界線を塗ってくれます。
■別の目線から見てみる(余談です)
ここで、目線を変えてデータを確認してみたいと思います。
【オーダー日の週】を(連続)→(不連続)に変更して、棒グラフにしてみます。
不連続なので、平均日数の多い週から順にソートすることができます。
左端の1つの棒が答え(3σ以上)ですね。
ヒストグラムも作ってみたいと思います。
まず【オーダー日の週(FIX)あたりの出荷までの平均日数】を作ります。
この値からビンを作成します。
サイズは0.1くらいにしておきます。
ビンを列に、行には【オーダー日の週】のカウントを入れて完成です。
冒頭に紹介した正規分布図を重ねてみます。
統計素人の私がイメージしやすいのはこんな感じです。
明らかに3σ(99.7%)から上に外れている棒が1つあります。
管理限界線σとの関係性はこんな感じです。
ついでに、箱ひげ図で表現するとこんなバラつきになります。
■②標準偏差をTableau計算式で
3σを超えてしまった週を色分け(判定)するため、標準偏差を計算式で書くことにします。
判定式は【平均+(3×σ:標準偏差)】を超える、というイメージです。
何も考えず、標準偏差の計算式を書くとこうなります。
①で作ったワークシートに入れてみると、当たり前ですが
平均日数が変わるたびに変化してしまうことが分かります。
WINDOW内でのサンプルに修正します。
同様に①で作ったワークシートに入れてみると
正しく計算できているようです。→(5.421-3.996)/3=0.475
同じ要領で、出荷までの平均日数を作ります。
相変わらず、vizに入れて確認します。
計算フィールドが増えるのはイマイチですが、解読編なので。
3σ=【出荷までの平均日数】+3×【標準偏差】
■③3σを超えたか判定
【折れ線グラフ+点(こちらを彩色)】の二十軸→軸の同期で表現します。
判定式は【AVG[出荷までの日数]>3σ】です。
■オーダーあたりの出荷日数を表示
見つけた3σを超えた週の詳細を確認せよとのことなので
オーダーあたりの出荷日数も確認してみます。
ここで、KTChannelではさらっと作図が行われているのですが、
私は意外と引っ掛かりました。。。
元のデータがどういうもの(LOD/階層)だったか、確認しておきます。
【場所】地域>都道府県>市区町村 の階層はいいとして
このデータの最も細かいLODは【行ID】でした。
1つのオーダーに対していくつかの製品がまとめて購入されているので、オーダーID>行IDですが
1つのオーダーIDには1つの顧客ID(1オーダーに複数名はない)です。
【場所】地域、都道府県、市区町村との関係としては
1つのオーダーで複数の場所への注文があることが分かります。
”市区町村を確認”という問題なので、細かいところはケースバイケースなのだと思いますが、個人的な感覚として
オーダーIDごと×配送(場所)の遅延度が知りたい、ような気がするので
私はオーダーIDごとの日数が見えるワークシートにしてみました。
■完成
あとはダッシュボードにまとめて完成です。
自分なりの解釈というところですが、
正規分布やヒストグラムとの関係を確認してみたことで、少し理解が深まった?様な気はします。
vizはこちら↓
【難問解読】Order9-8 | Tableau Public
この記事が気に入ったらサポートをしてみませんか?