連続(緑)・不連続(青)を深堀りしてみる
はじめに
昨年 11 月に Tableau を触り始めましたが、操作もだいぶ慣れてきました。でもまだまだ理解できていないことがあるので、一つ一つ理解を深めていきたいと思います。
今回は連続を不連続にしたりすることがありますが、意図した操作ができていない(理解していない)のでここを深堀りしていきます。
▼使用するデータ
メジャーとディメンションの違い
最初にメジャーとディメンションをどこで見分けるかですが、左側にあるデータペインに青色と緑色で分かれたものがあります。
上部がディメンション、下部がメジャーになります。ディメンションは質的データ(カテゴリカル)、メジャーは量的データです。
読み込んだデータがディメンションなのかメジャーなのか、この仕分けは Tableau がデータを読み込んだときに自動で振り分けしてくれます。
※割り振り後、手動でディメンションとメジャーを変更することは可能
基本的な部分はこれぐらいにして、顧客名と数量を使って理解を深めていきます。シンプルに行に顧客名、テキストに数量(合計)を持ってきています。
今、メジャーになっている数量をディメンションに変更してみると、合計から離散値に変わりました。これは何を意味しているのか…?
1 行目の阿久さんは合計数量は 24 個でしたが、ディメンションに変更したら、1, 2, 3, 6, 7 に変わりました。ディメンション(青) = 質的データ に変わったので、阿久さんが 1 回の取引で購入した数量が表示されるようになった…本当にそうか…?w
1, 2, 3, 6, 7 を全て足しても合計数量とは一致しない…オーダー ID を追加して、購入取引の詳細を見て確かめてみます。
オーター ID を追加すると、阿久さんの合計数量は 24 個になります。ではディメンションにしたときの 1, 2, 3, 6, 7 はどう理解すればよいのか?これはユニークな値になっている。ユニークなので重複を除外した出現した値になります。オーダー ID を追加すると 2, 3 は 2 回出現していますが、ユニークにすると 1 回とカウントされます。
こう見るとメジャーからディメンションに変更することは、量的データ(連続値)→質的データ(離散値)に変更されていることがわかります。
連続と不連続の違い
では次に連続と不連続って何が違うのかを深堀りしていきたいと思います。今回は行に顧客名、列に合計数量で可視化します。
合計数量を不連続に変更してみます。
変化点が 2 箇所あります。
ます 1 箇所目が列にある緑色の合計数量が、青色の合計数量に変わりました。青色なのでディメンションですね。
2 箇所目が横棒グラフがなくなり、横軸のヘッダーに数字が並んでいます。この数字は何を意味しているのか?
これは最初にメジャーで算出された合計数量になります。ややこしいですね…最初に作成した横棒グラフの画像と見比べてみてください。
横棒グラフで最終的に積み上がった値がヘッダーに来ていることがわかります。Abc という値が出ていますが、ここが横棒グラフで最終的に積み上がった場所になっています。
まとめると、集計された連続を不連続に変更すると、集計された連続が不連続(ユニークな値)になりヘッダーに変わる。(うまく言語化できていない気がしますが、イメージはつかめました。私は…w)
まとめ
参考書などで可視化するときに、連続・不連続という言葉が何度も出てきてなんとなく使い方は理解していました。
でもこうして丁寧に一つ一つ挙動や違いを確認していくことで理解が深まり、その操作の意図を理解することができました。
あと統計の知識は最低限知っておく必要はあると改めて感じたので、統計の勉強も進めていきます!