[Tableau Tips]連続・不連続を切り替えた時の違いを理解する

やりたいこと:連続・不連続を分かりやすく伝えたい

Tableauは非常に便利なツールだが、理解する上での壁はいくつかある。
今回紹介するのは連続・不連続である。慣れてくると感覚で切り替えられるようになるが、この概念はなかなかとっつきにくいと思う。
そこで今回は連続・不連続を切り替えた時の違いについて説明する。
単に概念の説明だけではなく、実際のTableauの挙動差分を示すことで、
より分かりやすく工夫したつもりである。
これまた少し長い記事だが最後まで読んでほしい。

そもそも連続・不連続とは何か?

まずは公式サイトにかかれている正確な定義を引用しよう。

Tableau は、フィールドが不連続 (青) か連続 (緑) かによって、ビューでのデータ表示方法が異なります。
連続と不連続は数学用語です。連続とは「中断されることなく、つながった全体を形成する」、
不連続は「それぞれが別々かつ個別であること」を意味します。

公式サイト:フィールド タイプ: ディメンショとメジャー、青と緑
https://help.tableau.com/current/pro/desktop/ja-jp/datafields_typesandroles.htm

これを私なりにもう少し柔らかく表現するならば、
「連続・不連続とはTableauがデータを可視化する際に、その可視化方法を決めるための設定」とでも言うべきだろうか。
例えばサンプルスーパーストアでいうなら、売上のような数値データは連続として扱われることが多いし、カテゴリのような文字列データは不連続として扱われることが多い。
ただし状況次第では数値データを不連続で扱うこともある。あくまでも作りたい見栄えに対する設定である。

よく言われる例は、連続は定規の目盛り、不連続はトランプの数字である。

Ishikawaさん(@Issy1972 )作の図。すごくよく見てお世話になった。
ご本人に連絡の上、引用させてもらった。
https://twitter.com/Issy1972/status/1155104700750016512

連続の場合、数字は等間隔に並んでおり、並び替えはできない
(さながら、定規の目盛り)。
不連続の場合、数字は等間隔に並んでなくてもよく、並び替えができる
(さながらトランプの数字)。
例えば1、3という数字があったときに、その数字の間をどう扱うかの違いとも言えよう。
連続扱いする場合は1と2を一繋がりとみなして、1、(2)、3と等間隔にプロットするし、並び方は定規のように1通りである。
不連続扱いする場合は、1、3と個別の要素とみなし、1、3と数字の大小関係を無視してプロットする。並び替えもトランプのように自由である。

不連続な数字がピンとこないかもしれないが、郵便番号を想像してほしい。
例えば東京中央郵便局の郵便番号は100-8994だが、数字そのものに大した意味はなく、数字を足し算・引き算をしたり、大小関係を意識した可視化をすることはないだろう。
数字を数字とみなさず、記号として扱うのが不連続である。

前半戦:マークに置いた時の違い

ここからはもう少し具体的な違いを3つ見てイメージをつかんでいこう。

①フィルタに入れた時の違い
例えばサンプルスーパーストアでいう利益をフィルタに入れてみよう。
連続扱いでフィルタする場合は大小関係でフィルタできる
(例:利益がN円以上)。
不連続扱いの場合は、数字を個別で指定する。(例:利益がX円かY円 )。

厳密にいうともう1つ違いがあり、連続はフィルタする前にどう集計するかを聞かれる。

連続は数字をひと繋がりとして扱っているため、この差が出ているといえば納得できるだろう。

②色に入れた時の違い
次に色に入れた時の違いを見てみよう。
連続扱いでフィルタする場合はグラデーションで指定できる
(例:利益が0円以上で青、それ未満はオレンジ)。
一方、不連続扱いの場合は、数字毎に個別で色を指定できる
(例:利益がX円なら赤 )。

不連続の場合は大量の凡例が生まれる。
ちなみにこの数値はいずれも非集計。

これも言われてみれば納得の差である。連続は数値の大小関係に意味があるので、それに沿った可視化をしていると言える。

③アナリティクスでの違い
少しマニアックな違いとしてリファレンスラインの差がある。
連続扱いのデータに対しては、リファレンスラインが引ける
一方、不連続扱いのデータに対しては、リファレンスラインが引けない
一番分かりやすい例だと時系列データだろうか。
不連続扱いの年に対してリファレンスラインは引けないが、
連続扱いの年に対してはリファレンスラインを引ける。

連続の場合は、[売上]と[年(オーダー日)]に対してそれぞれ1通りの引き方がある。
リファレンスラインといったが、定数線も同じ挙動である。

連続であれば、データの間隔に意味があるので線を引ける。

後半戦:行や列に置いたときの違い

ここまでで連続・不連続の概念は理解できたのではないかと思う。
最後に行や列に置いた時の差について説明する。
実はここからが本番で、一番直感的ではない違いである。
まず、公式の表現を引用しよう。

[データ] ペインからフィールドを [行][列] にドラッグすると、既定で値は連続となり、軸が作成されます。
[データ] ペインからフィールドを [列][行] にドラッグすると、値は既定で不連続となり、列ヘッダーや行ヘッダーが作成されます。

公式サイト:フィールド タイプ: ディメンショとメジャー、青と緑https://help.tableau.com/current/pro/desktop/ja-jp/datafields_typesandroles.htm

若干日本語が怪しいのはご愛敬である(笑) 
私なりにかみ砕いて表現するなら以下のとおりである。
連続の場合:軸を作ってデータをプロットする空間を作る
不連続の場合:ラベルを作りヘッダーになる
最初見た時は不思議な表現だと思ったが、よーーく噛みしめて理解すると中々良い表現だと思えるようになった。


具体的なTableau の画面をみていこう。例えば素直に売上を行に入れると、売上の軸が置かれて棒グラフがプロットされる。

売上の左側に売上をプロットするための軸ができる

数字が連続の場合、大小関係に意味がある。なので連続の場合は軸を形成し、その軸に応じてデータをプロットするのだろう。
軸を形成するという曖昧な言い方をしているのは、Tableauには色々な表現形式があるせいだろう。
棒グラフでも形状でも形成されるのは、確かに軸だけだろう。

そして不連続の場合はラベルを形成する。これはある意味そのままである。
先程の図にカテゴリを追加すると、カテゴリが列ラベルとして表示される。

列にカテゴリのラベルが追加された

これらの挙動は集計・非集計を問わず同じ挙動である。
例えば先ほどのVizの売上を非集計(ディメンション)にしてみよう。
この場合、売上明細のデータが各カテゴリ毎にプロットされる。
この時の挙動も、たしかに連続は軸を形成していると言えるだろう。

自動の表現が少しわかりにくいので形状に変えている。
この場合の[売上]も軸を作っており、[カテゴリ]はラベルを作ってる。
ここでいう軸はさながら定規の目盛りのようである。

複数の連続値を入れた場合も同じように軸が形成される。
例えば売上を行、列に利益を入れると散布図になる。
これも売上と利益がそれぞれ軸を形成している。
前に出た例を引用すると、定規を縦・横に組み合わせているように見える。

流石に初期状態だと分かりづらいので、サブカテゴリを詳細・ラベルに入れている。
これも軸が縦・横に形成されているのがポイントである。

最後に、連続・不連続を切り替えた場合を見てみよう。
例えばサブカテゴリ毎の売上を棒グラフで可視化する。横には表計算でランクもつけておこう。
この場合、売上とそのランクで軸が形成され、サブカテゴリのラベルがついている。

列に連続データが2つあるので、軸も横に2本形成されている。
軸はそれぞれ目盛りが違うのに注意。

この売上のランクを不連続にするとラベルに代わる。
売上のランクの軸が消えて、順位のラベルがたくさん出てくる。

分かりづらいVizだが、軸がラベルに代わってるのに気が付いて欲しい。

ちなみに不連続にした売上のランクを行に持ってくれば綺麗になる。
数字をラベル化したい場合は不連続にすればいいので覚えて欲しい。

ラベルにするために不連続にするというのはよくある動作だと思うが直観的ではない

ここまでの例を見ると、「連続は軸を形成する」「不連続はラベルを形成する」も大分腹落ちするのではないだろうか?
連続の場合、データをひと繋がりとして扱い、軸を形成してデータをプロットする空間が出来上がる。一方、不連続はデータをバラバラに扱い、軸ではなくラベルを形成するのである。

ここまでくれば連続データが並び替え不可能で、不連続データが並び替え可能なのは自明だろう。
連続データは軸に基づいてプロットするので並び替えできないし、不連続データは単なるラベルなので並び替えできる
例えば行IDを不連続扱いすれば、連番にしないことも出来る。

10を意図的に上に持ってきた。ラベルなので並び替えは自由である。
連続扱いすると意味が分からない可視化になるので割愛。


最後に一つ、連続・不連続の可視化について1つ例外を話したい。
それは時系列データで、不連続データでも連続扱いのように可視化される。

例えばサンプルスーパーストアのオーダー日を列にいれて売上を行に入れる。初期設定のままの場合、Tableauはオーダー日を不連続扱いするが、ひと繋がりの線グラフとして可視化する。例えば同じ不連続のカテゴリであればきちんと棒グラフで可視化されるのにである。

すごく見慣れた光景であるが、不連続の概念を頭に入れて考えるとちょっとおかしい
例えば右側のグラフを線グラフにしたら不適切な可視化になる。

可視化としては何ら間違ってないし、グラフはこの方が分かりやすい。
また連続は軸を作り、不連続はラベルを作るという法則には反してない。
しかし、連続・不連続の概念を理解するのに当たって、この例は不親切である。不連続なデータならひと繋がりの線グラフであってはならない
またラベルが規則的に並んでいれば、実質軸のようなものである。

この仕様を変えて欲しいとは私は思わない。時系列データは不連続扱いの方が並び替えが出来て扱いやすいし、可視化も棒グラフではなく線グラフにしてくれるのは親切な仕様である。また時系列を並び替えで乱すと、自動的に棒グラフに代わってくれるのも秀逸である。

しかしこの特別扱いのVizを見慣れているからこそ、どこか連続・不連続が理解しにくいのではないか(そして時系列扱いの混乱の遠因ではないか)。
私は色々検証するうちにそんなことを思ったのである。

余談:参考資料とか

本noteはDATASaberBridgeの勉強会で疑問に思ったことがきっかけで生まれた。Tableauは大分慣れたと思ったのだが、まだまだ自分の理解が甘いことを痛感させられた。おかげさまで正月休みと土日が数日この検証で解け、何度も校閲したので投稿も1月末になってしまった・・

なお本noteは以下の記事を参照しながら作成している。
私の解説よりも取っつき易いので、こちらも合わせて見てほしい。

ganekoさんのnote:Tableau 8つのハードルを越える②「連続と不連続 その1」
何度この記事を引用した分からないが、この解説は分かりやすい。

Ishikawaさんのnote:Tableauの超基本 #3 : ディメンションとメジャー (+連続と不連続)
比較的連載が始まったシリーズ。定規とトランプの例はこちらから引用。
さくっと読めるので入門編としてはこちらがおススメ。

公式の解説:ディメンションとメジャー、青と緑
よーーーーーーく読むと理解できる。最近ありがたみを感じている。
連続・不連続は、本来ディメンションとメジャー(非集計・集計)も合わせて言及すべきだが、話がややこしくなる気がしたので全カットした。
その辺りは上のお二方の解説が秀逸なのでそちらで勉強してほしい。

末筆にはなるが、DATASaberBridgeのAndo師匠(@amoeba_abc)
この場を借りて御礼を申し上げたい。
この記事はDATASaberBridge関連の企画をきっかけとして、
Ando師匠との議論やアドバイスを踏まえて生まれた記事でなのである。
Ando師匠も本件のTweetをされてるので参照してほしい。

もし記載誤り等があればTwitterで連絡いただけると助かります。
ご意見・ご感想もお待ちしています。どうぞお手柔らかに・・
ついったー→ https://twitter.com/minoru_tech  


この記事が気に入ったらサポートをしてみませんか?