見出し画像

『花束ダイアグラム (Sankey)』の読み方

今回は『花束ダイアグラム』という、弊社で開発したデータ可視化の方法についてご紹介します。

『花束ダイアグラム』は、実はSankey(サンキー)とBouquet(ブーケ)の2種類がありますが、今回はSankeyのみについて説明します。

多様なパターンを表現する図

例えば、以下のようなデータを考えましょう。

Aさんはリンゴ🍎とメロン🍈が好き、
Bさんはリンゴ🍎とオレンジ🍊が好き、
CさんとDさんはオレンジ🍊のみが好き

このように

「数えきれないほどではないけれど多様なパターンを持つデータ」

があるとき、それを分かりやすく可視化するのが花束ダイアグラムです。

典型的には複数選択式アンケートなどで得られるデータです。
よくパターン情報を無視した円グラフを描画したりもしますが、このような図はかなり情報が失われてしまいます。

花束ダイアグラムで冒頭のデータを可視化すると、以下のようになります。


ーー 読み方 ーー

属性なしの場合

見てすぐ読み方がわかる方も多いかと思いますが、上図の読み方は以下のとおりです。

左側の項目が選択アイテム、右側が回答者(同じ回答パターンを持つ人をまとめている)

属性ありの場合

各回答者が属性質問(単一選択質問)にも回答していた場合、その情報も付与できると便利です。

以下はそんな場合の花束ダイアグラムの例です。

回答パターンに加えて「性別」「居住地域」「雇用の有無」という属性質問に回答した場合


回答者側の属性分布だけではなく、選択アイテム側についての属性分布も同時に表示する場合もあります。

回答者と選択アイテムの両方に円グラフが付いている場合


ーー 複雑なパターンの場合 ーー

選択アイテムが多い場合は、回答パターンは膨大になる傾向があります。

見やすさのためラベルはすべて除いています

上図はまだパターンが読み取れますが、これ以上複雑になるとデータ可視化としてはごちゃごちゃしすぎです。

ちなみに上図を"普通のサンキー図"のように愚直に曲線で結ぶと以下のようになってしまいます。線のつながりが読み取れなくはないですが、結構ごちゃごちゃしていますね。上の花束ダイアグラムは、パターンの視認性が良くなるように工夫されていることがお分かりいただけるかと思います。

Bundlingなしバージョンの花束ダイアグラム


近似の導入

回答パターンが多いデータセットを正確に可視化する場合、ごちゃごちゃしすぎだといっても
「そういうデータなのだから仕方ない」
としか言いようがありません。

しかし読めないデータ可視化は、アートとしてはよいのですがデータ分析としては意味がありません。

そこで花束ダイアグラムでは、解釈可能な粒度まで回答パターンを近似したものを描画することもあります。
例えば上図を近似した花束ダイアグラムは以下のようになります。

近似ありの花束ダイアグラム

ここでは、
「頻度が低い回答パターンを、類似している頻度の高いパターンに割り振って近似する」
ということをしています。

回答パターンが制限されるというのは、右側の項目の数が減るということですが、高頻度の回答パターンに属さない選択アイテム(左側の項目)も同時に削減されます。

類似している回答パターンが複数ある場合には等分配されるので、少数が出てきたり、丸め込み等の問題で円グラフのカウントとずれてきたりするため、各カテゴリーのデータ量が小さい場合には不整合が気になるかもしれません。

正確性は多少失われますが、このように、どんなデータセットについても解釈可能なレベルでのパターン可視化が可能になります。


今回は花束ダイアグラム(サンキータイプ)の読み方をご紹介しました。
もっと細かい図のチューニングも可能ですが、詳細は省略しています。

花束ダイアグラムはウェブアプリを用いて作成できる図ですが、現在アプリは運営側にアカウントを依頼し、承認を得た場合のみ利用できる体制となっています。

質問・感想募集
質問や改善コメント、感想などありましたら、コメント欄よりお寄せください。

ウェブアプリ利用依頼
花束ダイアグラムのウェブアプリを利用されたい方は、ウェブサイトのお問い合わせフォームか、このnoteのコメント欄よりご連絡ください。

この記事が気に入ったらサポートをしてみませんか?