「データ可視化学」の活用

前回取り上げた江崎貴弘『データ可視化学』はデータサイエンティストをターゲットにしている。
我々マーケティングリサーチの仕事としている人には難しいし、「そんなの使わんだろ」が多い。調査報告書のグラフの描き方に焦点をしぼって活用の仕方を考えた。
<探索志向と説明志向のデータ可視化>
著者はデータ可視化に探索的と説明志向があると書いている。
可視化以前のデータ取得にもこの違いがある。マーケティングリサーチ:MRは、そもそもデータ収集のやり方説明志向的に対して、データサイエンスは探索志向であると言える。単純に例えると、
「最近のシェアダウンの原因を解明(説明)したい」を目的にすることが多いMRに対して、「支店別の売上げとそれに関連するだろうデータがある。ここからわかることを分析(探索)したい」がデータサイエンスである。
ここから、MRのデータ可視化は説明志向に偏り、データサイエンスは探索的志向が濃くなる傾向が生まれる。
<報告書のグラフは説明志向型データ可視化>
リサーチ会社の初期教育でも言われることだが、棒グラフを立方体表現にすることと円グラフの使用は、原則禁止としたい。
カタログ、パンフレットの装飾として使うのはよいとして、報告書では使わない。理由は「データの差の読取りが難しい」からである。
例えば、40%と33%でどちらが大きいか、円グラフを見て直感することはできず、数値を確認する手間を要求される。ドーナツチャートを立体的に描くに至っては説明志向的データ可視化というより、詐欺的データ可視化である。
ということで円グラフは帯グラフで代替し、棒グラフ2次元平面の棒にする。
<棒グラフの注意点>
棒グラフは説明志向のデータ可視化の定番である。これを探索的に使う場面は想定しずらい。
棒グラフは、原点(ゼロ)、幅(ビン)、データ単位、セグメントを統一する。差を強調するために原点を動かさない。棒グラフの幅(ビン)は表示本数の多寡によらず各表で統一する(Excelは自動調整でなく指定にする)。左側販売量、右側認知率のように2種類のデータを1枚にするときは関連性が予想できるものに限る。地域別グラフと男女別グラフは別表にする。などが基本的注意点である。
積上げ棒グラフ、集団棒グラフは何を強調したいのか目的をはっきりさせる。また積上げ、集団数は5以下にする。
必ずしも棒グラフにこだわらないで折れ線グラフにした方が説明志向可視化機能が高い場合もある。
<ドメイン知識と仮説構築力>
以上はP44まででわかることである。
その先はデータサイエンティスト向きで、データそのものとの格闘のやり方といった風情である。
我々MRはローデータそのものを「眺める」ことも少なく集計表から分析に入ることが多い。ただ、ネットリサーチのろーデータをパラパラと外観すると分析のヒントを得られることはある。
p44以降では、サンプルサイズ、データのばらつきを常に可視化しろ、はMRでも大切にしたい。
レーダーチャートは、プロファイルの形が特徴的に違う2つの比較に使うべき。似た2つを表示しても「言いたいことがわからない」し、3つ以上ひとつのレーダーに表示すると混乱するだけである。などが参考になる。
箱ヒゲ図はMRでも探索的に使えそうだが、なぜか使われない。
MRはカテゴリーデータの扱いが多いせいかもしれない。
その後の多変量解析の可視化はまだしも分布型、距離、ネットワークなどになると通常のMRではほとんどお目にかからない。
最後に可視化した後どう解釈するかというテーマが取り上げられ、データサイエンス本来課題が提示される。
データティストは豊富なドメイン知識で豊かな仮説作りができないとデータの解釈ができないとの結論で、MRとつながる部分もある。
やはり、我々MRはドメイン知識中心で、収集されたデータをフラットな視線で見るという作業はしない、説明志向型であると確認できる。


この記事が気に入ったらサポートをしてみませんか?