見出し画像

1.6 「折れ線グラフは"読めない"」論争

折れ線グラフ論争の元ネタ

2023年の夏、Nightingaleという可視化に関するサイトに
"Connected Scatterplots Make Me Feel Dumb"(折れ線グラフは私を愚かに感じさせる)
という記事が公開されましたが、一方でそれに反論する形でMediumに
"Are Connected Scatterplots Unreadable?"(折れ線グラフは読めないのか?)
という記事が投稿されました。

それなりに盛り上がっている話題のようなので、今回は論争の内容を簡単に(私見も交えて)まとめてみます。

折れ線グラフが読めないって、そんなことある…?
と思うかもしれません。

先に言っておくと、これは"折れ線グラフが読めない"ではなく「パラメトリックプロット(が理解してもらえない)」に読み替えるのが適切です。

具体的にイメージしている図はこんな図です:

これはニューヨークタイムズ誌に掲載された記事で、アメリカの車の運転事情に関するデータです。
データとしては、

  • 西暦

  • 一人あたりの自動車走行距離

  • 10万人あたりの自動車事故死亡者数

がセットになっています。
この図では横軸を「一人あたりの自動車走行距離」、縦軸を「10万人あたりの自動車事故死亡者数」とし、各年のデータがどこに位置するかを散布図で描いたあと、前後の年を線で結んで折れ線グラフにしました。
これはつまり、パラメトリックプロットというやつです。

折れ線グラフ"読めない"派

この図自体には特に間違いはないと思いますが、元々のNightingaleの著者Nick Desbarats氏は、

「この折れ線グラフは"読めない"」

と言っています。
"読めない"というのは、多くの読者が理解できない or 読者が勘違いするという意味です。

これはパラメトリックプロットなので、時間軸が(年号ラベルとしてしか)表現されておらず、図として時間変化を見ることができません。

でも、(おそらく年号のラベルがついていることによって)読者は勝手に横軸が時間軸を表していると読み違え、
「一気に自動車事故死亡率が減った」
と解釈してしまうというのが、折れ線グラフ(パラメトリックプロット)が"読めない"とする側の主張です。(*1)
もしくは読者に高すぎる教養を要求しているとも言えます。

じゃあどうすればよいかというと、

  • 「時間軸を横軸にした『自動車走行距離』の図と『死亡率』の図を並べる」(stacked line chart)

  • 「時間軸を横軸にした『自動車走行距離』の図と『死亡率』の図をラベルをつけて重ね書きする」(indexed line chart)

のが良いと提案しています(下図)。

折れ線グラフ"読める"派

これに反論する側の主張は、こんな感じです。
まず"読めない"の意味にも色々あります。
例えば文字の場合には

  • 文字が汚くて読めない

  • 外国語のように、読み手がルールを理解していないため読めない

があり、後者の場合には読者に読み方を理解してもらえば読めるようになるじゃないかと言っています。

具体的には、先の折れ線グラフの線に色をつけ、色のグラデーションで時間変化を表現すれば"読める"と提案しています。(ちょっと小さいですが、以下のサムネに出ているようなグラデーション付きの折れ線グラフです)

感想

これも「良い可視化 vs ダメな可視化」の構図で語られている話ですが、今回のは以前軽く紹介した「読者は可視化を理解する努力をしたくないはず」に似ている流れと同じだと思います。

つまり、「いかに多くの情報を盛り込み、視覚的に理解できる内容を増やすか」と「どれだけ少ない労力・短い時間で理解してもらえるようにするか」のバランスです。

縦軸が2つある折れ線グラフの例

ちょっと脱線しますが、比較的有名な"Storytelling with Data"という本がありますが、そこでは折れ線グラフの両端に異なる目盛をつけて重ね書きするのも"良くない"と言っています(上図)。
解決策は上での「折れ線グラフ"読めない"派」の主張と同じで、折れ線グラフを並べて描くべしと言っています。

「良い可視化 vs ダメな可視化」論争でよく基準として挙がるスペース効率(紙面の有効活用)の意味では、並べて描くというのはデメリットと言えます。
しかし1つの図に詰め込まないで複数に分けるというのは、読者の労力削減という意味でメリットと言えます。
ただ、図がたくさんあって1つ1つが小さくなればそうとも限りません。

この可視化の難しさの根底は、そもそもデータが高次元(2次元より大きい)ということだと思いますが、「良い可視化 vs ダメな可視化」の論争には実際にはメリットとデメリットの間にトレードオフがあったり、多分に主観が盛り込まれていたりするため、気になった時には今回のようにそのあたりの整理をしていこうと思っています。


*1:正確には、ニューヨークタイムズのデータとは別のサンプルデータを用いて説明しているので、ニューヨークタイムズの例をそのまま用いて説明するのは曲解ですが、概念理解としてはそのようにしても十分と判断し、端折っています。

ここから先は

0字
定期投稿ではありません。

入門書には載っていないような少しディープなデータ可視化の内容について解説していきます(比較的詳しい洋書や学術論文の抜粋解説、独自の解説記事…

期間限定 PayPay支払いすると抽選でお得に!

この記事が気に入ったらサポートをしてみませんか?