見出し画像

マイケル・フレンドリー、ハワード・ウェイナー著『データ視覚化の人類史――グラフの発明から時間と空間の可視化まで』

※2023年1月17日にCharlieInTheFogで公開した記事(元リンク)を転載したものです。


 約1万7300年前のラスコー洞窟壁画以来、人類はさまざまな形で情報を図像化して伝えてきました。その中でも「データ視覚化」は、収集したデータをグラフィックな形で示すことで何らかのエビデンスを引き出す点で、壁画や地図とは異なる機能を持ちます。この特徴を踏まえて「データ視覚化」という営みの誕生と発展を跡付けるのが本書です。


データ視覚化を生んだ社会背景

 データをグラフに表した最初の例として本書が位置づけるのは、1644年、オランダの地図作成者ミヒャエル・フローレント・ファン・ラングレンが作成した経度問題に関するグラフでした(第2章)。トレド―ローマ間の経度距離をめぐる12の概算を、目盛りの付いた直線上にドットをプロットして表示したものです。

 驚くべきことにこのグラフの目的は、経度距離の平均や中央を探るためではなく、その「誤差」を示すことにありました。時は大航海時代。経度決定は当時の科学の最重要問題であり、経度決定に懸賞金が与えられるほどだった頃、ラングレンはパトロンに「誤差」を示すことで、そうした誤差をなくすためにも経度決定に関する技術の特許権を認めるよう主張したのです。

 データを視覚化したグラフが、議論におけるエビデンスを示すツールとして機能したのは19世紀初頭のフランスのこと(第3章)。人口が爆発的に増加したパリで、犯罪や貧困が社会問題化したことを受けて、その対処にまつわる論議が活発化していました。博愛主義と保守主義との対立の中で、データ不足が認識されることとなり、犯罪統計の収集が始まります。

 1829年、弁護士アンドレ=ミシェル・ゲリーらが、犯罪件数と教育レベルを色の明暗に置き換えてフランス地図を区域ごとに塗り分けた主題図を作成。これにより、データ集合をグラフ等に表示することによって社会問題を推論することの重要性が認識されます。

 19世紀半ばのイギリスでは公衆衛生分野でデータ視覚化がその威力を発揮します(第4章)。物理学者だったウィリアム・ファーはイギリス初の公式統計学者となり、人口統計を散布図に起こすことで1848年に流行したコレラの原因を推論しました。当時ロンドンでは一般的だった「瘴気理論」の影響を受け、分析手法も未発達だったため、「標高が低いほど死亡率が高くなる」という疑似相関を因果関係にそのまま当てはめる誤りを犯してしまいますが、それでも散布図というデータ視覚化手法による分析の先駆例と言えます。

 1854年に再びコレラが流行すると今度は、医療助手の経験がある物理学者ジョン・スノウが名乗りを上げます。スノウが作ったある地区の地図では、死者が出た箇所をプロットし、他の公共ポンプよりも特定の1つの公共ポンプが最寄りとなる範囲を線で囲むと、その領域の内外で、プロットされたドットの集中度が異なっています。こうしてスノウは、コロナの原因が汚染された水であることを立証しようとしたのです。

 しかしファーが標高以外の説明要因も排除しなかったのに対し、スノウは水による伝播しかないと主張したため、スノウの説は簡単には受け入れられなかったそうです。スノウへの再評価はコッホが1905年に医学的なメカニズムを証明し、さらに時間がたってからだったといいます。

プレイフェアの「ビッグバン」以後、進化する視覚化形式

 ところで、データ視覚化の代表的な形式といえば円グラフ、線グラフ、棒グラフです。これらの起源をひもとくと、そのすべてが18世紀終盤から19世紀初頭にかけて、スコットランドの科学者ウィリアム・プレイフェアによって確立されたといいます(第5章)。グリッド線や、軸ラベル、単位表示、推測値の破線表記など、現代でも使われる慣習も、彼によるものです。

 本書はその功績を、データ視覚化における「ビッグバン」であると高く評価します。何よりもプレイフェアは「グラフという媒体を使えば、単なる言葉や数字よりもはるかにストーリーを語ったり議論をしたりすることができる」ということに自覚的だったのです。

 こうしたグラフ手法と視覚的推論は経済学を中心に19世紀後半には定着しますが、プレイフェアが生きた時代には不評でした。特に国債のような、目に見えない経済データを扱ったグラフを中心に、「想像上の遊び」という批判が付きまといました。借金と糖尿病に苦しみながら1823年に世を去ったプレイフェアの墓には墓碑すらないそうです。

 プレイフェアが確立したデータ視覚化の形式は、現在まで活用される偉大なものですが、彼自身は必ずしも、メッセージを直接視覚化することには成功していませんでした。

 例えば貿易収支についての線グラフは、収支自体を線で描くのではなく、輸入と輸出の2本の線を描き、その間を網掛けして強調するような描画をしていました。経時的なさまざまな変数を別個に示すことはできても、「導き出された変数」を直接プロットすることはしていなかったのです。

 また、彼の線グラフや棒グラフでは、横軸は必ず時間軸でした。単一の変数以上のものを示しつつも、異なる変数との関係性までは示せていないという意味で著者は、プレイフェアのグラフは「1.5次元」であるといいます。近代的グラフの「ビッグバン」を起こしたプレイフェアでさえ、2次元の散布図は発明できなかったというわけです。

 では、後にコレラの原因分析でも使われる散布図はいつ生まれたのか。本書が注目するのは天文学者サー・ジョン・フレデリック・ウィリアム・ハーシェルによる、1832年の「回転する二重星の軌道に関する調査」です。二重星に関する18の観測を、縦軸を位置角、横軸を分離距離とするxy平面上にプロットし、平滑化した補間曲線を引いてみせたのです。

 異なる2つの変数を軸に据えてxy平面上にデータをプロットする例自体は、ハーシェル以前にもありました。しかい本書は、ハーシェルは実際の観測値をプロットした点を参考に、平滑化した補間曲線を引いて2変数の関係性を求めようとした点を「視覚的思考における真のイノベーション」と位置づけています。

 その後、相関や回帰といった概念が発展し、20世紀には天文学のヘルツシュプルング=ラッセル曲線、経済学の最重要グラフであるフィリップス曲線などを生み出すに至ります。

データ視覚化の何がイノベーションかをたどる

 このように本書は、単に見た目上、棒グラフのようなもの、散布図のようなものがいつできたかということにこだわるのではなく、現代においてそれぞれのグラフが果たす機能がいつどのように生まれ発展してきたかを洞察する丁寧な作業を行います。

 ですから、単に図表を見ているだけでは本書の史観はなかなか飲み込みづらいところがあるかもしれません。残念ながら翻訳も優れて読みやすいとは言えないのが難点です。

 しかし、データ視覚化の機能をもとにした歴史をたどることは、私たちが今用いている様々な視覚化表現が一体どんな効果を持つのかを再認識するのを助けてくれます。ここに本書の面白さがあると言っていいでしょう。

(飯嶋貴子訳、青土社、2021年)=2023年1月13日読了


この記事が参加している募集

読書感想文

この記事が気に入ったらサポートをしてみませんか?