データ可視化において最も重要なスキルは何か

2021年5月1日 21:13

データ可視化のスキルはCode / Design / Journalism

「データ可視化を活用した報道コンテンツを制作するにはどのようなスキルが必要か」と聞かれます。

データ可視化コンテンツの制作工程は大きくCode / Design / Journalismの3つに分けることが一般的です。大規模なプロジェクトであればITエンジニア、デザイナー、ジャーナリストの3者がチームを組んでコンテンツを作ることが多いでしょう。ただ実際の作品のクレジットを見ていると、誰かが兼務する、あるいは1人ですべて担当することも多いようです（個人的には1人で小規模なコンテンツを作ることも重要だと考えています。詳細は以前の記事『日本に足りないのは「ひとりで作るデータ報道」かもしれない』をご覧ください）。

データの編集とは何か

一方で、私はこれらを通貫する工程として「データ編集」と呼んでいる作業が最も重要だと考えています。データ編集とは、簡潔に言うと「データの意味や社会的なニーズを踏まえて、具体的な仕様やデザインに落とし込むこと」です。

ひとつ事例を挙げます。以下は厚生労働省がウェブサイトで報道発表資料として毎日発表している検査陽性者の状況です。

余談として、現在ではオープンデータなど、機械制御しやすい形式で公開されるようになりましたが、当初は上のような表（おそらくExcelのスクリーンショット）が画像で公開されるのを目視して手入力していました。また、時間のある方はぜひ厚生労働省のトップページからこの表に辿り着けるかどうか試してみてください。同じ情報が複数のページにあったり、少しずつ違うデータが別の場所に掲載されていたりして、どこにどのような資料があるか確認するのも慣れが必要です。

ここにはPCR検査実施人数、陽性者数といった私たちが報道などでよく見る数字が並んでいます。では、ふだん「感染者数」と呼んでいる数字はどこにあるでしょうか。

ここ↑だと考える方が多いと思いますが、正解はこちら↓です。

合計ではなく国内事例です。言い換えると、昨年チャーター便で武漢から帰国したケースや空港検疫でのケース、またここには掲載されていませんがダイヤモンド・プリンセス号（DP号）の事例は含まれません（なおこれは東洋経済「新型コロナウイルス国内感染の状況」をはじめとして複数のメディアを確認しました。例外もあるかもしれません）。

背景を説明すると、このダッシュボードを制作した当時は、国内の感染者数を報じるメディアの多くがチャーター便や空港検疫を含めていました。厳密にはDP号は検疫が済んでいなかったため厚生労働省の統計でも国内事例には含まれていませんが、それも含めて「DP号を含めると◯◯人」のように報じていたケースが多かったはずです。

しかし、そのとき読者が必要としていたのはDP号や空港検疫のケースを含めたものではなく「純粋に国内でどのくらい事例が発生しているか」だと私は感じていました。大きく言えば「自分や家族・友人が感染する可能性はどのくらいあるか」が知りたい、そのために国内でどのくらい感染が発生しているかが知りたいのでは、と仮説を立てました。それをシンプルに表現するためには、限りなく海外事例に近いケースは除いた方がいいというのが私の判断でした。

その後、多くのメディアが同じ基準で感染者数を発表するようになり、また厚生労働省のオープンデータもそれにならってか国内事例だけをオープンデータとして公開し始めたので（欲を言えば行政の公開するデータは正確性と網羅性を意識してほしいのですが）、この方向性は間違っていなかったと感じています。

このように、ユーザー/読者/社会において何が必要とされているか想像し、データの取捨選択を行なったり、デザインに取り入れるのがデータ編集です。

移動平均線

もうひとつの例として、移動平均線を挙げます。

「新型コロナウイルス国内感染の状況」を開発していたとき、以下のように陽性者数やPCR検査人数などの指標に後方7日間＝最新日を含む直近7日間の移動平均線を載せました。

グラフに移動平均線（後方7日）を追加しました。スイッチで表示のON/OFFを切り替えることができます。これで日ごとの増減が激しい項目でも傾向が見やすくなるはずです。
たとえば1日あたりのPCR検査人数は、増減がありつつも4月に入ったあたりから増加傾向にあることがわかります。 pic.twitter.com/J7F6amJYpv
— 荻原和樹 / Kazuki OGIWARA (@kaz_ogiwara) April 26, 2020

このころは感染のいわゆる第1波が収束の兆しを見せ始めたころで、東京など大都市の新規感染者数を各メディアが競って速報していたころでした（今も感染者数が多くなるとこうなる傾向にありますが）。最新の新規感染者数は「速報」としてSNSなどで拡散されます。

しかし、今では多くの方が認識していることですが、日別の感染者数には報告の遅れや休日（土日祝日には稼働していない医療機関もある）などによる増減があり、必ずしも感染者数を正確に示唆しているとは言い難い。何よりも短期的な感染者数の増減に一喜一憂するのは健全でないと私は感じていました。

そこで、もう少し長期的なトレンドを見てほしいと考えて移動平均線を実装しました。移動平均では日数や方向（中央、前方など）が設定できますが、今回は曜日による先述の報告バイアスをならすため、後方7日間平均としました。移動平均はよく経済の分野で使われるグラフ表現であるため、実装した当時は「東洋経済っぽい」とTwitterで言及されていたことを覚えています。

世界的にも報告のタイムラグや曜日による偏りはあるようで、今では様々な新型コロナのデータサイトが移動平均を採用しています。その中には、おそらく移動平均の方を注目してほしいという意図があると考えられますが、実数の棒グラフよりも移動平均の折れ線グラフを目立つように配色しているサイトもあります（画像はNew York Times）。

チーム作業では特にデータ編集を意識する必要がある

データ編集の作業は、必ずしも直接コードを書いたりデザインの差配をするわけではないのですが、すべての工程に影響するかなり重要な作業（意思決定）だと考えています。

一般的なテキスト記事にたとえると、インタビューの編集と似ているかもしれません。取材対象者が喋ったことをそのまま文字に起こしても読みづらい。必要に応じて文体を調整したり、通底するメッセージを読み取って見出しをつけたり、といった編集がインタビュー記事には必要です。この作業を行うにはインタビューそのもの（取材対象者が喋っていること）、読者が求めていること、両方を理解していることが望ましい。同じことをデータに対して行なっていると考えてください。

難しいのは、このスキルは実際に手を動かして試行錯誤して作ってみないと身に付きにくいこと（他の多くの仕事もそうだと思いますが）。データ可視化の完成イメージがないITエンジニア / デザイナー / ジャーナリストが集まっても、データ編集の役割を誰かが担わないとちぐはぐな作品に仕上がってしまうのではと思います（実際、私から見てそのように感じる作品もあります）。

データ可視化とは、いわばデータから視覚表現への翻訳です。「日本語だけできる日本語学者」と「英語だけできる英語学者」がチームを組んでも翻訳ができない（そもそも意思疎通ができない）ように、特にチーム作業の際には「データ編集を誰が/どのように行うか」を意識する必要があります。

この記事が気に入ったらサポートをしてみませんか？