AIがデータ可視化の仕事を駆逐する日

荻原和樹 / Kazuki OGIWARA

2023年3月21日 12:19

最近ChatGPTを触っています。

すでに多くの人が報告していますが、GPT-4の文章生成能力は驚異的で、極めて幅広いホワイトカラーの仕事に影響を及ぼすだろうなというのは想像がつきます。あまり大きな声では言えないですが私も少しだけGPT-4に仕事を手伝ってもらっています。

ChatGPTやStable DiffusionのようなGenerative AI（生成AI）がデータ可視化に対してどのような影響を与えるのか、最近つらつら考えています。

純粋な視覚表現のデザインはAIとの競争にさらされる

まず考えられることとして、いわゆる「制作」の工程は大幅にショートカットされるでしょう。Generative AIは、人間が素材を明確に指示して作業を依頼すると本当に驚くべき精度でやってのける。

すでにPDFから抽出した非構造化データをJSON形式の構造化データに変換してもらうことをGPTで試みている人がいます。

このようなデータの下処理はAIが最も得意とする分野でしょう。同じ理由で「このデータから棒グラフ画像を生成して」といった指示をして、データからグラフや地図といった視覚表現を作ることもできるだろうし、昨今のAI技術発展の早さを考えるとビジネスですぐ使えるレベルのツールが早晩できてもおかしくない。

画像生成で「i2i」（元の画像から別の画像を生成するAI）を応用すれば「このグラフをイケてるデザインに変換して」「このグラフを我が社のデザインのトンマナに合わせて修正して」みたいな指示もすぐにできる時代がやってきそうだ。

とはいえ、すべてがバラ色の未来というわけにもいかない。というのも、「イケてるグラフにして」という指示でAIがいい感じに働くためには「イケてるグラフ」をたくさん学習しなければならない。が、現実問題として世の中にあふれるグラフはお粗末なものも多い（だからこそグラフの作り方がコンテンツとして成立する）。つまり人類は今までダメなグラフを作りすぎた。したがってAIが生成するグラフも、一般的なネット情報から学習する限り玉石混交となる。すると結局人間の側に「見る目」が必要となる、という流れも見える。

いずれにせよ、純粋に装飾的な意味で使われる配色やフォント、線といった視覚的要素の配置や位置調整作業はAIとの競争にさらされることになるだろう。

上流工程やドメイン知識は

では、逆に代替されない・されにくいものは何か。

データ可視化の上流工程やドメイン知識と呼ばれる部分、すなわちデータの意味や内容を踏まえて根本的なデータ可視化の設計を行う作業は（少なくともしばらくのところは）AIに代替されないだろう。データの数値や構造だけでなく、データが指し示すものの特性や社会的な文脈も考慮して、グラフなり地図なりのデザインに活かす。私がよくデータの編集作業と呼んでいる工程だ。

AIは「そこにないもの」を想像して補うことが苦手だ。ファジーな言い方をすると「先回りして気を遣うこと」とでも言えばいいか。人間が明確に指示をすれば驚くほど精密に作業をやってのけるが、未知の事象に一歩踏み出すと途端に言い回しが一般的になったり、抽象的になったりする（だからこそいまPrompt EngineeringがAIに仕事をしてもらうときの「魔法」として注目されている）。

試しにGPT-4に「新型コロナのデータを可視化する時に気を付けることはありますか」と訊いてみた。

新型コロナのデータを可視化する時に気を付けることはありますか。

新型コロナのデータを可視化する際に注意すべき点は以下の通りです。
1. データの信頼性: 正確で信頼性の高いデータ源を使用し、古いデータや不正確な情報を避けてください。
2. 時系列: データの時系列を明確に示し、期間やデータ収集のタイミングがわかるようにしてください。
3. スケール: 適切なスケールを選択し、データの比較や解釈を容易にすることが重要です。
4. 正確な単位: 人口あたりの感染者数、死亡者数、ワクチン接種率など、適切な単位を用いてデータを表現してください。
5. 地域差: 地域や国ごとの違いを考慮し、データの比較や解釈に影響を与えないようにしてください。
6. 色や記号の使い方: 色や記号を使って情報を明確に伝え、誤解や混乱を避けるようにしましょう。
7. コンテキスト: データの背景や関連情報を適切に提供し、データの解釈に役立ててください。
8. シンプルさ: 可視化はできるだけシンプルにし、視覚的なノイズを減らしてデータの理解を容易にしてください。

データ可視化は情報を伝える力強いツールですが、適切に使用しなければ誤解や混乱を招く可能性もあります。新型コロナのデータを扱う際は、これらの注意点を念頭に置いて作業を進めてください。

この回答は一般的なデータ可視化を作る際の注意点としては優秀だが、新型コロナに特有の事情を的確に言い当てているとは言い難い。

たとえば、新型コロナのデータ可視化デザインにおいてよく使われる要素が「移動平均」だ。毎日の新型コロナの検査陽性者数は原則として「その日に報告が上がった数」だ。検査陽性者の報告は医療機関などから自治体、さらに都道府県、厚生労働省と情報が集約されていく。したがって医療機関や自治体などが休みである土日の翌日（つまり毎週日曜日と月曜日）は検査陽性者数の報告が少ない傾向になる。したがって「感染者数が最多更新」といったニュースが出るのは休日分の数が上乗せされる火曜日が多い。しかしもちろん感染傾向が休日に少なくなるわけではない。

そこで人類が編み出したのが移動平均だ。移動平均とはその日の前後数日間の平均をグラフに付加して表すことで、新型コロナのように曜日による変動があるデータなら後方7日間平均（その日を含めた直近7日間の平均）を使うことが多い。これによって曜日や祝日の本質的でない数字のブレに惑わされることなく数字を見ることができる。

新型コロナウイルス検査陽性者数のグラフ。左が実数のみ、右が移動平均を強調したもの
（データ：厚生労働省「データからわかる－新型コロナウイルス感染症情報－」）

この他にも新型コロナのデータにおいては「感染者と検査陽性者の違い」「一部の都道府県で重症者の定義を変えているため比較ができない」といったいくつかの「罠」がある。

なお先月出版した『データ思考入門』（講談社現代新書）では、まさにこうした上流工程＝意味や内容を踏まえた可視化の方法にフォーカスしてデータの読み方や伝え方を解説しています。

話を戻すと、まだAIはこのような「データのコンテクストを踏まえて付加的な要素を提案する」までには至っていないようだ。もちろん人間が上手く指示すればいけるかもしれないが、そうすると結局専門的な知識がないとAIを使いこなせないことになる。

AIが完全にデータ可視化の設計や制作仕事を駆逐する日は来るのだろうか。「ねえChatGPT、2030年に発生した新しい感染症のデータを可視化するときに注意することを教えて」→「2020年代初頭に発生した新型コロナではこうでしたから、今回はこうするといいですよ」みたいなやり取りが、いつか出来るようになるかもしれない。

この記事が気に入ったらサポートをしてみませんか？