AIがデータ可視化の仕事を駆逐する日
最近ChatGPTを触っています。
すでに多くの人が報告していますが、GPT-4の文章生成能力は驚異的で、極めて幅広いホワイトカラーの仕事に影響を及ぼすだろうなというのは想像がつきます。あまり大きな声では言えないですが私も少しだけGPT-4に仕事を手伝ってもらっています。
ChatGPTやStable DiffusionのようなGenerative AI(生成AI)がデータ可視化に対してどのような影響を与えるのか、最近つらつら考えています。
純粋な視覚表現のデザインはAIとの競争にさらされる
まず考えられることとして、いわゆる「制作」の工程は大幅にショートカットされるでしょう。Generative AIは、人間が素材を明確に指示して作業を依頼すると本当に驚くべき精度でやってのける。
すでにPDFから抽出した非構造化データをJSON形式の構造化データに変換してもらうことをGPTで試みている人がいます。
このようなデータの下処理はAIが最も得意とする分野でしょう。同じ理由で「このデータから棒グラフ画像を生成して」といった指示をして、データからグラフや地図といった視覚表現を作ることもできるだろうし、昨今のAI技術発展の早さを考えるとビジネスですぐ使えるレベルのツールが早晩できてもおかしくない。
画像生成で「i2i」(元の画像から別の画像を生成するAI)を応用すれば「このグラフをイケてるデザインに変換して」「このグラフを我が社のデザインのトンマナに合わせて修正して」みたいな指示もすぐにできる時代がやってきそうだ。
とはいえ、すべてがバラ色の未来というわけにもいかない。というのも、「イケてるグラフにして」という指示でAIがいい感じに働くためには「イケてるグラフ」をたくさん学習しなければならない。が、現実問題として世の中にあふれるグラフはお粗末なものも多い(だからこそグラフの作り方がコンテンツとして成立する)。つまり人類は今までダメなグラフを作りすぎた。したがってAIが生成するグラフも、一般的なネット情報から学習する限り玉石混交となる。すると結局人間の側に「見る目」が必要となる、という流れも見える。
いずれにせよ、純粋に装飾的な意味で使われる配色やフォント、線といった視覚的要素の配置や位置調整作業はAIとの競争にさらされることになるだろう。
上流工程やドメイン知識は
では、逆に代替されない・されにくいものは何か。
データ可視化の上流工程やドメイン知識と呼ばれる部分、すなわちデータの意味や内容を踏まえて根本的なデータ可視化の設計を行う作業は(少なくともしばらくのところは)AIに代替されないだろう。データの数値や構造だけでなく、データが指し示すものの特性や社会的な文脈も考慮して、グラフなり地図なりのデザインに活かす。私がよくデータの編集作業と呼んでいる工程だ。
AIは「そこにないもの」を想像して補うことが苦手だ。ファジーな言い方をすると「先回りして気を遣うこと」とでも言えばいいか。人間が明確に指示をすれば驚くほど精密に作業をやってのけるが、未知の事象に一歩踏み出すと途端に言い回しが一般的になったり、抽象的になったりする(だからこそいまPrompt EngineeringがAIに仕事をしてもらうときの「魔法」として注目されている)。
試しにGPT-4に「新型コロナのデータを可視化する時に気を付けることはありますか」と訊いてみた。
この回答は一般的なデータ可視化を作る際の注意点としては優秀だが、新型コロナに特有の事情を的確に言い当てているとは言い難い。
たとえば、新型コロナのデータ可視化デザインにおいてよく使われる要素が「移動平均」だ。毎日の新型コロナの検査陽性者数は原則として「その日に報告が上がった数」だ。検査陽性者の報告は医療機関などから自治体、さらに都道府県、厚生労働省と情報が集約されていく。したがって医療機関や自治体などが休みである土日の翌日(つまり毎週日曜日と月曜日)は検査陽性者数の報告が少ない傾向になる。したがって「感染者数が最多更新」といったニュースが出るのは休日分の数が上乗せされる火曜日が多い。しかしもちろん感染傾向が休日に少なくなるわけではない。
そこで人類が編み出したのが移動平均だ。移動平均とはその日の前後数日間の平均をグラフに付加して表すことで、新型コロナのように曜日による変動があるデータなら後方7日間平均(その日を含めた直近7日間の平均)を使うことが多い。これによって曜日や祝日の本質的でない数字のブレに惑わされることなく数字を見ることができる。
この他にも新型コロナのデータにおいては「感染者と検査陽性者の違い」「一部の都道府県で重症者の定義を変えているため比較ができない」といったいくつかの「罠」がある。
なお先月出版した『データ思考入門』(講談社現代新書)では、まさにこうした上流工程=意味や内容を踏まえた可視化の方法にフォーカスしてデータの読み方や伝え方を解説しています。
話を戻すと、まだAIはこのような「データのコンテクストを踏まえて付加的な要素を提案する」までには至っていないようだ。もちろん人間が上手く指示すればいけるかもしれないが、そうすると結局専門的な知識がないとAIを使いこなせないことになる。
AIが完全にデータ可視化の設計や制作仕事を駆逐する日は来るのだろうか。「ねえChatGPT、2030年に発生した新しい感染症のデータを可視化するときに注意することを教えて」→「2020年代初頭に発生した新型コロナではこうでしたから、今回はこうするといいですよ」みたいなやり取りが、いつか出来るようになるかもしれない。
この記事が気に入ったらサポートをしてみませんか?