データ共有はなぜ必要？ DIKWピラミッドと機械学習の関係を考える

2024年7月23日 07:19

なぜデータを共有しないといけないのでしょうか。準備が面倒なばかりで、結局は使わないのではないでしょうか。いつも見ている情報をこまめに更新して丁寧にチェックするだけでは何が不足なのでしょう。

DIKWモデルはデータを人間が活用するまでの段階を表す

DIKWモデルという概念があります。データ (Data) を整理することで情報(Information) になり、情報を解釈することで知識 (Knowledge) になり、知識を体得して意思決定に活用できる状態になったのが知恵 (Wisdom) であるという考え方です。人間には可読でないデータが、どうやって最終的に有用になるかの発展段階を表しているもので、人間の脳が本当にこういう段階を経ているのかはともかく、モデルとしては尤もらしいと思います。

ところで、仕事では情報共有が大事とよく言われます。もしこれが言葉通りDIKWモデルに従っているなら、ピラミッドの下から2層目を共有しようということを意味します。

ここでいう情報とは、人間が解釈可能な状態ですから、確かに共有するのに良さそうです。内容は直感的で、それなりに濃縮されていて扱いやすく、何ならその場で取捨選択できます。これまで人類が言語を獲得して以来、きっと共有された多くは情報だったのでしょう。それくらいには自然な形式だと感じられます。

ではなぜ昨今はデータを共有しようと言われるのでしょうか？情報では駄目なのでしょうか？
もちろんひとつには、情報とデータを区別しないで話している人も多いと思います。あるいは情報共有というと、会議などアナログなイメージがあるので、ITっぽさを強調するためにデータという言葉を使っている人もいるかもしれません。

ですがもう少し突っ込んで、本当に “データ” の共有が重要なのだとしたら、その理由は何なのでしょうか。考えてみたいと思います。

データが増えるとDIKWピラミッドが成長する

冒頭に軽く述べましたように、データとは、整理しない限り人間に可読でない、数値の羅列などを指します。例えば各商品の売り上げ数量と日時が延々と並んでいるのを想像してください。これだけがあっても何の役にも立たず、曜日別、時間別、商品カテゴリ別などに整理・可視化して初めて傾向が掴めます。その段階が情報です。そういう情報が集まって、例えばある気温以上でアイスクリームが売れるというような知見が得られたときに知識*となってくるのです。

これまでは、人間の扱えるデータ量には限界がありました。ですから、データを整理して解釈可能な状態にした情報を共有するのが合理的でした。しかしデータを扱う様々な技術が登場し、量、種類、リテラシーいずれの面でもデータが扱いやすくなった結果、データを共有するのが簡単になってきました。そうすると、誰かがあらかじめ整理して見やすくしてくれた情報は、もともとデータにあった価値の一部が削り取られていること、つまり属人的な整理のデメリットが目立つようになりました。こうしてデータ共有が叫ばれているのです。

さて、その技術革新とデータ共有はどういう関係にあるのでしょうか。共有されたデータはどう活用されるのでしょうか。

簡単に申し上げると、データが増えることでDIKWピラミッドは肥え太ります。ピラミッドの底辺が大きくなることで、得られる情報も増え、知識が増大し、知恵が磨かれるという仕組みで、下から上へと全体が成長します。しかし残念ながら、データが増えると人間の許容量を超えてしまいます。それをAIなど先進的なITの力を借りることで補い、最終的な意思決定の精度や速度を向上させるという形です。

DIKWピラミッドはいくつあるのが良いのか？

ここで重要なのは、DIKWピラミッドを誰が活用しているのかということです。企業の全員がひとつのピラミッドを機能させているのか。きっとそうではないでしょう。DIKWピラミッドが最終的に意思決定に資するものである以上、意思決定の単位で活用されるものだからです。目に見えないので分かりづらいのですが、大きな意思決定であれば大きなピラミッドが、小さな意思決定であれば小さなピラミッドが形成されていると想像されます。

データや情報がサイロ化されているというのは、このピラミッドが各所に分散して繋がっていないことを意味します。その結果、それぞれのピラミッドはデータや情報が少なくて肥え太らず、知識の蓄積やその活用のレベルが上がりません。

その真逆として、サイロを完全に壊して全社がひとつのピラミッドを形成するという状態も想像できますが、実際にはあり得ないのではないでしょうか。なぜなら、組織内の各所は、異なる問題を解決したいがために、異なる知恵を基に異なる意思決定をしないといけないからです。

ですから、データ共有というのは、ピラミッドの底辺を共有することでお互いのピラミッドを肥え太らせようという活動を意味します。サイロとして完全に切れている訳でもなく、限られた目的のために完全に一体化している訳でもない、山脈のような状態です。

何となく良さそうな気がしますよね。しかしここで浮かぶ疑問は、どの層まで共有すべきかということでしょう。データのみなのか。情報までなのか。知識も共有可能なのか。いま筆者はその正解を持ち合わせていません。一方で、なぜデータが注目されるのかに関してはもう少し論を進められます。

データ解析はDIKWピラミッドを順に構築するとは限らない

先ほどからDIKWピラミッドの話を繰り返しています。ピラミッドは最下層のデータから段階的に有用な状態に変換されると述べました。しかし、近年のデータ解析に関しては少し様相が異なると考えています。

データ解析には、基本的な4つの段階があります。①可視化 ②要因分析 ③予測・分類 ④最適化です。

例えばビジネスインテリジェンス (BI) ツールを用いてデータを多面的に観察するのは、①可視化の段階に当たります。統計解析を行って重要な因子を特定するのは②要因分析です。ディープラーニングなどの機械学習で、ブラックボックスの画像解析などを行うのは③予測・分類に相当しますし、その予測結果を基に取るべき行動を示唆したり、ソフトウェアや機械の制御を行ったりするのが④最適化の段階です。

この4段階は、先ほどから述べているDIKWピラミッドと緩やかに対応しているように見えます。しかし興味深いことに、これらはピラミッドの段階をひとつずつ上がっていく技術ではありません。そうではなくて、限りなく生データに近いところから一気に欲しいものを吐き出すend-to-endという思想で設計されています。

All You Need is Data.

統計数理研究所吉田亮教授

まとめ：データ共有の重要さと複雑さが機械学習を要請する

これで本稿の材料は出揃いました。

DIKWピラミッドを太らせることが意思決定に重要です。
サイロ化されていると各組織のピラミッドはなかなか成長しません。また会社でピラミッド1つを共有する形も向きません。そのため、下層を共有することで、山脈のようなDIKWピラミッドを形成させます。
しかし共有することでデータの量や複雑性が圧倒的に上昇し、人間の扱える代物ではなくなります。その状況を打開するために、機械学習などデータサイエンスの力を借りる必要があります。

ここでやや混乱させる議論になって申し訳ありませんが、近年話題になっているChatGPTなどの大規模言語モデル (LLM) にも触れようと思います。LLMは、言語を扱う技術です。本稿ではここまで言語を情報寄りに語ってきたため混乱するかもしれませんが、実際には文章も多すぎると量・質ともに人間が扱えるという前提が崩れるため、文章をデータとして扱った方が良い状況になっています。
例えば、言葉を入れて出てきた結果を順に読むという検索エンジンは、情報を検索するというシナリオでした。しかし近年のあまりに混乱した状況下で、情報ではなく知識や最適解をコンピュータから直接得たいというニーズが生まれ、それに応えたのがこの文脈におけるLLMという構図なのではないでしょうか。

このように、実際にはどこまでがデータでどこまでが情報なのか、どこまでが情報でどこから知識と見做すのかなど、DIKWモデルには筆者には理解しきれないところがあります。それだけでなく、形成されたピラミッドも無形で定義できるものでもないため、数も境界も分からないまま、しばしば暗黙知のように作用します。しかし、その漠然とした感覚を差し引いたとしても、DIKWモデルのピラミッドを考えることでデータ共有の意義が説明できるのではと思っています。

*以前にご紹介した哲学における知識とは定義が異なることにご注意ください。ここで言う知識とは、正確で再現性のある知見やノウハウくらいのイメージです。

この記事が気に入ったらサポートをしてみませんか？