データドリブンアプローチのメリットと注意点
ここ数年「データドリブン」アプローチがもてはやされるようになりました。この記事ではデータドリブン初心者に対してメリットと注意点のポイントを簡単にまとめてみました。
基本的な考え方
「データドリブン」アプローチとは、現実世界にある情報をデジタルデータ化してコンピュータで処理可能な形にして、それに変換ロジック (もしくはアルゴリズム、モデル、専門的には「写像 (mapping)」といいます) を噛ませて未来の状態を予測しようという取り組みです。予測された未来に従って最終的に人間が意思決定、行動を起こすことで、より想定に近い未来に近づくことができます。
出力にしたいものは「未来の状態」でないケースも存在しますが、普段目にする多くのケースでは、「観測対象物の変化予測」「人口動態予測」「市場予測」「売上予測」など、用意しているデータセットよりも時間的に未来の状態を計算で出したいケースが多いでしょう。未来のものを予測することにより、人間による早期の意思決定、行動につなげることができるからです。
過去50年間は、1.5~2年で半導体の集積度が2倍になる (=つまりコンピュータの計算能力や記憶領域もそれに比例して性能が指数関数的に向上する)という「ムーアの法則」という状態が成り立っています。また、2010年代になるとコンピュータ能力を気軽に使えるクラウドコンピュータの発達により、誰でも気軽に膨大なデータを取り込み計算し蓄積することが可能になってきたことが、「データドリブン」アプローチが流行ってきていることの背景にあります。
基礎とするデータも、デジタライゼーションが進行する世の中になり、誰かがどこかでデジタルデータに変換してくれている、もしくは最初からデジタルになっているケースも増えてきました。
従来のアプローチとデータドリブンアプローチ
従来はアナログの世界で「データ」と言えるものがあまりない中で、匠の技 によるKKD (勘、経験、度胸) だけで物事を判断していました。そのため、
といったことが起こっていました。
*
一方、データドリブンアプローチでは、コンピュータが取り扱うことができるデジタルデータを十分に準備して「データ化された現在の世界」を起点にして物事を考えます。勘と経験に頼った人の「主観的」な現在認識とは対照的に、誰が見ても同じに見える「客観的」なデータによる現在認識から始めることができるため、より客観的で人に依存しない予測・分析が可能になります。
未来の世界への変換ロジックに使われるアルゴリズム・モデルには、人がプログラミング言語などでロジックを書き上げる仕組み (決定木など)と、人が選んだ人工知能 (AI) モデルに既存の大量のデータ (ビッグデータ)を入力して学習させ、変換ロジックを作る仕組み (機械学習、ディープラーニングなど)の2通りが大きく存在します。
これらの2つは、必ずしもどちらか片方がもう一方に勝っている訳ではなく、後でも出てきますが、時と場合によりうまく使い分けて併用するケースが殆んどです。
応用例
データドリブンアプローチは、昔から様々な分野で利用されて来ました。代表的な例についていくつか見ていきましょう。
軍事利用・宇宙開発
初期のコンピュータを使って国家が大金を注ぎ込んで行うことと言ったら、やはり軍事利用です。弾丸軌道計算から戦争の勝敗分析まで、収集できる限りのデータを元に未来の姿をシミュレーションして行動する、まさにデータドリブンアプローチの元祖とも言える内容です。宇宙開発でも、宇宙船の軌道計算など、軍事技術の延長線上で行われるものが多くあります。
科学技術計算
まだ計算機が貴重だった頃から大学や研究機関では物理、化学、工学などの様々な学術分野でのシミュレーションに使われてきました。理論で予測した数値と現実に起こることを比べて理論の正しさを検証する、そして検証された理論を使って未来を予測する、といったことが行われます。
株価予測~金融商品・資産価値予測~不正防止
金融の分野も、早くから資産データがデジタル化され、コンピュータによりデータドリブンアプローチが取られた分野です。予測理論には、時系列モデル、統計モデル、最近では機械学習によるモデルも多く使われます。統計力学など科学技術計算で使われていたモデルと似たものが金融分野で使われることもしばしばです。金融派生商品 (デリバティブ) の取り扱いにもデータドリブンアプローチは必須です。やはりお金のことになると世界中の人は目の色を変えてモデルの開発に勤しむようです。
一方、Eコマースでクレジットカード決済が多く行われるにつれ、不正利用も増えてきました。カードが不正利用される際によく発生する行動パターンはビッグデータ化され、AIや人が作成したロジックにより判定できるケースも多く出てきています。ローン審査などでもビッグデータにより信用数値を決める仕組みが取り入れられ始めています。
ボードゲーム
チェスや将棋などのボードゲームの分野は、必要な全てのデータがデジタル化されているため、データドリブンアプローチが最も得意とするところです。盤面の打ち手は有限であるため (とは言ってもチェスではおおよそ10の120乗のパターンがあります) 相手の打ち手をデータとしてインプットすると、勝ち筋がどんどん定まってきます。一度に多くのパターンを計算して勝てるパターンをはじき出すのはコンピュータが得意とするところです。
IBMが開発したチェス専用スーパーコンピュータ「ディープ・ブルー」が1997年に人間の世界チャンピオンにはじめて勝ち越した時は話題になりました。今では家庭にある通常のコンピュータでも人間のトッププレイヤーに匹敵する実力を持つようになっています。
将棋はチェスに比べるとパターンが複雑で打ち手がおおよそ10の220乗ほどありますが、2013年に将棋ソフト「ponanza」がプロの棋士をハンデ無しで初めて打ち負かしました。
囲碁はもっと複雑で10の360乗の打ち手があると言われていて、囲碁では当分コンピュータは人間には勝てないだろうと言われていました。しかし、2015年にGoogle DeepMindによって開発された「AlphaGo」が人間のプロをハンデ無しで初めて打ち負かしました。
デジタルマーケティング~売上予測~経営
インターネットが一般家庭に普及してから人々の生活に最も大きな変化が起こったことの1つが購買行動の変化です。それまでは人々は新聞、雑誌、テレビなどのマスメディアで広告を見て店舗で商品を購入するのが一般的でしたが、インターネットとEコマースの出現により、広告から購入までがすべてデジタル上で完結するようになりました。最大手のアマゾンだけで世界中で160万人が働くほどの産業に成長しました。
購買活動のデジタル化に伴い、データのかなりの部分がデジタル化され、販売者側でも把握が簡単になった反面、デジタルの世界上で顧客のニーズや行動も多様化していきました。そのため、顧客行動を追跡する仕組みと会員制度による囲い込み、顧客のプロファイルや行動データによって自動的に次のアクションを顧客に提示する、データドリブンなEコマースシステムの構築が、売上の最大化に大きく寄与するようになりました。
購買活動はB2Cの方がデジタル化が早く進みましたが、よりプロセスが複雑なB2Bの世界でも、この10年でのCRMやマーケティング・オートメーションの高度化で、それまではアナログでつながっていたプロセスのデジタル化、データ化が進むようになり、購買行動の初期の認知活動・需要喚起から最後の商談クローズまでをデジタルで一括管理することで、売上の最大化に繋げられるようになってきています。
そして、企業の内側では、この顧客購買活動をCRMを通して管理することで、売上予測を行ったり営業とマーケティングが取るべき売上のリカバリーアクションを指示したり、といったことができるようになります。逆にこのCRMデータが適切に取れていないと適切な経営判断ができません。複数年の売上データを元に、AIで売上予測を作ってそれを元に経営判断を行う事例もあります。
「データドリブン」でネット検索すると、「データドリブン経営」や「データドリブンマーケティング」がホットなトピックとして数多く検索にヒットしてくるでしょう。
天気予報
天気予報も科学技術計算と並んで昔からデータドリブンアプローチが盛んだった分野です。1974年から地域気象観測システム (アメダス)、1977年から静止気象衛星の運用開始によるデータ取得をはじめとして、高層気象観測、レーダー気象観測、海洋気象観測など様々な方法で取得する「気象実績データ」の種類と精度を上げてきています。
最近では雨雲レーダーで雨が降っている状態を地点と時間で細かくスマホのアプリから見られるようになってきて便利さを感じている人も多くいらっしゃると思いますが、これだけデータドリブンな環境が整ってきても、数日後、一週間後、一ヶ月後の長期予報は今でも全然当たらないことが多いです。
これは何故かというと、天気予報で使われているモデル (大気循環モデル) は誤差が非線形に増大する性質を持っているからです。非線形とは、モデルや観測数値の微小な誤差が経過時間tとともに指数関数的に大きくなってしまう現象で、いわゆる「カオス」的な振る舞いをする、と言います。このように、二週間を超える長期天気予報はデータドリブンアプローチでは原理的に不可能となってしまいます。
混雑予測~座席割当
観光地や歓楽街の混雑予測、それに伴う電車、飛行機、自動車での人の移動に伴う座席の混雑予測や渋滞予測まで、これらの予測精度は様々な人々のクオリティ・オブ・ライフ (QOL)や機会損失に繋がります。従来は勘と経験で比較的高い精度の予測を提供してきた分野です。これらの予測はモノによって使われるモデルも大きく異なり、中にはAIを取り入れているケースもありますが、考えるべき要素やどうモデルを選択するのかの自由度が高い領域でもあり、座席割当などAIよりも職人が出す答えのほうが精度が高い分野もしばしばあるようです。
デジタルツイン
最近よく聞く「デジタルツイン」という用語ですが、これもデータドリブンアプローチの一分野とみなすことができます。デジタルツインとは、現実世界で取得したデータを元に仮想世界上に同じ世界を双子 (ツイン)のように作り出す技術、と定義されます。メタバースっぽくてなんとなくカッコいいですが、内容をよく考えると、この記事の最初で出てきたデータドリブンの仕組みを説明した図表とほぼ同じことであることがわかります。
「データ化された現在の世界」をデジタルで映像化すると、いわゆる「デジタルツイン」や「メタバース」の説明で見るようなデモのイメージと一致しますよね。
デジタルツイン上では、未来予測というよりは「たられば」条件を設定して、「こういう条件下ではこうなる」というシミュレーションを行う目的で使われることが多いようです。たとえば以下のような内容です。
限界と注意点
このように、さまざまな分野で一見便利で万能に見えるデータドリブンアプローチですが、限界と注意点には常に気を遣う必要があります。
実はトップレベルのデータサイエンティストほど勘と経験を重視しています。理由は、世の中のデータはすべてがデジタル化されているわけではなく、実際には世界のほんの一部分でしかないこと、さらにはそのデータのどれを使うか、どういうロジックを使うか、どう判断するか、どうストーリーを作って伝えるかなど、データを元に判断をしてアクションを取る、というプロセスはそれぞれに必ずバイアスが入るためです。そのため、正しい判断をするには、データの扱いに長けているだけでなく経験と勘も大きく求められるのです。このことをトップレベルのデータサイエンティストは理解しています。座席割当の例で人間のほうが高い精度が出るのは、このような事情もあります。
また、天気予報の例であるように、コンピュータの性能やデータ精度を上げたとしても長期間の正確な予測が不可能だったり、株価予測のようにモデルにない突発的な事象が起こると予測が大きく狂ったりなど、モデルの限界もあります。これらの限界をきちんと把握した上で、その制限内で運用する必要もあります。
変換ロジックにAIを使う場合は、トレンドの時間変化によるAIモデルの陳腐化に気をつける必要があります。陳腐化しそうなタイミングを予測してダイナミックに再学習させるような取り組みが必要になってきます。また、AI以外でも一般論としてトレンドの変化が早く過去の経験が活かしづらい領域はデータドリブンアプローチも苦手です。この場合はトレンド変化をモデル化するアルゴリズムと組み合わせたデータ処理モデルを導入する必要があります。
*
最後までお読みいただきありがとうございました!読者の皆様のデータドリブンアプローチに対する理解が深まる御役に立てたのであれば幸いです。では、また!
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?