見出し画像

【AIによる予測】予測マシンの世紀#17 とにかくデータ⑤ 量が大事?

こんにちは。シンラボ共同代表の草場です。

AIとの共同に関して、『予測マシンの世紀 AIが駆動する新たな経済』をまとめていきます。推理小説のようで、ドキドキワクワクです。

目次
はじめに―機械知能
安さはすべてを変化させる
第1部 予測
 第3章 魔法の予測マシン
 第4章 「知能」と呼ばれるわけ
 第5章 データは新しい石油
第2部 意思決定(決断を解明する;判断の価値 ほか)
第3部 ツール(ワークフローを分解する;決断を分解する ほか)
第4部 戦略(経営層にとってのAI;AIがあなたのビジネスを変容させるとき ほか)
第5部 社会(AIと人類の未来)

昨日は、データ取得、運用にはコストがかかることを見てきました。

では、どのくらいのデータを収集するのがよいでしょうか?
続きを見ていきます。

■データは新しい石油
データの収集規模に関して、統計的な考え方と経済的な考え方の違いがあるそうです。どういうことでよろしいでしょうか?

データが多ければ予測が向上する。しかし、どのくらいのデータが必要なのか?データの追加のメリット(単位数、変数の種類、頻度のいずれか)は、既存のデータ量に応じて増減する可能性がある。

データが多ければ予測精度向上、わかります。データをどの程度追加するかは、もとのデータ量によると。では量が多ければよいのか?

経済学者の言葉で言えば、データは規模に対するリターンが増加したり減少したりすることがある。

ここでも経済学的な視点が必要です。データの規模に対して、どれほどのリターンが望めるのかを考える必要があります。

統計学的にはどうでしょうか?

純粋に統計学的な観点から見ると、データの規模に対するリターンは減少する。100回目の観測よりも3回目の観測の方が有益な情報を得られるし、100万回目の観測よりも100回目の観測の方がはるかに多くのことを学べる。トレーニングデータに観測データを追加すると、予測の改善に役立つ情報が少なくなっていく。

このあたりは直感に合っていますね。初期のデータの方が有益と。そしてもともとのトレーニングデータの量が多いと、追加の情報が予測の改善に役立たなくなっていくと。以前の心拍数の例を見ていきましょう。

各観測は、予測に役立つ追加のデータだ。
Cardiogramの場合は、記録された各心拍の間の時間が観測値となる。「データのリターンが減少する」というのは、最初の100回の心拍で、その人が不規則な心拍を持っているかどうかを判断できるということだ。予測を向上させるためには、それぞれの心拍は前の心拍よりも重要ではない

100回の心拍で不規則な心拍が予測できるのか。繰り返しだからでしょうか?空港に行く例が出てきます。

空港に行くときの出発時間を考えてみよう。
空港に行ったことがない場合、初めて空港まで行く時間は多くの有益な情報を提供してくれる。また、2回目、3回目に空港に行くのも、一般的にどのくらいの時間がかかるのかを知ることができるので有用だ。
しかし、100回目となると、空港に到着するまでにどれくらいの時間がかかるのか、新たに有用な情報を得ることはほとんどない。

よくわかりますね。何時に出れば空港に間に合うか?始めの数回はとても有用ですが、10回超えたくらいあたりからは大体予測がつくので情報としての有用性は失われます。

このように、データは規模に対するリターンが減少していく。データが増えれば増えるほど、1つ1つのピースの価値は低くなる。

統計学的には、何度も説明しているように、データ量が増えるほどリターンは減少していきます。

しかし、経済学的にみると、データそのものではなく、データによりもたらされる価値に注目する必要があります。

データが予測をどのように改善するかということではなく、データが予測から得られる価値をどのように改善するかということだ。統計学における観測に対するリターンの減少は、気になる結果の面でのリターンの減少を意味する。

予測の精度を上げるためのデータ、ではなく、予測から得られる価値を改善できるデータ、に価値があります。検索の例がわかりやすいです。

例えば、ほとんどの検索エンジンは、一般的な検索と同様の結果を提供する。Googleを使っていてもBingを使っていても、「ジャスティン・ビーバー」の検索結果は似たようなものだ。
検索エンジンの価値は、普通ではない検索に対してより良い結果を与える能力によって駆動される。GoogleやBingに「ディスラプション」と入力してみると、この記事を書いている時点で、
・Googleでは辞書の定義と、破壊的イノベーションに関するクレイ・クリステンセン氏のアイデアに関連した結果の両方を表示された
・Bingの最初の9つの結果は、辞書の定義が表示された

予測マシンはデータから学びます。「価値ある予測」をするためのデータが必要です。Googleの検索結果が優れている理由は、検索者が珍しい検索で何を必要としているかを把握するデータを持っているからです。だからGoogleを利用します。

つまり、データは、技術的にはスケールに対するリターンが減少する。
しかし、ビジネスの観点から見ると、競合他社よりも多くの優れたデータを持っていれば、データは最も価値のあるものになるかもしれない。
固有の要因に関するデータの増加は、市場に不釣り合いな報酬をもたらすと主張する人もいる。
このように、経済的な観点から見ると、このような場合、データは規模に対するリターンを増大させることができます。

統計学的に見ると、データ量が増えるほどリターンは下がりますが、経済的に見ると競合他社より優れたデータは持てば持つほど価値があると。
よく言われる通り、「ゴミのようなデータには価値はない」ということですね。

今日はここまで。

草場壽一
https://sinlab.future-tech-association.org/

この記事が参加している募集

最近の学び

この記事が気に入ったらサポートをしてみませんか?