【AIによる予測】予測マシンの世紀#13 とにかくデータ!
こんにちは。シンラボ共同代表の草場です。
AIとの共同に関して、『予測マシンの世紀 AIが駆動する新たな経済』をまとめていきます。推理小説のようで、ドキドキワクワクです。
目次
はじめに―機械知能
安さはすべてを変化させる
第1部 予測
第3章 魔法の予測マシン
第4章 「知能」と呼ばれるわけ
第5章 データは新しい石油
第2部 意思決定(決断を解明する;判断の価値 ほか)
第3部 ツール(ワークフローを分解する;決断を分解する ほか)
第4部 戦略(経営層にとってのAI;AIがあなたのビジネスを変容させるとき ほか)
第5部 社会(AIと人類の未来)
まるで魔法のような予測マシン、ある定義によるとそれは知能のようでした。
では知能を生む源泉は?
データ、です。
■データは新しい石油
この言葉、よく聞きますね。とにかくデータが大事だと。この章のキーポイント(まとめ)は以下です。
キーポイント
・予測マシンは3種類のデータを利用する。
(1)AIを訓練するためのトレーニングデータ
(2)予測するための入力データ
(3)予測精度を向上させるためのフィードバックデータ
・データ収集にはコストがかかる、投資になる データ収集のコストは、どれだけのデータが必要か、収集プロセスがどれだけ押し付けがましいかによって異なる。データ収集のコストと予測精度向上のメリットのバランスをとることが重要だ。最良のアプローチを決定するには、データの種類ごとにROIを見積もる必要がある。
・統計的な理由と経済的な理由は、より多くのデータを持つことがより多くの価値を生み出すかどうかを形作っている。
統計的な観点から見ると、データはリターンが減少する。データの単位が増えるごとに、それ以前のデータよりも予測が改善される。
経済学の観点からは、この関係は曖昧だ。例えば、データを追加することで、予測マシンのパフォーマンスが、使用不可能な状態から使用可能な状態への閾値を超えることができたり、規制性能の閾値を下回る状態から上回る状態への閾値を超えることができたり、競合他社よりも悪い状態からより良い状態への閾値を超えることができたりする場合などだ。このように、
組織は、データの追加、予測精度の向上、価値創造の増加の関係を理解する必要がある。
それでは見ていきます。
地球の誕生から考えると、10億時間前にホモ・サピエンス誕生、10億分前にキリスト教誕生、10億秒前にIBMのPCが発売、そして、グーグル検索は「今朝」出てきたことになるそうです。今朝出てきたグーグル検索により、今やGoogleが驚異的な量のデータを持っています。いわゆるGAFA以外にも、地方自治体、スタートアップも多くのデータを持っています。
データ収集はかつてないほど安く、簡単にできるようになっている。このデータには価値がある。何十億もの検索数は、グーグルがサービスを改善するための何十億行ものデータを意味する。データを「新しい石油」と呼ぶ人もいる。
予測マシンにとって、データが原料です。
より多くのデータがあればあるほど、より良い予測が可能になる。経済用語では、データは予測を補完する重要な要素である。予測が安価になればなるほど、その価値は高まる。
経済用語の「補完」という観点を初めて知りました。予測が安価になるから、その補完の「データ」が価値がなおさら大きくなると。具体的に予測マシンにとって、データは具体的にはどのような役割を果たすのでしょうか?
AIでは、データは3つの役割を果たす。
1つ目は入力データで、アルゴリズムに供給され、予測を生成するために使用される。
2つ目はトレーニングデータで、これはそもそもアルゴリズムを生成するために使われる。トレーニングデータは、AIが生で予測できるように訓練するために使用される。
3つ目は、経験に応じてアルゴリズムの性能を向上させるために使用されるフィードバックデータだ。
状況によっては、同じデータが3つの役割をすべて果たすように、かなりの重複が存在する。
入力データ、トレーニングデータ、フィードバックデータ、まずは覚えておきます。
ここで著者が主張しているのか、「データの取得にはコストがかかる」という点です。
したがって、より多くのデータの利点と、データを取得するためのコストとの間のトレードオフを考える必要がある。正しいデータ投資の決定をするためには、予測マシンがどのようにデータを使用するかを理解する必要がある。
本日はここまで。明日は、予測マシンがどのようにデータを使用するかを議論します。
草場壽一
https://sinlab.future-tech-association.org/
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?