【AIによる予測】予測マシンの世紀#15 とにかくデータ③注意点
※最後の方のデータの予測の際の注意点に関して、誤解があるかもなので、ご指摘いただければありがたいです。
こんにちは。シンラボ共同代表の草場です。
AIとの共同に関して、『予測マシンの世紀 AIが駆動する新たな経済』をまとめていきます。推理小説のようで、ドキドキワクワクです。
目次
はじめに―機械知能
安さはすべてを変化させる
第1部 予測
第3章 魔法の予測マシン
第4章 「知能」と呼ばれるわけ
第5章 データは新しい石油
第2部 意思決定(決断を解明する;判断の価値 ほか)
第3部 ツール(ワークフローを分解する;決断を分解する ほか)
第4部 戦略(経営層にとってのAI;AIがあなたのビジネスを変容させるとき ほか)
第5部 社会(AIと人類の未来)
昨日は、予測マシンが入力データからどのように学ぶかを見てきました。いわゆる機械学習です。
では続きを見ていきます。
■データは新しい石油
予測マシンが入力データからどう学ぶかを見てきましたが、学んだ後はどうでしょうか?ここでも心拍数の例を元に説明されています。
Cardiogramは、6,000人のユーザーをモニターしたデータを収集している。6,000人のユーザーのうち、約200人はすでに不整脈と診断されていた。つまり、Cardiogramが行ったのは、Apple Watchから心拍パターンのデータを収集して比較することだけだった。
Cardiogramの場合、やっていることはシンプルにデータの比較のようです。予測した後は、正しいかどうかを検証する必要があります。予測マシンには、その予測が正しいかどうかのフィードバックデータが必要です。
そのためには、その製品のユーザーの間で不規則な心拍数の発生率に関するデータが必要となる。このデータと入力データを組み合わせてフィードバックすることで、予測マシンの精度を継続的に向上させることができる。
フィードバックデータ、めちゃ大事ですね。これはアプリを使っている際に、「フィードバックをお願いします」的なメッセージ出てくることあるので、イメージしやすいかもしれません。
ただし、予測が将来のイベントに関するものである場合には、フィードバックデータを集めるのが困難です。ここはポイントのようです。スポーツの例で説明されています。
予測マシンは、予測したい時に知られている情報しか与えられない。
例えば、好きなスポーツチームの来年のシーズンチケットを買いたいとする。チームが勝つときにゲームに行くのが好きだが、負けたチームをサポートするのは嫌いだ。チームが来年プレーするゲームの少なくとも半分を獲得する場合にのみ、チケットを購入する価値があると判断する。この判断をするためには、勝ち数を予測する必要がある。
来年の試合のチケットを買うために、来年の勝ち数の予測をしたいと。
最も多くのゴールを決めたチームが勝つので、多くのゴールを獲得したチームが勝ち、少ないゴールを獲得したチームが負ける傾向があると直感的にわかる。
そこで、各チームの得点、各チームに対する得点、各チームの勝利数に関する過去のシーズンからのデータを予測マシンに与える。
過去の試合の得点などを使って来年の試合を予測する。合理的なように見えますね。しかし。。。
これではできない、いきづまる。来年のチームのゴール数に関する情報が無い。だから、そのデータを使って勝率を予測することはできない。昨年のゴール数のデータはあるが、予測マシンを今年のデータから学習するように訓練しているため、それは機能しない。
大事なのは、予測を行うには、予測を行う時点で手元にあるデータが必要だということです。上記の例では、前年に獲得したゴールを使って予測マシンを再訓練して、今年の勝利を予測することができます。
多くのAIアプリケーションは、このような構造を持っている。入力データと結果の尺度を組み合わせて予測マシンを作成し、その後、新しい状況からの入力データを使ってその状況の結果を予測する。結果に関するデータを得ることができれば、予測マシンはフィードバックを通じて継続的に学習することができる。
すこし混乱しますがとても大事です。
去年のデータからは今年のデータの予測は出来ます。そして実際の今年の結果と比較して予測精度にフィードバックをかけていきます。
来年の試合に関してはそもそも結果が無いので、去年のデータから作成した予測マシンにフィードバックが出来ません。時間軸を合わせることが非常に重要です。
少し例が違いますが、機械学習をする上ではデータのリークに気を付ける必要があります。渋谷駅前で働くデータサイエンティストのブログさんの以下の記事が参考になります。
本日はここまで。明日はデータの運用に関して書きます。
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?