見出し画像

【AIによる予測】予測マシンの世紀#15 とにかくデータ③注意点

※最後の方のデータの予測の際の注意点に関して、誤解があるかもなので、ご指摘いただければありがたいです。

こんにちは。シンラボ共同代表の草場です。

AIとの共同に関して、『予測マシンの世紀 AIが駆動する新たな経済』をまとめていきます。推理小説のようで、ドキドキワクワクです。

目次
はじめに―機械知能
安さはすべてを変化させる
第1部 予測
 第3章 魔法の予測マシン
 第4章 「知能」と呼ばれるわけ
 第5章 データは新しい石油
第2部 意思決定(決断を解明する;判断の価値 ほか)
第3部 ツール(ワークフローを分解する;決断を分解する ほか)
第4部 戦略(経営層にとってのAI;AIがあなたのビジネスを変容させるとき ほか)
第5部 社会(AIと人類の未来)

昨日は、予測マシンが入力データからどのように学ぶかを見てきました。いわゆる機械学習です。

では続きを見ていきます。

■データは新しい石油
予測マシンが入力データからどう学ぶかを見てきましたが、学んだ後はどうでしょうか?ここでも心拍数の例を元に説明されています。

Cardiogramは、6,000人のユーザーをモニターしたデータを収集している。6,000人のユーザーのうち、約200人はすでに不整脈と診断されていた。つまり、Cardiogramが行ったのは、Apple Watchから心拍パターンのデータを収集して比較することだけだった。

Cardiogramの場合、やっていることはシンプルにデータの比較のようです。予測した後は、正しいかどうかを検証する必要があります。予測マシンには、その予測が正しいかどうかのフィードバックデータが必要です。

そのためには、その製品のユーザーの間で不規則な心拍数の発生率に関するデータが必要となる。このデータと入力データを組み合わせてフィードバックすることで、予測マシンの精度を継続的に向上させることができる。

フィードバックデータ、めちゃ大事ですね。これはアプリを使っている際に、「フィードバックをお願いします」的なメッセージ出てくることあるので、イメージしやすいかもしれません。

ただし、予測が将来のイベントに関するものである場合には、フィードバックデータを集めるのが困難です。ここはポイントのようです。スポーツの例で説明されています。

予測マシンは、予測したい時に知られている情報しか与えられない。
例えば、好きなスポーツチームの来年のシーズンチケットを買いたいとする。チームが勝つときにゲームに行くのが好きだが、負けたチームをサポートするのは嫌いだ。チームが来年プレーするゲームの少なくとも半分を獲得する場合にのみ、チケットを購入する価値があると判断する。この判断をするためには、勝ち数を予測する必要がある。

来年の試合のチケットを買うために、来年の勝ち数の予測をしたいと。

最も多くのゴールを決めたチームが勝つので、多くのゴールを獲得したチームが勝ち、少ないゴールを獲得したチームが負ける傾向があると直感的にわかる。
そこで、各チームの得点、各チームに対する得点、各チームの勝利数に関する過去のシーズンからのデータを予測マシンに与える。

過去の試合の得点などを使って来年の試合を予測する。合理的なように見えますね。しかし。。。

これではできない、いきづまる。来年のチームのゴール数に関する情報が無い。だから、そのデータを使って勝率を予測することはできない。昨年のゴール数のデータはあるが、予測マシンを今年のデータから学習するように訓練しているため、それは機能しない。

大事なのは、予測を行うには、予測を行う時点で手元にあるデータが必要だということです。上記の例では、前年に獲得したゴールを使って予測マシンを再訓練して、今年の勝利を予測することができます。

多くのAIアプリケーションは、このような構造を持っている。入力データと結果の尺度を組み合わせて予測マシンを作成し、その後、新しい状況からの入力データを使ってその状況の結果を予測する。結果に関するデータを得ることができれば、予測マシンはフィードバックを通じて継続的に学習することができる。

すこし混乱しますがとても大事です。
去年のデータからは今年のデータの予測は出来ます。そして実際の今年の結果と比較して予測精度にフィードバックをかけていきます。
来年の試合に関してはそもそも結果が無いので、去年のデータから作成した予測マシンにフィードバックが出来ません。時間軸を合わせることが非常に重要です。
少し例が違いますが、機械学習をする上ではデータのリークに気を付ける必要があります。渋谷駅前で働くデータサイエンティストのブログさんの以下の記事が参考になります。

本日はここまで。明日はデータの運用に関して書きます。

草場壽一
https://sinlab.future-tech-association.org/

この記事が参加している募集

最近の学び

この記事が気に入ったらサポートをしてみませんか?