【AIによる予測】予測マシンの世紀#16 とにかくデータ④ データ運用方法

2021年3月11日 07:52

こんにちは。シンラボ共同代表の草場です。

AIとの共同に関して、『予測マシンの世紀　AIが駆動する新たな経済』をまとめていきます。推理小説のようで、ドキドキワクワクです。

目次
はじめに―機械知能
 安さはすべてを変化させる
第１部　予測
　第３章　魔法の予測マシン
　第４章　「知能」と呼ばれるわけ
　第５章　データは新しい石油
第２部　意思決定（決断を解明する；判断の価値　ほか）
第３部　ツール（ワークフローを分解する；決断を分解する　ほか）
第４部　戦略（経営層にとってのＡＩ；ＡＩがあなたのビジネスを変容させるとき　ほか）
第５部　社会（ＡＩと人類の未来）

昨日にかけて、予測マシンには、入力データ、トレーニングデータ、フィードバックデータが必要なことを見てきました。

では続きを見ていきます。

■データは新しい石油
データからどのように予測マシンが学ぶかを見ていきました。
さて、データを取得するにはコストがかかることが多いです。予測マシンは、データを作成し、運用し、改善するためにデータを必要とします。

データ取得の規模と範囲についての決定を行う必要がある。
どのくらいの種類のデータが必要か？
トレーニングに必要な対象は何種類か？
データを収集する頻度は？

データの種類が多く、対象物が多く、収集頻度が高いほど、コストは高くなりますが、利益も高くなる可能性があります。
この決定を考える際には、何を予測したいのかを慎重に決定しなければなりません。先の医療の例を再度みていきます。

Cardiogramは心拍数を使って、脳卒中を予測したかった。この予測目標を設定すると、アプリを使用する各人の心拍数データだけが必要となる。

Cardiogramの場合、Apple Watchを使って、心拍数以外にも様々なデータが取れます。しかし、Cardiogramは、ほとんどのユーザーに関するわずかな情報しか収集する必要がありませんでした。

必要なのは、AIを訓練するために使用している人たちの心拍数異常情報へのアクセスだけだった。このようにして、変数の数は比較的少なかった。

この場合は変数の数は極端に抑えられます。ただし、優れた予測を行うためには、マシンは十分なデータ量が必要となります。

必要とされる個体の数は、2つの要因に依存する。
第1に、「信号」が「ノイズ」に対してどれだけ信頼性が高いか。
第2に、予測がどれだけ正確でなければ有用ではないかである。

十分なデータ量、となるとあいまいですが、ノイズに対する信頼性の高さ、どれくらい正確に予測したいかを考える必要があると。Cardiogramの場合は、

必要とされる個体数は、心拍数が不整脈の強い予測因子であるか弱い予測因子であるかに依存し、ミスをするとどれだけのコストがかかるかに依存する。
心拍数が強い予測因子であり、ミスが大したことではないのであれば、必要な人数は数人で済む。
心拍数が弱い予測因子であり、一つ一つのミスが命を危険にさらすのであれば、何千人、あるいは何百万人もの人が必要となる。

なかなか決めづらいです。心拍数が不整脈の強い因子かどうか？それにより、生命にかかわります。

Cardiogramは、予備研究では6000人でした。その中には不整脈のある200人含まれていました。もう少し深堀りして、6,000人はどこから来たのでしょうか？

データサイエンティストは、予測の期待される信頼性と精度の必要性を考慮して必要なデータ量を評価するための優れたツールを持っている。これらのツールは「パワー計算」と呼ばれ、有用な予測を生成するために解析する必要があるユニット数を教えてくれる。

パワー計算、ちょっと調べ切れずです。また再チャレンジ。以下のMicrosoftのは違うのかな？

6000人の理由は本によると以下のようです。

6,000というのは、この種の研究としては比較的少ない数であり、これがこの研究が "予備的 "とされた主な理由である。このデータは、コンセプトを証明するための予備的な研究だったので、当初の目的には十分で、命を危険にさらすようなことはなかった。臨床的に有用な結果を得るためには、もっと多くのデータが必要になるだろう。

Cardiogramの場合、高い頻度でデータを収集する必要があります。Apple Watchを使って秒単位でデータを収集してます。心拍数は一日の中で変化するため、正しい測定を行うには、測定された心拍数が調査対象者の真の値であるかどうかを繰り返し評価する必要があるためです。これにはお金、時間がかかります。

このデータを収集するためには、コストのかかる投資が必要だった。患者は常にデバイスを身につけていなければならないため、患者の普段の生活に支障をきたすことになる。健康データに関わるため、プライバシーの懸念があったため、Cardiogramはプライバシーを改善する方法でシステムを開発したが、開発コストの増加とフィードバックからの予測を改善するマシンの能力の低下を犠牲にした。

実際にAIを使ったアプリケーションを作る場合はこのコストを見積もる必要があります。

本日はここまで。明日は、どのくらいのデータを収集するかについて、統計的な考え方と経済的な考え方の違いを見ていきます。

草場壽一
https://sinlab.future-tech-association.org/

この記事が参加している募集

#最近の学び

182,630件

この記事が気に入ったらサポートをしてみませんか？