Hundreds of AI tools have been built to catch covid. None of them helped.コロナを捕まえるために、何百ものAIツールが作られました。どれも役に立たなかった。

2021年10月28日 15:26

Hundreds of AI tools have been built to catch covid. None of them helped.

2020年3月にヨーロッパで新型コロナが発生したとき、病院はまだよくわかっていない健康危機に陥りました。オランダ・マーストリヒト大学の疫学者で、予測ツールの研究をしているローレル・ワイナンツは、「医師たちは、これらの患者をどのように管理すればよいのか、まったくわからない状態でした」と語ります。

しかし、パンデミックを克服するために、4ヶ月間先行していた中国のデータがありました。そのデータをもとに機械学習のアルゴリズムを学習させ、医師が何を見ているかを理解し、判断できるようになれば、命を救うことができるかもしれません。「AIの有用性が証明されるとしたら、それは今しかないと思いました。「期待しています」とワイナンツは言います。

　グーグルの医療用AIは、実験室では超正確だった。実生活は別の話だった。AIが本当に患者に変化をもたらすためには、実際の人間が実際の状況でAIを手にしたときに、どのように機能するかを知る必要があります。
しかし、それが実現しなかったのは、努力が足りなかったからではありません。世界中の研究チームが協力してくれました。特にAIコミュニティは、病院が患者の診断やトリアージを迅速に行い、必要なサポートを最前線にもたらすことができると信じて、ソフトウェアの開発を急いでいました。

最終的には、何百もの予測ツールが開発されました。しかし、どれも実際には効果がなく、中には有害なものもありました。

これは、ここ数カ月の間に発表された複数の研究結果の中でも、厳しい結論です。英国のデータサイエンスとAIの国立センターであるチューリング研究所は6月、2020年後半に開催した一連のワークショップでの議論をまとめた報告書を発表しました。その結果、AIツールがコヴィドとの戦いに影響を与えることは、あったとしてもほとんどないという明確なコンセンサスが得られました。

臨床使用には適していない
これは、昨年開発された何百もの予測ツールを評価した2つの大規模な研究の結果と同じである。Wynantsはそのうちの1つの主執筆者であり、British Medical Journalに掲載されたレビューは、新しいツールのリリースや既存のツールのテストにより、現在も更新されています。

彼女たちは、患者を診断したり、病気の人がどのくらい病気になるかを予測したりする232のアルゴリズムを調べました。その結果、臨床使用に適したものはありませんでした。その中で、今後のテストに十分な可能性があると判断されたのは、わずか2つでした。

ワイナンツは「とてもショックです。私はいくつかの心配事を抱えていましたが、この結果は私の心配事を上回るものでした」といいました。

Wynantsの研究を裏付けるように、ケンブリッジ大学の機械学習研究者であるDerek Driggsらが行った別の大規模なレビューが『Nature Machine Intelligence』誌に掲載されました。

このチームは、胸部X線写真や胸部CTスキャンなどの医療画像からコビットを診断し、患者のリスクを予測するディープラーニングモデルに注目しました。その結果、415種類のツールが公開されていますが、Wynants氏らと同様に、臨床使用に適したものはないと結論づけています。

医師たちはAIを使って新型コロナ患者のトリアージを行っている。このツールは今後も使われるかもしれない。人員不足や患者数の多さに直面して、パンデミックの管理に自動化ツールを利用する病院が増えています。
「今回のパンデミックは、AIと医療にとって大きな試練でした」と語るドリッグスは、自身もパンデミック時に医師を支援するための機械学習ツールを開発している。"それは、一般の人々を味方につけるための大きな役割を果たしたでしょう "と彼は言います。「しかし、私たちはそのテストに合格したとは思えません」と彼は言います。

両チームとも、研究者がツールのトレーニングやテストを行う際に、同じ基本的なミスを繰り返していることを発見しました。データに関する誤った仮定は、訓練されたモデルが主張通りに機能しないことを意味します。

WynantsとDriggsは、AIには助けになる可能性があると信じています。しかし、間違った方法で構築されたAIは、診断を見落としたり、脆弱な患者のリスクを過小評価したりする可能性があり、有害であると懸念しています。「機械学習モデルとそれが今日できることについては、多くの誇大広告がなされています」とDriggsは言います。

非現実的な期待は、これらのツールを準備ができていない状態で使用することを助長します。Wynants氏とDriggs氏は、今回調査したアルゴリズムのうちいくつかはすでに病院で使用されており、民間の開発者によって販売されているものもあると言います。「私は、これらのアルゴリズムが患者に害を与えているのではないかと心配しています」とWynantsは言います。

では、何が問題だったのでしょうか？そして、そのギャップを埋めるにはどうすればよいのでしょうか？プラス面があるとすれば、パンデミックによって多くの研究者がAIツールの構築方法を変える必要があることを明らかにしたことです。「パンデミックによって、これまで引きずっていた問題がクローズアップされました」とワイナンツは言います。

何が悪かったのか
今回明らかになった問題の多くは、研究者がツールを開発する際に使用したデータの質の低さに関連しています。コロナの患者に関する情報は、医療スキャンを含めて、世界的な大流行の最中に収集され、共有されていました。研究者たちは迅速に支援したいと考えていましたが、公開されているデータセットはこれらしかありませんでした。しかし、多くのツールは、誤ってラベル付けされたデータや米国のデータを使って作られていました。

Driggsは、Frankensteinデータセットと呼ばれる、複数のソースから集められた重複したデータを含むデータセットの問題を指摘します。つまり、あるツールは、訓練されたデータと同じデータでテストされることになり、実際よりも精度が高いように見えてしまうのです。

また、特定のデータセットの起源を濁すことにもなります。これは、研究者がモデルのトレーニングを歪めるような重要な特徴を見逃してしまうことを意味します。多くの研究者は、コヴィドではない子供の胸部スキャンを含むデータセットを、コヴィドではない症例の例として知らず知らずのうちに使用していました。しかしその結果、AIはコヴィドではなく子供を識別することを学習してしまったのです。

Driggsのグループは、患者が横になっているときと立っているときに撮影された画像を組み合わせたデータセットを使って、独自のモデルを学習させました。横になって撮影された患者は重症である可能性が高いため、AIは人の姿勢から重篤なコヴィドリスクを予測するという誤った学習をしてしまったのです。

また、特定の病院でスキャン画像のラベルに使われている文字のフォントをAIが拾ってしまうケースもありました。その結果、より深刻な症例を抱える病院のフォントが、コヴィッドリスクの予測因子となってしまったのです。

このようなエラーは、後から考えれば明らかなことです。また、研究者が気付いていれば、モデルを調整することで修正することもできます。欠点を認めて、より精度の低い、しかし誤解を招きにくいモデルを発表することも可能です。しかし、多くのツールは、データの欠陥を見抜く医学的専門知識を持たないAI研究者か、その欠陥を補う数学的スキルを持たない医学研究者によって開発されている。

より微妙な問題として、Driggs氏は、データセットにラベルを付ける時点で生じるバイアス、すなわち取り込みバイアスを挙げています。例えば、多くの医療スキャンは、そのスキャンを作成した放射線科医がコビドを示していると言ったかどうかによってラベル付けされていました。しかし、これでは、特定の医師のバイアスがデータセットのグランドトゥルースに組み込まれてしまいます。一人の医師の意見ではなく、PCR検査の結果で医療スキャンをラベル付けする方がはるかに良いでしょう」とDriggsは言う。しかし、多忙な病院では、統計的な作業に時間を割くことができません。

しかし、これらのツールの中には、臨床現場への導入が急がれるものもあります。Wynantsは、どのツールがどのように使われているのか、はっきりしないと言います。病院側は「研究目的でしか使っていない」と言うこともあり、医師がどれだけツールを頼りにしているかを評価するのは難しい。「秘密主義が蔓延しています」と彼女は言います。

ワイナンツは、深層学習アルゴリズムを販売しているある企業に、そのアプローチに関する情報の共有を求めましたが、返事はありませんでした。その後、この企業に関連する研究者が発表したモデルをいくつか見つけましたが、いずれもバイアスの危険性が高いものでした。「この会社が何を実施したのか、実際にはわかりません」と彼女は言う。

ワイナンツによると、医療用AIベンダーと秘密保持契約を結んでいる病院もあるという。彼女が医師にどんなアルゴリズムやソフトウェアを使っているのか尋ねると、「言ってはいけない」と言われることもあるという。

修正方法
どうすればいいのか？より良いデータがあればいいのですが、危機的状況の中でそれを求めるのは酷です。それよりも、今あるデータセットを最大限に活用することが重要です。最も簡単な方法は、AIチームが臨床医ともっと協力することだとDriggsは言います。また、研究者はモデルを共有し、どのように訓練されたかを公開することで、他の研究者がモデルを検証し、それを基に構築できるようにする必要があります。「この2つは、今日でもできることです。この2つがあれば、私たちが発見した問題の50％は解決できるでしょう」。

ロンドンに拠点を置く世界的な健康研究の慈善団体であるWellcome Trustの臨床技術チームを率いる医師のBilal Mateen氏は、データのフォーマットが標準化されれば、データの入手も容易になると言います。

Wynants、Driggs、Mateenが指摘するもう1つの問題点は、ほとんどの研究者が、共同作業や既存のモデルの改良ではなく、独自のモデルの開発を急いだことです。その結果、世界中の研究者の努力を結集しても、適切に訓練されテストされたものは少なく、何百もの凡庸なツールが生み出されてしまったのです。

「モデルは非常に似通っています。ほとんどすべてのモデルが、同じ技術に少し手を加えたものを使用し、同じ入力をしています。新しいモデルを作っている人たちが、すでにあるモデルをテストしていたら、今頃は本当に臨床に役立つものができていたかもしれません」。

ある意味、これは研究における古い問題でもあります。学術研究者には、研究成果を共有したり、既存の成果を検証したりするキャリア上のインセンティブがほとんどありません。研究室のベンチからベッドサイドまでの最後の一歩を踏み出しても、報われることはありません」とMateenは言います。

この問題に対処するため、世界保健機関（WHO）は、国際的な健康危機の際に作動する緊急データ共有契約を検討しています。この契約により、研究者は国境を越えてより簡単にデータを移動できるようになります」とMateenは言います。また、6月に英国で開催されたG7サミットの前には、参加国の主要な科学者グループが、将来の健康危機に備えて「データの準備」を呼びかけていました。

このような取り組みは漠然としていますし、変革を求める声には、常に希望的観測の匂いがつきまといます。しかし、Mateen氏は「ナイーブなほど楽観的」な見方をしています。パンデミックの前には、このような取り組みの機運は停滞していました。パンデミック前には、このような取り組みの機運は停滞していましたが、「高い山を登るのは大変だし、景色を見る価値もない」と感じていました。「しかし、Covidのおかげで、このような取り組みが再び注目されるようになりました」。

「セクシーな問題の前に、セクシーではない問題を解決しなければならないという考えを理解するまでは、同じ過ちを繰り返す運命にある」とマティーンは言う。「このままでは受け入れられません。このパンデミックの教訓を忘れることは、亡くなった方々に失礼です」。

最後の文章を原文を以下に抜き出します。

“Until we buy into the idea that we need to sort out the unsexy problems before the sexy ones, we’re doomed to repeat the same mistakes,” says Mateen. “It’s unacceptable if it doesn’t happen. To forget the lessons of this pandemic is disrespectful to those who passed away.”

小泉環境大臣みたいだなｗ

この記事が気に入ったらサポートをしてみませんか？