見出し画像

医療用AIが医師免許試験を突破


はじめに
Googleが開発した医療用AI「Med-PaLM 2」が、医師免許試験に合格しただけでなく、その過程で実際の医師を上回る成績を収めるという画期的な成果を上げました。このAIモデルは、米国の医師免許試験(USMLE)を模した一連の厳しいテストを受け、人間の受験者の一般的な基準値である60%を大きく上回る、86.5%という素晴らしいスコアを獲得しました。さらに、実験参加者の医師が、実際の医師の回答よりもMed-PaLM 2の回答を優先したことから、AIモデルがここ数ヶ月で飛躍的に進歩したことがわかります。



研究の方法


医療AIモデル「Med-PaLM 2」は、Googleの言語モデル「PaLM 2」をベースに開発され、特定の医療分野のデータを用いて微調整されたものです。多肢選択式クエリにおける医療の回答を強化するために、「アンサンブル・リファインメント」と呼ばれる革新的なプロンプティング戦略を採用しました。このアプローチには、思考の連鎖や自己矛盾のような技術が含まれています。さらに、USMLEの公式問題を模した数千の問題からなるデータベースであるMultiMedQAの多肢選択式問題および長文問題にもデータとして微調整にも使われた。

AIモデルの単独テストに加え、研究者はMed-PaLM 2を15人の医師パネルによる2つの補足実験に使いました。最初の実験では、医師チームが、AIが生成した回答と医師が書いた回答のペアを、推論、合意、知識の想起など9つの側面から評価しました。2つ目の実験では、2つの敵対的なデータセットを利用して、AIモデルの限界を探る回答を生成し、回答は人口統計学的な偏り、無関係な情報、潜在的な被害などのリスク要因に基づいて評価されました。

結果


Med-PaLM 2は、MedQAベンチマークにおいて、前モデルの67.2%に対して86.5%と、前モデルと比較して大きく性能が向上しています。このAIモデルの性能は、USMLEにおける人間の受験者の一般的な合格基準である60%を超えるほど素晴らしいものでした。

実験参加者の医師がAIが作成した解答と実際に医師が作成した解答を比較評価した研究では、Med-PaLM 2の解答がより高品質と評価されることが多かった。具体的には、医学的コンセンサスを反映している、読解力がある、知識がある、推論力がある、偏見の程度が小さい、偏見の可能性が小さい、人種による回答に偏りが小さい(つまり人種差別が回答に影響するか)、重要な情報を省略している可能性が小さいなど、9項目中8項目においてAIが作成した回答の方が人間の回答よりも優れていました。医師が作成した回答がMed-PaLM 2の回答を上回ったのは、不正確な情報や無関係な情報を含まないという1つの次元のみでした。

AIモデルから有害または偏った回答を引き出すように設計された敵対的なデータセットを含む別のテストでは、Med-PaLM 2の回答は、人間の医師によって、9つの次元すべてにおいてひとつ前の回答よりも大幅に優れていると評価されました。

限界と今後の展望


しかし、Med-PaLM 2の実世界における可能性を過大に評価することは禁物であると研究者は述べている。Med-PaLM2がMedQAの質問に答えることに長けていても、実際の複雑な状況には対応できないかもしれません。また、この研究の方法は、実際の医療現場での課題を反映していない可能性があります。質問に一度だけ答え、フォローアップを行わないというプロセスは、発見と継続的な症例管理を含む医療の反復プロセスとは対照的です。


この記事が気に入ったらサポートをしてみませんか?