【論文紹介】医療AIの新たな評価軸MultifacetEval（前編）

2024年8月31日 11:16

みなさん、はじめまして。
医療AIのCubecでデータサイエンティストとして働く菅原です。

私は現在、医学部に在籍しています。入学後の一般教養でプログラミングの授業をとり、漠然と AI に関心を持ち始めました。その後はプログラミングを少しずつ勉強していましたが、せっかく医学を勉強しているのだから、医療にプログラミングを生かせないかとも考えるようになりました。
そんな中、Cubecが慢性心不全に対する診療支援 AI を開発していることを聞き、ここで働かせてもらうことにしました。

私は主に高血圧、糖尿病、COPDといった生活習慣病（こちらに関しても Cubec が将来的にターゲットとする疾患と非常に近いです）の治療に興味があり、将来は内科系医師として患者さんに寄り添った医療を提供したいと考えています。

医師を目指す私が、医療LLMの開発にも携わる中で得た知見や気づきを共有することで、同じく医療AIに携わる方の役に立つことがあると思います。
そこで今回は、医療AIの新たな評価軸を提案した論文「MultifacetEval: Multifaceted Evaluation to Probe LLMs in Mastering Medical Knowledge」をご紹介したいと思います。

MultifacetEvalの論文を選んだ理由

近年AIを医療に用いる動きが活発化しています。CT や MRI 画像といった、医用画像に対してディープラーニングを用いて、疾患の早期発見に貢献する事例などが良い例です。

さらに、大規模言語モデル（以下LLM）を用いた生成AIの進歩は目まぐるしく、ChatGPT でお馴染みの「GPT-4」は、日本医師国家試験の5年分の問題をまとめた「IagkuQA」にて、合格点を上回る性能をたたき出しました。これ以外にも様々な医療LLMが世界中で開発されています。AI が人間の医師を超えるのではないか、と思ってしまいそうです。

しかし、医療LLMには課題も残っています。先ほどの IgakuQA では合格点をぎりぎり上回ったというだけで、実際の受験生よりも点数は劣っています。また、禁忌選択肢を選んでしまう、患者が小児、妊婦、高齢者であるといった情報を見逃してしまうケースも散見されます。これでは、いくら国家試験の問題が解けたからと言って、実臨床に応用できません。

こういったケースを防ぐ１つの策として、医療LLMの性能をより多面的に評価することが挙げられます。医師国家試験は５つの選択肢から１つ以上の正解を選ぶ形式であり、現状医療LLMの性能は、この形式の問題の正解率をメインの評価軸としています。

しかし、それだけで本当に正しいのでしょうか？医療LLM の性能を評価する新たなベンチマークを探索するという目的もあり、こちらの論文を読もうと考えました。

まずは、要約部分を和訳で紹介します。

アブストラクト（和訳）

大規模言語モデル(LLM)は領域横断的に優れており、MedQA（アメリカ医師国家試験 : USMLE の問題をまとめたもの）のような医療評価ベンチマークでも注目すべき性能を発揮している。しかし、報告されている性能と実世界の医療シナリオにおける実用的な有効性との間には、まだ大きな隔たりがある。
本論文では、このギャップの原因を探るため、多面的な試験スキーマを採用し、現在のLLMによる医学知識の実際の習得度を体系的に調査することを目的とする。具体的には、LLMが医療知識を多面的（比較、修正、識別、検証）に符号化し、習得している度合いと網羅性を同時に検証する新しい評価フレームワーク「MultifacetEval」を開発する。MultifacetEvalフレームワークに基づいて、2つの多面的評価データセットを構築する： MultiDiseK（臨床疾患知識ベースから問題を作成）と MultiMedQA（医療ベンチマークMedQAから各問題を多面的な問題に言い換える）である。これらの多面的なデータセットでの実験結果は、現在のLLMの医学知識習得の程度が、既存の医学知識に対するパフォーマンスをはるかに下回っていることを示している。このことは、LLMが医学知識の習得において深さ、正確さ、包括性を欠いていることを示唆している。その結果、現在のLLMは実世界の医療タスクに適用するにはまだ早い。

MultifacetEval: Multifaceted Evaluation to Probe LLMs in Mastering Medical Knowledge

要点・結果等

同一の医学知識について多面的な評価を行うことが重要である。
→ これが新たなフレームワークを作成する動機の1つである。 Figure. 1 は、同じ問題でも、形式を多肢選択問題から正誤判定に変えるとLLMは間違えてしまうことを示している。

比較 : さまざまな医療エンティティ/イベントを比較し、いくつかの基準を満たす最も適切なものを選択する機能。例：診断、薬剤
修正 : 医療プロセス (治療、診断) のエラーを特定し、対応する修正を提供する機能。実臨床にて重要な役割を果たす。
識別 : 医療概念を正確に認識し、区別する能力。医療概念の識別は、臨床意思決定支援や治療の個別化に役立つ。
検証 : 獲得した知識に基づいて真実性を判断する能力。このような能力は、電子健康記録や検査結果の品質評価で非常に求められています。

小括・個人的な感想

いかがだったでしょうか。
万能に見える LLM にも、実はまだまだ弱点があることに気づかされた論文ですね。論文独自のデータベース「MultiMedQA」のもとになった「MedQA」は、アメリカ医師国家試験の問題そのものです。その聞き方を変えただけで、LLM の性能が低下したというのですから、個人的にはかなり衝撃でした。

前編はいったんここで終了とさせていただきます。
後編では、今回登場した４つの側面をもとに、既存の様々なモデルの性能を評価していきます。よかったら、ぜひご覧ください。

Cubecの会社紹介はこちら

この記事が気に入ったらサポートをしてみませんか？

【論文紹介】医療AIの新たな評価軸MultifacetEval（前編）

MultifacetEvalの論文を選んだ理由

アブストラクト （和訳）

要点・結果等

小括・個人的な感想

アブストラクト（和訳）