見出し画像

【論文紹介】医療AIの新たな評価軸MultifacetEval(後編)

みなさん、こんにちは。
医療AIのCubecでデータサイエンティストとして働く菅原です。

今回は医療AIの新たな評価軸を提案した論文 「MultifacetEval: Multifaceted Evaluation to Probe LLMs in Mastering Medical Knowledge」の後編をお届けします。

前編を読んでない方はこちら▼からどうぞ。

モデルの詳細な評価

前編では論文の要約、要点、小括をまとめました。後編はより詳細にみていきたいと思います。

  • 新フレームワーク「MultifacetEval」 の詳細 (Figure. 3 大きく2段階に分かれる)

  1. 質問生成:多肢選択問題、修正問題、複数回答問題、真偽問題を含む4種類の問題を出題する、それぞれ、比較、修正、識別、検証のファセットの評価に重点を置くためである。 質問は以下のデータセットに基づく

① MultiDiseK : 臨床疾患知識ベース (DiseK) から問題を作成
② MultiMedQA : 医療ベンチマークMedQAから各問題を多面的な問題に言い換える

2. 上の 4 つのファセットを、1つずつ、または複数を同時に評価する。

  • 評価結果① ( Single-faceted vs. Multi-faceted )
    評価ファセットを追加するにつれて、習得知識率が低下した。 70B以下のモデルでは、3 ファセット以上での習得知識率はほぼゼロとなったが、70B以上のモデルでは20-30%ほどはあった。 MultiMedQAよりも、MultiDiseKの方が習得知識率が大きかった。

各 LLMが習得した知識の割合 ( five-shot, Chain of Thought + Self Consistency, 点線は 70B 以下, 実線は 70B 以上のモデル )  ファセットは、比較 (多肢選択)、修正、識別 (複数回答)、検証 (正誤判定) の順に追加  MultiMedQAの「比較」は、オリジナルのMedQA問題と同じ。  MultiDiseKの「比較」は、疾患の4側面 (部位、症状、薬剤、手術) に関する多肢選択問題  (※関連事項)。

  • 評価結果② ( 質問タイプ別 )
    Gemini-pro が、MultiMedQA、MultiDiseK共に平均精度が最大だった。 平均精度上位5モデルに対して、追加の評価を実施 (結果③へ)。

ファセット別精度検証結果 ( five-shot , 左からMultiMedQA (CoT+SC)、MultiDiseK )  Comp (Comparison) : 比較、Rect (Rectification) : 修正、Disc (Discrimination) : 識別、  Veri (Verification) :
  • 検証評価結果③ ( ファセット間比較 ) ランダム推論に対するLLM使用時の精度上昇は、「比較」ファセットにて最大を示した。それに比べて、修正、検証ファセットでは精度上昇は小さかった。

考察

  • 実験結果から、現在のLLMの医学知識習得度は、既存の医学ベンチマークで評価された値よりも著しく低いことが明らかになった。さらに、LLMのパフォーマンスには、様々なファセットで大きなばらつきがあることが観察された。

  • 現在のLLMは、既存のベンチマークで良い結果を出すために、学習データでより多くの比較型問題(MCQ:multiple choice question)で訓練されている。識別タイプの問題は、単に最も適切な答えを選ぶのではなく、概念間のニュアンスを見分けることを要求されるため、LLMが得意とすると考えられる。以上の理由が、比較、識別タイプの問題で高精度を出す理由と考えられる。

  • 修正、検証タイプの問題は低い精度上昇を示す。これは、選択肢から追加情報を得ることなく、医学的知識に基づいて直接修正、検証する必要があるためである。

関連事項

  • DiseKを構成する医学知識 : 問題の具体例を引っ張ってくる

  • Githubリンク

これからの開発に向けて

後編はいかがだったでしょうか。
個人的には、LLM であっても、選択肢無しで解答する問題の正解率が低いという事実に衝撃を受けました。私も国家試験を選択肢無しで解けと言われると、難しく感じます。
医療 LLM が実用可能になるまでには、確固たる医学知識を習得していることが前提になりますから、性能評価の方法も多肢選択問題のみでは不十分だと改めて感じました。

Cubecでは現在、循環器領域に特化した診療支援AIを開発中です。国家試験形式の問題だけでなく、本論文で示唆された新しい形式の問題を通して、既存の医療LLMを超える性能を持つAIを開発することを目指します。

Cubecはデータサイエンティストをはじめ、一緒にチャレンジしてくれる仲間を募集しています。興味がある方は、こちらからカジュアル面談をお申込みください

Cubecの会社紹介はこちら

この記事が気に入ったらサポートをしてみませんか?