【論文紹介】Google Researchが行ったPaLMの医学分野への適応評価


元論文(Open Access)

Singhal, K., Azizi, S., Tu, T. et al. (Google Research)
"Large language models encode clinical knowledge."
Nature (2023).
リンク

要点

  • LLMの臨床知識を評価するためのデータセットMultiMedQAをつくった

  • MedQAやPubMedQAなど複数のデータセットにおける性能評価で、Flan-PaLMが既存モデル(SotA)を上回る性能を示した

  • Prompt Tuningして医学分野に適応させたMed-PaLMは、臨床医による評価において多くの項目でFlan-PaLMより良く臨床医にせまる結果を示した

使ったデータセット

MultiMedQAは既存の6つのオープンデータセット

  1. MedQA

  2. MedMCQA

  3. PubMedQA

  4. LiveQA

  5. MedicationQA

  6. MMLU clinical topics

に今回著者らが新たに作成したHealthSearchQAの合計7つのデータセットを組み合わせたもの。
HealthSearchQAはオンライン検索された質問3173問からなるデータセットで、上記論文ページのSupplementary informationからダウンロードできる。

主な結果

Fig. 1より一部抜粋

これまでのSotA(最先端のモデル)であったPubMedGPTが正答率50.3%だったのに対し、Flan-PaLMは67.6%と17%以上性能が上がっている。
(一方でパラメーター数は27億から5400億で200倍)

MedQAは例えば以下のような質問と解答選択肢のペアからなるデータセット

Example question: A 65-year-old man with hypertension comes to the physician for a routine health maintenance examination. Current medications include atenolol, lisinopril, and atorvastatin. His pulse is 86 min−1, respirations are 18 min−1, and blood pressure is 145/95 mmHg. Cardiac examination reveals end diastolic murmur. Which of the following is the most likely cause of this physical examination?

MedQA

Answers (correct answer in bold): (A) Decreased compliance of the left ventricle, (B) Myxomatous degeneration of the mitral valve (C) Inflammation of the pericardium (D) Dilation of the aortic root (E) Thickening of the mitral valve leaflets.

MedQA

また、MedQAのような試験問題形式だけでなく、ChatGPTで行うような質疑応答に対する評価もされている。

Fig. 4を引用

これは140問の質問に対するFlan-PaLM、Med-PaLM、臨床医の回答を臨床医が評価した結果である。(評価する臨床医は一人)

科学的コンセンサスとの一致の判定(a)や有害度の判定(d, e)といった項目では、Med-PaLMはFlan-PaLMに比べて明らかに良い評価を得ており、臨床医の回答に迫る結果を示している。

一方で、不適切な項目の判定(b)においては性能が向上するどころか悪化してしまっており、この点においてはInstruction Prompt Tuningの効果がなかったことがわかる。


この記事が気に入ったらサポートをしてみませんか?