Performance of ChatGPT-3.5 and GPT-4 on the United States Medical Licensing Examination With and Without Distractions

Ikemen Mas Kot

2023年9月21日 22:13

https://arxiv.org/abs/2309.08625

本研究の学術的背景と学術的な問いは、大規模言語モデル（LLM）であるChatGPTが、会話（いわゆる「雑談」）と混ざった医療データを扱った場合、その医療的な助言の精度にどのような影響があるか、ということです。
本研究の目的は、雑談が含まれた医療データがChatGPTの医療的な推奨の精度にどの程度影響するかを調査することで、その結果を通じて、ChatGPTと他のLLMsが医師と患者との間の対話、さらには雑談を含む日常の対話にどのように利用できるかの可能性と限界を理解することです。
本研究の着想は、医療提供者が医療記録の文書化に費やす時間が多いという問題から来ていて、この問題解決のためLLMsが提案されてきました。特にChatGPTは、正確な診断を生成したり、さまざまな医療領域について一般的な情報を提供したりする能力が以前から報告されています。
本研究では、ChatGPT-3.5とChatGPT-4が、医療データと雑談が混ざった情報に対してどの程度正確な回答を提供できるかを検証しました。結果として、ChatGPT-3.5の回答能力は、雑談が医療データに加えられると減少したのに対し、ChatGPT-4の回答能力は両方の質問タイプで影響を受けなかったことが示されました。
本研究の有効性は、米国医師免許試験（USMLE）のステップ3の質問を用いて、医療データと雑談が混ざった質問に対するChatGPTの回答を、専門医による公式の正解と比較することで検証しました。

この記事が気に入ったらサポートをしてみませんか？