見出し画像

Assessing the Utility of ChatGPT Throughout the Entire Clinical Workflow: Development and Usability Study

1. この研究の学術的背景や学術的「問い」は、大規模言語モデル(LLM)を活用したAIチャットボットが、医療現場の決断支援をどの程度うまくこなせるかということです。医療業界は複数の関連するタスクを繰り返し行う必要がありますが、AIチャットボットの性能がそういった領域でどの程度有効なのかを評価することが目指されています。

2. 本研究の目的は、ChatGPTというツールが継続的な臨床決定支援にどの程度性能を発揮するのかを評価することです。MSD臨床マニュアルからの36の臨床症例を使用して、差別診断、診断テスト、最終診断、そして患者の管理におけるChatGPTの性能を評価しています。

3. AI技術が一問一答形式のタスクにおいては優れたパフォーマンスを達成していることがすでに明らかにされています。しかし、これを逐次的な問いかけによる手順的な臨床推論にまで拡大できるかどうか、という点に着目したのが本研究の着想です。

4. この研究では、ChatGPTが全ての臨床症例において71.7%の全体的な正確性を達成し、最終診断のタスクでは76.9%の精度を示す一方、初期の差別診断では60.3%と最も低いパフォーマンスを示しました。普通の医学知識に関する質疑応答に比べて、差別診断や臨床管理の推論タスクではそのパフォーマンスが比較的低下しました。

5. 本研究の有効性は、人間による評価者が設定する問いに対する正しい回答の割合によって測定されました。また、線形回帰分析が行われ、ChatGPTの臨床タスクに対するパフォーマンスに影響を与える要素を評価しました。

この記事が気に入ったらサポートをしてみませんか?