見出し画像

Comparison of Diagnostic and Triage Accuracy of Ada Health and WebMD Symptom Checkers, ChatGPT, and Physicians for Patients in an Emergency Department: Clinical Data Analysis Study

  1. 本研究の学術的背景や問いは、病状診断が患者ケアの重要な要素であるものの、誤診が一般的であり、それが患者を危険にさらす可能性があることです。診断支援システムは医師や他の保健医療従事者の診断を向上させる役割を果たすことがで���ます。特に、症状診断支援システム(SCs)は、患者による診断やトリアージ(どの程度の治療が必要か)を向上させるよう設計されています。大規模な言語モデルであるChatGPT(バージョン3.5と4.0)、広く使われているWebMD SC、およびAda Healthが開発したSCの診断・トリアージ能力を評価して、急性や緊急性の医療問題を抱える患者にどれだけ効果的か検証することが本研究の主な目的です。

  2. 本研究の目的は、新しい大規模言語モデルChatGPT(バージョン3.5と4.0)、広く使用されているWebMD SC、およびAda Healthが開発したSCの診断およびトリアージ能力を評価し、急性または緊急な医療問題を持つ患者の治療における最終的な緊急治療室(ED)の診断や医師のレビューと比較することです。 学術的な独自性と創造性としては、ChatGPT、WebMD、Adaの各バージョンの診断能力とトリアージ能力を実際の患者データに基づいて検証し、ヒト医師と同等もしくはそれ以上の精度があるかを評価した点にあります。

  3. 本研究の背景には、誤認診断の回避と医療処置の向上を目指して開発された診断支援システムや症状チェッカーの存在があります。従来の診断支援システムは医師を支援する目的で開発されましたが、近年では症状チェッカーを患者自身が利用することで直接診断に活用することが増えています。

  4. 本研究では、40人のED(緊急治療室)患者がAda SCで入力した症状情報を基に、新たな大規模言語モデルChatGPT(バージョン3.5と4.0)、WebMDの診断能力とトリアージ能力を明らかにしました。ChatGPT、Ada SC、WebMD SCの診断から、少なくとも一つのED診断と一致するものが何%あったか、またChatGPT、WebMD、またはAdaのトリアージ推奨が独立した専門医とどれくらい一致したかを算出しました。また、“安全でない”または“過度に慎重”と評価された推奨の数も計算しました。その結果、各ツールの診断能力とトリアージ能力を評価することができました。

  5. 本研究の有効性は、それぞれのシステムの診断結果をEDでの最終診断と比較することで検証しています。また、3人の独立したED専門医がAdaから提供された自己報告の臨床データを盲目的にレビューし、その診断とトリアージの推奨を比較しています。

この記事が気に入ったらサポートをしてみませんか?