見出し画像

Comparing GPT-3.5 and GPT-4 Accuracy and Drift in Radiology Diagnosis Please Cases

https://pubs.rsna.org/doi/full/10.1148/radiol.232411

  • 論文タイプ:本研究は原著論文です。掲載誌はRadiologyです。

  • 本研究の背景と関連研究:近年、大規模言語モデル(LLM)である生成事前学習トランスフォーマー(GPT)が注目されています。特にChatGPTは、人間のようなテキストを理解し生成する能力があります。しかし、連続するGPTの世代の進歩が放射線診断の正確性向上にどの程度寄与するかは定量化されていません。この研究では、GPT-3.5とGPT-4(OpenAI)の診断精度を評価しました。GPT-4はGPT-3.5の後継機であり、多くの学術試験で大幅な改善が示されています。

  • 本研究の目的とその重要性:本研究の目的は、テキストベースの放射線診断ケースでのGPT-3.5とGPT-4の診断精度を評価することです。GPTの世代が進むにつれて、診断精度がどのように向上するかを明らかにすることは、放射線診断の改善につながる重要な情報となります。

  • 本研究で用いた材料やデータの詳細:本研究では、1998年8月から2023年7月までの放射線診断ケースのデータを用いました。臨床経過、画像所見、正解診断などの情報が抽出されました。診断が開示されたケースは除外されました。GPT-3.5とGPT-4の診断精度は、臨床経過、所見、およびそれらの組み合わせのテキスト入力から生成された上位5つの鑑別診断を用いて評価されました。診断精度の評価には、放射線科医によって元々特定された画像所見が使用されました。

  • 本研究で何をどのように、どこまで明らかにした?:本研究では、GPT-3.5とGPT-4の診断精度を比較しました。結果として、GPT-4の診断精度は、GPT-3.5に比べて有意に改善されました。具体的には、3月のスナップショットでは19.8パーセンテージポイント(95%CI:15、25)の改善が見られ、6月のスナップショットでは11.1パーセンテージポイント(95%CI:6、17)の改善が見られました。

  • 本研究の有効性はどのように検証した?:本研究では、GPT-3.5とGPT-4の診断精度を比較することで、GPTの世代が進むにつれて診断精度が向上することを明らかにしました。この結果は、放射線診断の改善に向けた有望な手法としてのGPTの有効性を示しています。

効果的なキーワードの提案:

この記事が気に入ったらサポートをしてみませんか?