Exploring the capabilities and limitations of large language models in nuclear medicine knowledge with primary focus on GPT-3.5, GPT-4 and Google Bard

Ikemen Mas Kot

2024年3月25日 22:45

下記の文章は論文のアブストラクトをChatGPTに解釈させたものであり、正確性は保証しません。

本研究の背景には、人工知能の一種である大規模言語モデル（LLM）の進歩があります。LLMは、人間のようなテキストを生成することができる技術であり、オンライン情報へのアクセスと処理方法を変革する可能性を持っています。従来の検索エンジンに比べて、LLMは情報を要約し、ユーザーとの対話を通じて新しいテキストコンテンツを生成する能力を持っており、より直感的なユーザーエクスペリエンスを提供することができます。
本研究では、ChatGPTとBardという2つの主要なアプリケーションに焦点を当てています。ChatGPTは、OpenAI Inc.が開発したGPT-3.5とGPT-4というLLMのフロントエンドインターフェースです。一方、Bardは、Google LLCが開発したPathways Language Models（PaLM）とGeminiというLLMに基づいて構築されています。これらのアプリケーションは、一般のユーザーやテクノロジー愛好家の両方に広く採用されています。
本研究の目的は、GPT-3.5、GPT-4、およびBardという3つの主要なLLMが、医学生や一般医師に関連する核医学に関する医学的な質問に正確に答える能力を評価することです。研究では、20の質問を各LLMに提示し、4つの選択肢の中から最も適切な回答を選ぶ形式で正確性を評価しました。質問の難易度は、Bloomの認知分類の覚えるレベル、理解するレベル、応用するレベルに応じて異なっていました。
本研究では、核医学に関連する20の質問を使用しました。これらの質問は、医学生や一般医師に必要なレベルでの核医学の基礎知識をカバーしており、4つの選択肢の中から最も適切な回答を選ぶ形式で提示されました。質問は、核医学の基礎知識をカバーしており、Bloomの認知分類の覚えるレベル、理解するレベル、応用するレベルに応じて難易度が異なっていました。
本研究の結果、GPT-3.5の正確な回答率は85.0％、GPT-4の正確な回答率は95.0％、Bardの正確な回答率は90.0％でした。LLMが誤って回答した質問には、応用レベルの質問だけでなく、より基本的な理解レベルや覚えるレベルの質問も含まれていました。これは、LLMがまだ医学生や一般医師のレベルで全ての核医学の質問に正確に答えることができないことを示唆しています。LLMを使用する際には、核医学に関連する医学情報を検索するツールとしての注意が必要です。
本研究では、GPT-3.5、GPT-4、およびBardの回答の正確性を評価するために、20の質問を使用しました。各LLMに提示された質問は、4つの選択肢の中から最も適切な回答を選ぶ形式であり、正確性は正しい回答率を使用して評価されました。質問は、Bloomの認知分類の覚えるレベル、理解するレベル、応用するレベルに応じて異なる難易度でした。このような評価を通じて、本研究はGPT-3.5、GPT-4、およびBardの核医学に関連する質問への回答の正確性を評価し、LLMの有効性を検証しました。

この記事が気に入ったらサポートをしてみませんか？