BI-RADS Category Assignments by GPT-3.5, GPT-4, and Google Bard: A Multilanguage Study

2024年5月7日 17:36

https://pubs.rsna.org/doi/full/10.1148/radiol.232133

radiol.232133.txt
下記の文章は論文のアブストラクトをChatGPTに解釈させたものであり、正確性は保証しません。

Q1 何に関する論文か、詳しく説明してください。

この論文は、乳がんスクリーニングにおけるBI-RADS（Breast Imaging-Reporting and Data System）カテゴリーの割り当てに関する人間の放射線科医間の合意度と、人間の放射線科医とLLMs（Large Language Models、大規模言語モデル）との合意度を比較した研究について述べています。

BI-RADSカテゴリーは、乳房画像診断の結果を標準化し、報告するためのシステムであり、カテゴリー1から5までの分類があります。これらのカテゴリーは、検出された病変の悪性度の可能性に基づいており、臨床的な管理において重要な役割を果たします。

研究では、2400の報告書を分析し、元の読影者とレビューする読影者の間で、BI-RADSカテゴリー割り当てにおける合意度が非常に高い（AC1 = 0.91）ことが示されました。また、画像モダリティ、言語（英語、イタリア語、オランダ語）、そして臨床管理カテゴリー（BI-RADS 0、BI-RADS 1または2、BI-RADS 3、BI-RADS 4または5）によって分類した場合の合意度も非常に高いことが示されています。

一方で、元の読影者とGPT-4、GPT-3.5、BardといったLLMsとの間では、合意度は中程度（AC1 = 0.52、0.48、0.42）であり、特に臨床管理に影響を与えるBI-RADSカテゴリーのアップグレードやダウングレードの頻度に大きな違いが見られました。人間の読影者間では変更が必要なケースが2400件中118件（4.9%）であったのに対し、Bardでは611件（25.5%）、GPT-3.5では573件（23.9%）、GPT-4では435件（18.1%）と、LLMsはより多くのケースで臨床管理に影響を与えるカテゴリーの変更を提案していました。

この論文は、乳がんスクリーニングの診断における人間の専門家とAIモデルとの比較、およびそれらの臨床的意義についての研究結果を報告していることがわかります。

Q2 研究目的とその背景について、詳しく説明してください。

本研究の目的は、乳がんスクリーニングおよび診断のためのBI-RADS（Breast Imaging Reporting and Data System）カテゴリーの割り当てにおいて、人間の放射線科医と大規模言語モデル（LLMs）間の一致度を比較することにありました。この研究は、文書化された乳房イメージングレポートに基づいて、3つの言語で表現されたBI-RADSカテゴリーに対する人間の読者とLLMsの間の合意を評価し、カテゴリーの不一致割り当てが臨床管理に与える影響を評価することを目的としています。

この研究の背景には、BI-RADSカテゴリーの割り当てにおける人間の読者間の低いまたは中程度の合意度に対する懸念があります（17-21）。BI-RADSカテゴリーの割り当ては、自然言語処理ツールの使用が最も集中的に評価されているタスクの一つです（22-24）。これまでの研究では、乳房イメージングレポートの大規模な特に編成された注釈なしと注釈付きのデータセットに対する複数のトレーニングと検証の後、自然言語処理ツールが正確にBI-RADSの特徴を抽出し、BI-RADSの割り当てを推論し、最終的には病理学的結果（すなわち、生検での後続のがん診断）を予測できることが示されています（22-24）。しかし、異なる言語での放射線学的報告に基づいてBI-RADSカテゴリーを割り当てるための一般的に訓練されたLLMsの能力と、人間の読者との一致を調査した研究は不足していました。

この研究は、スイスのチチーノ州（Ente Ospedaliero Cantonale, Lugano）にある調整センター（センター1）、アメリカ合衆国ニューヨーク州のメモリアルスローンケタリングがんセンター（センター2）、オランダのアムステルダムにあるオランダがん研究所（センター3）の3つのセンターからのレポートを用いて実施されました。チチーノ州の倫理委員会（プロトコル2023-01032）の承認を受け、特定のインフォームドコンセントの必要性が免除されました。センター2からの報告は、地元の機関審査委員会（プロトコルIRB19-093）の承認を受けて収集されました。センター3からの報告は、地元の機関審査委員会（プロトコルIRBd21-058）の承認を受けた以前に公表された研究の枠組みで収集されました。

この研究は、放射線科医とLLMsの間のBI-RADSカテゴリー割り当てにおける合意の程度を比較し、LLMsが臨床管理に悪影響を及ぼす可能性のある不一致のカテゴリー割り当てをどれだけ発生させるかを評価することで、LLMsの臨床的な使用に関する懸念を明らかにすることを目的としています。また、この研究は、LLMsが複雑な医療推論を必要とするタスクに現在対応できていないことを強調しており、LLMsの使用に対する規制の必要性と、これらのツールのコンテキストに特化した拡張の迅速な開発を示唆しています。

Q3 本研究で用いた手法について、詳しく説明してください。

この研究では、乳がんのスクリーニングにおいて、BI-RADS（Breast Imaging Reporting and Data System）カテゴリーの割り当てにおける人間の放射線技師と言語モデル（LLMs）のパフォーマンスを比較しています。BI-RADSは乳がんの評価に使われる標準的なシステムで、画像所見をカテゴリーに分けて評価します。ここでは、特にGPT-3.5、GPT-4、そしてBardというLLMsが使用されています。

手法としては、2400件の放射線画像レポートを集め、それらに対する元の放射線技師のBI-RADSカテゴリー割り当てと、2番目の放射線技師およびLLMsの割り当てを比較しました。レポートはBI-RADS 1〜5のカテゴリーに分類され、カテゴリー4と5はがんの可能性が高いとされています。

データ収集は、異なるセンターからのレポートを使用して行われました。センター1とセンター2からは、それぞれ2020年5月と2021年1月から2023年10月までのレポートが連続して収集され、センター3からはランダムにサンプリングされたレポートが使用されました。含まれるレポートは、18歳以上の患者に関するもので、BI-RADSの記述、印象、および報告放射線技師によるBI-RADS割り当てが完全に含まれているものに限られました。

分析では、元の放射線技師とレビューする放射線技師、またはLLMsの間でのBI-RADSカテゴリーの合意度を評価しました。合意度はAC1（GwetのAC1統計量）を使用して測定され、これは一致の偶然性を考慮した統計量です。

結果の評価では、カテゴリーの変更が臨床管理にどのように影響するかを考慮しました。具体的には、カテゴリーのダウングレード（BI-RADS 4または5からBI-RADS 1、2、3への変更）とアップグレード（BI-RADS 1または2からより積極的な管理が必要なカテゴリーへの変更）を比較しました。

研究では、LLMsの割り当ての再現性も評価され、7日後に同じレポートに対して再度BI-RADSカテゴリーを割り当てるテストが実施されました。この再現性は、英語、イタリア語、オランダ語のレポートに対して、ほぼ完全な合意が得られることを示しました。

この研究は、人間の放射線技師と比較してLLMsがどの程度有効かを評価する目的で実施され、LLMsが臨床管理に悪影響を及ぼすBI-RADSカテゴリーの変更をより多く行うことが示されました。また、LLMsは臨床管理に良い影響を及ぼすカテゴリーの変更を行う割合が低いことも示されました。

この研究の結果は、人間の放射線技師とLLMsのパフォーマンスを比較し、LLMsの使用が臨床管理に与える影響を理解するための重要な情報を提供します。

Q4 本研究の成果と限界について、詳しく説明してください。

この研究では、BI-RADSカテゴリーの割り当てにおける人間の放射線科医と言語モデル（GPT-4、GPT-3.5、Bard）の間の一致性と、その臨床管理に与える影響について比較が行われました。

結果として、人間のレビューによるBI-RADSカテゴリーの割り当ての一致性は非常に高く（AC1 = 0.91）、言語モデルとの一致性は中程度（GPT-4でAC1 = 0.52、GPT-3.5でAC1 = 0.48、BardでAC1 = 0.42）であることが明らかになりました。また、言語モデルによるBI-RADSカテゴリーの変更が臨床管理に与える負の影響は、人間のレビューよりも高い割合で発生することが示されました（人間で1.5%に対し、GPT-4で10.6%、GPT-3.5で14.3%、Bardで18.1%）。

言語モデルの再現性については、各言語において初期のBI-RADS割り当てと7日後の割り当ての間で高い一致性が見られました（英語でGPT-3.5が0.82、Bardが0.83、GPT-4が0.88、イタリア語とオランダ語でも高い一致性がありました）。

この研究の制約点としては、以下の点が挙げられます。

研究サンプルの量と多様性：2400のレポートというサンプルは大きいものの、さらに多くのデータや異なる地域や人口統計のデータを含めることで結果の一般化が向上する可能性があります。
言語モデルのバージョンと訓練データ：研究ではGPT-4、GPT-3.5、Bardといった特定の言語モデルが使用されていますが、他のモデルやアップデートされたバージョンを使用することで結果が異なる可能性があります。
言語モデルの臨床適用性：言語モデルが放射線科医の専門知識を完全に置き換えることができるかどうかは不明であり、モデルの解釈や臨床的意思決定への直接的な統合にはさらなる検証が必要です。
技術的な制約：言語モデルは特定の訓練データに基づいており、そのデータが偏っている場合、モデルの判断も偏る可能性があります。
言語の違い：英語、イタリア語、オランダ語のレポートに対する一致性が調査されましたが、他の言語における性能は不明です。

この研究は、言語モデルが医療の分野で有用なツールになり得ることを示唆していますが、人間の専門家による監視と組み合わせることで最も効果的に機能することを強調しています。

Q5 本研究で何を明らかにしたか、詳しく説明してください。

この研究は、乳がんスクリーニングや診断のためのMRI、マンモグラフィー、超音波検査を受けた女性の報告書を基に、BI-RADSカテゴリーの割り当てにおける人間の読影者と大規模言語モデル（LLMs）間の合意度を評価しました。BI-RADSは、乳がん画像報告とデータシステムの略で、乳房画像の評価と報告のための標準化されたシステムです。

この研究では、イタリア語、英語、オランダ語で書かれたBI-RADS 1～5に分類される所見を含む報告書を収集し、ボード認定の乳房放射線科医とLLMs（GPT-3.5とGPT-4（OpenAI）、Bard（現在はGeminiと呼ばれる（Google）））が、元の放射線科医によって記述された所見のみを使用してBI-RADSカテゴリーを割り当てました。Gwet合意係数（AC1値）を用いてBI-RADSカテゴリーにおける人間の読影者とLLMs間の合意度を評価しました。

研究結果によると、人間の読影者間でのBI-RADSカテゴリー割り当ての合意度はほぼ完璧でした（AC1値0.91）。これは、画像モダリティによって分類された報告書（AC1範囲0.90～0.92）、言語によって分類された報告書（英語で0.94、イタリア語で0.88、オランダ語で0.89）、臨床管理カテゴリーによって分類された報告書（BI-RADS 0、BI-RADS 1または2、BI-RADS 3、BI-RADS 4または5）（0.94）においても同様でした。

一方で、人間とLLMs間の合意度は、言語によって異なり、全体的に中程度の合意が見られました。特に英語で書かれた800件の報告書では、全ての人間-LLM間の合意度が中程度でしたが、イタリア語とオランダ語で書かれた報告書では、GPT-3.5とGPT-4の間で中程度、Bardとの間では公正な合意度が見られました。

この研究は、LLMsが臨床適用において持つ可能性と限界を示しています。人間の読影者間での高い合意度に対して、LLMsとの合意度は中程度であり、LLMsによるカテゴリー割り当ての変更が臨床管理に影響を与える可能性があることを示唆しています。また、LLMsの再現性は高いものの、特定の言語や文脈における精度にはばらつきがあることが示されています。

この研究は、AI技術が医療分野において有用である可能性を示しつつも、その精度や適用性には限界があることを示しており、今後の研究や臨床応用においては、これらの技術を適切に評価し、取り入れるためのガイドラインが重要であると結論付けています。

Q6 本研究で用いたデータセットを網羅的に列挙し、名前やURLなどがあればそれらも含めて詳しく説明してください。

この研究で使用されたデータセットについての具体的な情報は文脈からは提供されていません。したがって、私の知識に基づいて説明します。

データセットは、乳がん画像報告の2400件のレポートから構成されており、それぞれがBI-RADS（Breast Imaging-Reporting and Data System）カテゴリーに分類されています。BI-RADSは、乳がんのスクリーニングと診断に使用される標準化されたレポーティングシステムです。

データセットのサイズは、3つの言語（英語、イタリア語、オランダ語）にわたる800件ずつのレポートで、合計2400件です。各レポートは、患者の特定情報を削除し、乳房画像報告が通常組織される4つのセクション（臨床声明と検査技術、所見、印象、BI-RADSカテゴリー）に分けられました。

BI-RADSカテゴリーの割り当ては、原報告者とレビュー報告者間でほぼ完璧な一致を示しました（AC1 = 0.91）。これは、言語や画像モダリティによる層別化を含む様々な条件下でも同様です。

誤ってBI-RADS 4または5に分類されたレポートに関しては、人間の読影者とLLM（言語モデル）との間で正しくBI-RADS 1、2、または3にダウングレードされた割合に有意な違いは観察されませんでした。

一方で、より積極的な管理が必要なBI-RADSカテゴリーにアップグレードされたレポートの割合は、人間のレビューではLLMに比べて低かったです。

データセットの具体的な収集元やアクセス方法については、研究論文または著者による追加情報なしには特定することはできません。通常、このような医療データはプライバシーの問題や機密性により、公開アクセス可能な形式で提供されることは稀です。もしデータセットにアクセスするためのURLや参照情報が必要な場合は、論文の著者に直接連絡を取るか、論文に記載されている参考文献を確認する必要があります。

7 本研究を特徴づけるキーワードを日本語で提案し、ハッシュタグとして列挙してください。（５個程度）

#乳がん診断 #BI -RADSカテゴリー #人間とAIの比較 #臨床管理の変化 #再現性

この記事が気に入ったらサポートをしてみませんか？