見出し画像

Data Extraction from Free-Text Reports on Mechanical Thrombectomy in Acute Ischemic Stroke Using ChatGPT: A Retrospective Analysis

https://pubs.rsna.org/doi/full/10.1148/radiol.232741

下記の文章は論文のアブストラクトをChatGPTに解釈させたものであり、正確性は保証しません。

1 何に関する論文か、詳しく説明してください。

この論文は、テキストレポートからのデータ抽出についてのものです。著者の一人であるN.C.L.によってドイツ語のプロンプトが作成され、20件のレポートでエラーを特定し、LLMsに与えられる指示を最適化するためにテストされました。実験はドイツ語で行われました。付録S1には英語版のプロンプトが提供されています。LLMsには、各レポートの手続きの詳細に関して、コンマ区切り値(CSV)のテーブルを作成するよう指示されました。内部および外部のレポートとプロンプトは、デフォルト設定のChatGPTのブラウザバージョンにコピー&ペーストされました。レポートの処理のための自動化されたパイプラインは使用されていませんでした。LLMsが提供したCSVコードは、テキスト(txt)ファイルにコピーされ、それからCSVテーブルに変換されました。各手続きの詳細について、LLMsには「はい」、「いいえ」、「欠損」といったデータ入力のオプションを含む詳細な指示が与えられました。レポートから抽出されたカテゴリと、各手続きの詳細に対するLLMsへの指示は、表1にまとめられています。

この論文は、いくつかの制約事項を認識しています。まず、その研究は後ろ向きの性質を持つため、結果の一般化を制限する可能性があります。第二に、GPT-4とGPT-3.5によるデータ抽出は、外部機関の少数のレポートでのみテストされました。そのため、追加の研究が必要であり、結果の一般化可能性を検証する必要があります。第三に、LLMには、当院で使用される材料の例が与えられました。これにより、当院とは異なる材料セットを使用する施設に対する研究の一般化可能性が低下する可能性があります。第四に、GPT-4の出力の再現性は評価されていませんが、これは将来の研究の課題となる可能性があります。Samaanらの研究では、バリアトリック手術に関する患者の質問がGPT-4に2回投げかけられ、回答の90.7%が再現可能であったと報告されています。第五に、レポートとプロンプトはドイツ語で作成されていますので、私たちの研究の結果は他の言語での確認が必要かもしれません。第六に、ChatGPTは今後もさらなるアップデートが行われる予定ですので、私たちの結果の再現性が制限される可能性があります。第七に、参照基準としては1人の読者のみが使用されました。ただし、その読者は手続きの高度な理解を持つ経験豊富な介入性神経放射線学者であり、この探索的研究には十分であると考えました。最後に、GPT-4は食品医薬品局(FDA)またはConformité Européenne(CE)の認可を受けた製品ではありませんので、医療の文脈で使用する際には注意が必要です。

ChatGPTのデータ入力の評価では、LLMsが専門家の読み取りと完全に一致するデータ入力のみが正しいとして数えられました。プロンプトで指定されたオプションからの逸脱は、同義語、句読点、またはLLMsが入力した追加のシンボルを含め、誤りとして数えられました。もしデータポイントがレポートに含まれていなかった場合、神経放射線学者によって「欠損」と宣言されました。LLMsも特定の情報を「欠損」と宣言した場合、データ入力は正しいとされました。プロンプトで要求された28の列以上をLLMsが作成した場合、統計ソフトウェアにインポートする際に、LLMsが生成した余剰の列は無視されました。

LLMsによる間違ったデータ入力は、神経放射線学者によってレビューされ、内容の誤りか形式の誤りかを判断しました。形式の誤りは、LLMsが作成したデータ入力で、正しいデータ入力の基準を満たさないが、内容としては正しいものを指します(たとえば、プロンプトで要求された「carotid」の代わりに「ICA」と入力された場合、またはプロンプトで要求された「yes」とは異なる大文字の「Yes」と入力された場合など)。内容の誤りは、単純に間違ったデータ入力を指します(たとえば、「M1」の代わりに「M2」と入力された場合、または「no」の代わりに「yes」と入力された場合など)。

2 研究目的とその背景について、詳しく説明してください。

この論文の研究目的は、テキストレポートからのデータ抽出を自然言語処理モデルであるGPT-4およびGPT-3.5を用いて評価することです。背景としては、従来の手法では時間と労力がかかるデータ抽出作業を自動化するために、人工知能モデルの有用性を検証する必要があるという点が挙げられます。この研究では、GPT-4およびGPT-3.5を使用して、血栓除去手術のレポートから手術の詳細を抽出するタスクを行い、その結果を評価しました。

背景としては、人工知能モデルの進歩により、テキストデータからの情報抽出が可能になってきています。しかし、医療分野のような専門的な文脈では、高い精度と信頼性が求められます。したがって、この研究では、GPT-4およびGPT-3.5が医療レポートからのデータ抽出においてどの程度の精度を持つかを評価し、その有用性と制限を明らかにしようとしました。

また、この研究の背景には、GPT-4がGPT-3.5よりも優れた性能を持つ可能性が示唆されている先行研究が存在します。この研究では、GPT-4が従来のGPT-3.5よりも適切な診断や適切なデータ抽出において優れた結果を示していることが報告されています。したがって、この研究では、GPT-3.5が血栓除去レポートからのデータ抽出においてどの程度の結果を示すかも評価されました。

研究の目的は、自然言語処理モデルを使用して医療レポートからのデータ抽出を自動化する可能性を検証し、その有用性と制限を明らかにすることでした。また、GPT-4とGPT-3.5の比較も行われ、どちらがより優れた結果を示すかも評価されました。

3 本研究で用いた手法について、詳しく説明してください。

本研究では、GPT-4およびGPT-3.5という自然言語処理モデルを使用して、血栓除去手術のレポートから手術の詳細を抽出するタスクを評価しました。

具体的な手法としては、まず、ドイツ語のプロンプトを作成し、20件のレポートをテストするために使用しました。これらのレポートは、ChatGPTのブラウザ版にコピー&ペーストされ、デフォルトの設定を使用して処理されました。自動パイプラインは使用せず、各レポートの詳細に対してLLMsに対してコンマ区切り値(CSV)形式のテーブルを作成するよう指示しました。

LLMsが提供したCSVコードは、テキスト(txt)ファイルにコピーされ、次にCSVテーブルに変換されました。LLMsには、各手続きの詳細についてのデータ入力の指示が与えられ、データ入力のオプションには「はい」、「いいえ」、「欠損」といった選択肢が含まれていました。

データ入力の評価では、LLMsのデータ入力が専門家の読み取りと完全に一致した場合に正解としてカウントされました。逸脱(シノニム、句読点、追加の記号など)は誤りとしてカウントされ、レポートに含まれていないデータポイントは「欠損」と宣言されました。

不正確なデータ入力は神経放射線科医によってレビューされ、形式の誤りと内容の誤りに分類されました。形式の誤りは、正しいデータ入力の基準を満たさないが、内容の面では正しいものを指し、内容の誤りは単純に間違ったデータ入力を指しました。

このような手法を用いて、GPT-4およびGPT-3.5のデータ抽出の精度を評価しました。

研究の結果としては、LLMsが提供したデータ抽出の精度は、専門家の読み取りと高い一致率を示しました。また、形式の誤りや内容の誤りも少なく、正確なデータ抽出が行われました。

しかしながら、本研究にはいくつかの制限があります。まず、研究の性質上、結果の一般化が制限される可能性があります。また、GPT-4およびGPT-3.5によるデータ抽出は、外部機関の少数のレポートに対してのみテストされたため、さらなる研究が必要です。さらに、LLMには当施設で使用されている材料の例が与えられたため、他の材料を使用する施設における一般化性が低くなる可能性があります。また、GPT-4の出力の再現性は評価されておらず、将来の研究のテーマとなる可能性があります。

以上のような制限があるものの、GPT-4およびGPT-3.5は血栓除去手術のレポートからのデータ抽出において有用であることが示されました。今後は、他の言語でも同様の結果が得られるかどうか、またChatGPTのアップデートによって再現性が制限される可能性があることに留意する必要があります。また、GPT-4は食品医薬品局(FDA)やConformité Européenne(CE)の承認を受けた製品ではないため、医療の文脈で使用する際には注意が必要です。

4 本研究の結果と限界について、詳しく説明してください。

この研究の結果は、いくつかの制限が存在することが示されています。まず、この研究は後ろ向きの性質を持っているため、結果の一般化が制限される可能性があります。また、GPT-4とGPT-3.5によるデータの抽出は、外部機関の報告書の一部に対してのみテストされたため、結果の一般化を検証するために追加の研究が必要です。さらに、LLMは私たちの機関で使用される材料の例を与えられましたが、これは異なる材料を使用する施設に対してのみ適用可能な研究の一般化を制限する可能性があります。また、GPT-4の出力の再現性は評価されておらず、将来の研究のトピックとなる可能性があります。Samaanらの研究では、GPT-4に対して肥満外科に関する患者の質問が2回行われ、90.7%の回答が再現可能であったと報告されています。さらに、報告書とプロンプトはドイツ語で作成されましたので、私たちの研究の結果は他の言語での確認が必要です。また、ChatGPTは今後もさらなるアップデートが行われる予定ですので、結果の再現性が制限される可能性があります。さらに、参照基準として1人の読者のみが使用されました。しかし、その読者は手技に関する高度な理解を持つ経験豊富な介入神経放射線科医であり、この探索的研究には十分であると考えました。最後に、GPT-4は食品医薬品局(FDA)やConformité Européenne(CE)の認可を受けていない製品ですので、医療の文脈で使用する際には注意が必要です。

この研究では、一部のデータポイントについては結果が悪かったことが観察され、人間の監督が依然として必要であることが示されています。最後の血栓除去操作に関しては、GPT-4によって間違ったデータが39件入力された場合、より詳細なプロンプトを使用して再分析を行い、別の20件の正しいデータが得られました。したがって、プロンプトの最適化によって、間違ったデータの入力を一部削減できる可能性があると仮説を立てています。プロンプトの生成方法についての議論は、付録S2に記載されています。

OpenAIのGenerative Pretrained Transformer(GPT)バージョン4(GPT-4)および3.5(GPT-3.5)は、最近一般の注目を集めている大規模な言語モデル(LLM)です。放射線学の目的では、GPT-4はキーコンテンツを見落とすことなく、フリーテキストの放射線報告書から標準化された報告書を作成することが示されています。また、GPT-4は情報を追加することなく、放射線報告書を簡素化することも可能です。最近の研究では、GPT-4を用いた簡素化された報告書のうち、83.3%に誤った情報が含まれていなかったと報告されています。また、ChatGPTは肺がんに関する患者の質問に対する回答能力(70.8%の正解率)や乳がん予防やスクリーニングに関する質問に対する回答能力(88.0%の正解率)が評価されています。ChatGPTはまた、放射線診断のボードスタイルの試験問題の69%を正しく回答することが示されており、患者の病歴や画像所見が与えられた場合にはDiagnosis Pleaseのクイズの54%を解決することができます。

統計分析は、著者の1人(N.C.L.)によってR(バージョン4.0.3; https://www.r-project.org/)およびRStudio(バージョン1.2.5033; https://rstudio.org/download/desktop)を使用して行われました。LLMによって作成されたCSVテーブルはRで統合され、神経介入医によって作成されたデータセットと比較されました。一致率の評価にはCohenのκ値を使用し、κが0.20未満の場合は一致が悪いことを示し、0.21-0.40は一致が適度であり、0.41-0.60は一致が良好であり、0.61-0.80は非常に良好な一致です。GPT-4とGPT-3.5の比較では、McNemar検定を使用しました。統計的有意水準はP = .05で設定されました。多重検定の補正は行われませんでした。

5 本研究で何を明らかにしたか、詳しく説明してください。

この研究では、GPT-4とGPT-3.5を使用して、脳卒中患者におけるmechanical thrombectomyの手術に関するテキストレポートからデータを抽出し、その性能を評価しました。その結果、GPT-4は前任のGPT-3.5よりも正確に手術の詳細データを抽出することができました。これは、GPT-4や他の大規模言語モデルが手動でのデータ抽出の代替手段となり得る可能性を示唆しています。GPT-4は放射線学のレポートからのデータ抽出を支援し、可能性としては改善することができますが、現在はまだエラーが発生するため、人間の読者による監視が必要です。

この研究では、mechanical thrombectomyの手術に関する自由なテキストレポートからのデータ抽出の能力をGPT-4とGPT-3.5で評価しました。GPT-4は、神経介入医によるデータ抽出を基準とした場合、データエントリの94.0%(2800のうち2631)を正確に抽出し、GPT-3.5(63.9% [1788 of 2800]; P < .001)よりも高い結果でした。また、外部のレポートに対しても同じ分析を行い、GPT-4は正確なデータエントリの90.5%(840のうち760)を達成し、GPT-3.5は64.2%(840のうち539; P < .001)を達成しました。

この研究のいくつかの制限事項を認識しています。第一に、この研究は後ろ向きの性質を持つため、結果の一般化が制限される可能性があります。第二に、GPT-4とGPT-3.5によるデータ抽出は、外部機関の少数のレポートのみでテストされましたので、結果の一般化を検証するためには追加の研究が必要です。第三に、この研究では、LLMに対して私たちの施設で使用される材料の例が与えられました。これにより、私たちの研究の一般化が異なる材料を使用する施設には適用されない可能性があります。第四に、GPT-4の出力の再現性は評価されていませんが、これは将来の研究のテーマとなる可能性があります。Samaanらの研究では、GPT-4に対して肥満手術に関する患者の質問が2回行われ、90.7%の回答が再現可能であったと報告されています。第五に、レポートとプロンプトはドイツ語で作成されていましたので、私たちの研究の結果は他の言語での確認が必要です。第六に、ChatGPTはさらなるアップデートが行われる予定ですので、私たちの結果の再現性が制限される可能性があります。第七に、基準として1人の読者のみを使用しました。ただし、その読者は手術の高度な理解を持つ経験豊富な介入神経放射線医であり、この探索的研究には十分であると考えました。最後に、GPT-4は米国食品医薬品局(FDA)またはConformité Européenne(CE)の承認を受けた製品ではありませんので、医療の文脈で使用する際には注意が必要です。

これまでの研究では、神経放射線学的CTやMRIのレポートからデータを抽出するために自然言語処理モデルが使用されてきましたが(15-22)、ChatGPTや他のLLMを使用して神経介入手術(mechanical thrombectomyなど)のレポートからデータを抽出するために評価された研究は、私たちの知る限りではありません。この研究の目的は、GPT-4が急性虚血性脳卒中患者のmechanical thrombectomyに関する神経放射線学の自由なテキストレポートからデータを抽出し、標準的な手術データ、臨床データ、材料や薬剤のデータを含むデータベースを作成することができるかどうかを評価することでした。また、GPT-4の前任であるGPT-3.5が無償で提供されているため、より新しい後継機としての代替となりうるかどうかも評価することでした。

材料と方法
この後ろ向き研究については、倫理委員会の承認を得ており、書面による同意の必要性は免除されました。

6 本研究で用いたデータセットを網羅的に列挙し、名前やURLなどがあればそれらも含めて詳しく説明してください。

本研究では、単一の施設で2022年11月から2023年9月までの間にメカニカルトロンベクトミーを受けた虚血性脳卒中患者の連続した報告書からデータが抽出されました。データセットの詳細については、論文では具体的な名前やURLは提供されていません。データセットの収集にあたっては、18歳以上の患者で、CTまたはMRIによって確認された頭蓋内大または中程度の血管閉塞があり、メカニカルトロンベクトミーによる治療意図があることが含める基準でした。データセットの除外基準は、詳細な報告書がない場合や、デジタルサブトラクションアンギオグラフィで頭蓋内閉塞がない場合でした。

データの抽出は、報告書のテキストから行われました。著者の一人であるN.C.L.によってドイツ語のプロンプトが作成され、20件の報告書でテストされ、エラーを特定し、LLMへの指示を最適化するためのフィードバックが行われました。実験はドイツ語で行われましたが、論文の付録S1には英語版のプロンプトが提供されています。LLMには、各報告書の手順の詳細に対してCSV形式のテーブルを作成するよう指示されました。内部および外部の報告書とプロンプトは、デフォルト設定でChatGPTのブラウザ版にコピー&ペーストされました。報告書の処理のための自動化パイプラインは使用されませんでした。LLMが提供したCSVコードは、テキスト(txt)ファイルにコピーされ、それからCSVテーブルに変換されました。各手順のために、LLMには「はい」、「いいえ」、「欠損」などのデータ入力オプションを含む詳細な指示が与えられました。報告書から抽出されたカテゴリと、各手順に対するLLMへの指示は、表1にまとめられています。

したがって、本研究で使用されたデータセットは、単一の施設でのメカニカルトロンベクトミーを受けた虚血性脳卒中患者の連続した報告書から抽出されたものであり、データセットの具体的な名前やURLは提供されていません。

7 本研究を特徴づけるキーワードを日本語で提案し、ハッシュタグとして列挙してください。(5個程度)

  1. 自然言語処理 (Natural Language Processing)

  2. ニューロラジオロジー (Neuroradiology)

  3. 機械的血栓除去 (Mechanical Thrombectomy)

  4. 脳卒中 (Ischemic Stroke)

  5. 大規模言語モデル (Large Language Models)

ハッシュタグ:
#自然言語処理
#ニューロラジオロジー
#機械的血栓除去
#脳卒中
#大規模言語モデル

この記事が気に入ったらサポートをしてみませんか?