Feasibility of Using the Privacy-preserving Large Language Model Vicuna for Labeling Radiology Reports
https://pubs.rsna.org/doi/full/10.1148/radiol.231147
本研究の学術的背景、研究課題の核心をなす学術的「問い」は、大規模言語モデルが一般的なテキストベースのタスクには適しているが、患者のプライバシー制約のために使用できないという問題についてです。つまり、患者のデータを非特定化する必要がある場合、現在の大規模言語モデルは使用できません。この問題を解決するために、別の大規模言語モデルであるVicuna-13Bを用いて、局所的に実行可能かどうかを調査するという学術的な疑問です。
本研究の目的は、Vicuna-13Bを用いて胸部レントゲン写真のレポートにラベル付けする方法の実現可能性を検証することです。これにより、患者データの非特定化なしで、レントゲン写真のレポートに関する情報を自動的に分類・抽出できる可能性があるという学術的な独自性と創造性があります。
本研究の着想は、一般的な大規模言語モデル(ChatGPTやGPT-4)が高度な言語生成や理解のタスクに優れていることから得られました。しかし、これらのモデルは患者のデータを保護するために非特定化が必要です。そのため、患者データを保護しながら局所的に実行できる代替の大規模言語モデルの存在が求められていました。幸いにも、公開されたいくつかのトレーニング済みの大規模言語モデルがあり、その中にはVicunaというモデルも含まれています。Vicunaは、チャットインターフェースやアプリケーションプログラミングインターフェースを介してOpenAIにデータを送信する必要がなく、局所的に実行可能なモデルです。
本研究では、MIMIC-CXRデータセットとNIHデータセットから取得した胸部レントゲン写真のレポートを使用しました。Vicunaは、単一ステップまたは多段階のプロンプティング戦略(プロンプト1およびプロンプト2)を使用して、13の所見の存在または不在を報告する出力を生成しました。Vicunaの出力とCheXpertおよびCheXbertのラベラーとの一致度を評価しました。また、一定のランダム要素(温度、0.7)を導入したハイパーパラメータ設定における3回のVicuna出力の一致度も評価しました。さらに、100のNIHのレポートにおける放射線科医による注釈付きデータを用いて、Vicunaとラベラーのパフォーマンスを受信者動作特性曲線(AUC)で評価しました。
本研究では、Vicunaが胸部レントゲン写真のレポートに関する13の所見の存在または不在を報告する際の既存のラベラーとの一致度を評価しました。その結果、VicunaはMIMIC-CXRデータセットおよびNIHデータセットの両方において、平均的に中程度から相当する一致度を示しました。また、放射線科医による注釈付きデータを使用した場合においても、Vicunaはパフォーマンスが比較的高いAUCを示しました。