CT肺がんAI診断:ひたすら偽陽性を増やす
数値的インパクト
"100万人のスクリーニング対象者で再現された場合、追加で150〜750件のがんが検出される一方で、59,700〜79,600人が不要な監視を受ける"
Geppert, Julia, Asra Asgharzadeh, Anna Brown, Chris Stinton, Emma J Helm, Surangi Jayakody, Daniel Todkill, ほか. 「Software Using Artificial Intelligence for Nodule and Cancer Detection in CT Lung Cancer Screening: Systematic Review of Test Accuracy Studies」. Thorax, 2024年9月25日, thorax-2024-221662. https://doi.org/10.1136/thorax-2024-221662.
【既にこのトピックで知られていること】
人工知能(AI)ベースのソフトウェアは、肺がん検診の一環として肺結節の検出や測定を支援するためにますます使用されているが、その検査精度や臨床管理への影響については包括的に批判され、要約されていない。
【この研究が明らかにしたこと】
肺がん検診におけるAI支援は、感度を高める傾向がある(より多くのがんを検出する)が、その代償として特異度が低下する(決してがんに進行しない結節に対する大幅な追加監視を引き起こす)。
証拠のほとんどは、バイアスのリスクと適用可能性の懸念が高い研究環境で行われた後ろ向き研究から得られている。
【この研究が研究、実践、政策に与える可能性のある影響】
AIソフトウェアの導入およびさらなる研究は、AI支援の特異度を向上させ、実際の診療現場での証拠を前向きに収集するために、堅固な研究デザインを使用することに焦点を当てるべきである。
序文
肺結節の早期発見、評価、監視および適時の介入は、肺がんの罹患率および死亡率を低減するための重要なアプローチである。肺がん検診プログラムは、米国、クロアチア、チェコ共和国、台湾などいくつかの国で、肺がんの生存率向上のエビデンスが増えていることを受けて確立されている。2022年9月には、英国国立スクリーニング委員会が、肺がんリスクが高いと特定された55歳から74歳の人々を対象に、低線量CTを用いた肺がん検診を推奨した。
結節管理に関する推奨事項は、国際的にガイドラインによって異なるが、ほとんどは結節の直径や体積を測定し、次のステップを決定する手助けとしている。多くの結節を有する個人は、結節が成長しているかどうかを評価するために、定期的なCT監視下に置かれる。結節の手動での正確な測定は難しく、結節は非常に多様な形状やサイズで存在する。読み手間および読み手内の変動が大きいという証拠があり、その変動は結節の形態が複雑になるほど増加する。最近発表されたオランダ・ベルギー肺がん検診試験(NELSON)では、CTスキャンの9.2%が不確定であった(すなわち、体積が50〜500 mm³の固形結節、直径5〜10 mmの胸膜基底の固形結節、または平均直径が8 mm以上の非固形成分を伴う固形結節を示した)。これらのすべての個人は、体積倍増時間を計算するために3か月後に再度CTスキャンを受ける必要があった。CTスキャンで検出された結節を有する人々の割合が高いため、結節の正確な測定と適切な管理は、放射線科医の時間と患者の不安に重大な影響を与える。
コンピューター支援検出(CAD)システムは、放射線科医がCTスキャンを読む際に支援するためのシステムで、あらかじめ定められたルール、閾値、パターンに基づいており、長年にわたって利用されてきた。これらは、NELSON試験、UKLS試験、多中心イタリア肺検出試験、および進行中のヨークシャー肺がん検診試験で使用されている。近年では、肺結節を自動的に検出・測定する能力を持つ現代的なAIを利用したソフトウェアが登場しており、放射線科医のスクリーニング負荷や読影時間を減少させる可能性がある。これらのシステムは従来のCADシステムとは異なり、あらかじめ定められたルールに依存せず、代わりにタスクに関連する特徴を学習し、生データからアルゴリズムを生成する。
本研究では、CEマークを取得した(関連する欧州連合規制に準拠した)AIベースのソフトウェアを使用して、胸部CTスキャンにおける肺結節の自動検出および解析の精度を、肺がん検診の一環として検討することを目的とした。副次的な結果として、読影時間と、AI支援が肺CTスクリーニング報告およびデータシステム(Lung-RADS)カテゴリーに与える影響に関する提供情報を分析した。
結果
2022年1月に6,330件のユニークな結果を取得し、そのうち4,886件は2012年以降に発表された。9件の研究が関連性があると判断され、さらに他の資料から2件の研究が追加された。2023年3月の更新検索では1,687件の結果が追加され、そのうち1件のみが対象として可能性があったが、最終的に除外された。合計で11件の研究が含まれた。
研究には19,770人のスクリーニング参加者が含まれており、いくつかの研究で同じ患者やデータベースが使用されている可能性がある。米国、韓国、英国、台湾、中国、オランダ、デンマークなどで行われた研究が含まれていた。8件の研究はMRMC(多リーダー多ケース)デザインを採用していた。
6つの異なるAIベースのソフトウェアが使用されていた。ソフトウェアには、AI-Rad Companion、AVIEW Lungscreen、ClearRead、InferRead CT Lung、VUNO Med LungCT AI、Veolityが含まれていた。
バイアスと適用性に関するリスクは高く、特に8件の比較研究のうち5件でバイアスのリスクが「高い」と評価された。問題には、連続またはランダムサンプリングの欠如、臨床実践とは異なるテスト条件での実験、および基準の偏りが含まれていた。
AI支援読影と未支援読影を比較した8件の研究では、AIの追加により感度は向上したが、特異度は低下した。感度は+5%から+13%、特異度は−3%から−6%の範囲で変化があった。
肺がんの検出において、AI支援は感度が向上し(+3%から+7%)、特異度は低下した(−8%から−6%)。結節の検出と分類においても同様に、感度が+20%、特異度が−7%であった。
AI支援は、Lung-RADSカテゴリーに基づく結節の分類にも影響を与え、アクショナブルな結節(Lung-RADS 3–4)の割合がAI使用時に高くなる傾向があったが、追加された結節が悪性かどうかを確認する基準は使用されていなかった。
読影時間に関しては、AI支援を使用すると、未支援の場合と比較して読影時間が短縮された。読影時間はAI支援で86秒(中央値)から160秒、未支援では132.3秒から98秒に短縮された。
スタンドアロンのAIは最も高い感度(58%–100%)を示したが、特異度は低かった(62%–82%)。AI支援読影や未支援読影と比較した場合、AI支援読影は感度が71%–99%、特異度が74%–97%であった。
Discussion要約
臨床的背景の要約
肺がん特異的な死亡率を減少させるランダム化比較試験(RCT)の強力なエビデンスに基づき、多くの国で肺がん検診プログラムが導入されている。しかし、これにより、既に逼迫している医療システムに大きな負担がかかり、特にスキャナー容量や放射線科医の時間に影響が出る。AIアルゴリズムを使用したさまざまなソフトウェアが登場しており、放射線科医の負担や読影時間を軽減する可能性があるが、これらは患者に害を与えるリスクや放射線科医の作業量を増加させる可能性もある。AIソフトウェアのパフォーマンスを評価するためのエビデンスが必要である。
主要な発見の要約
検索により6573件の文献が見つかり、最終的に11件の異質な研究が選ばれ、約2万人の患者に関する報告があった。これらの研究はすべて、バイアスのリスクが高く、適用可能性に懸念があった。AI支援読影は感度を向上させ(治療対象結節の検出・分類で+5%〜+20%、悪性結節で+3%〜+15%)、特異度を低下させた(治療対象結節のない人の検出で−7%〜−3%、悪性結節のない人で−8%〜−6%)。AI支援により、高リスクカテゴリに割り当てられる結節の割合が増加した。これが100万人のスクリーニング対象者で再現された場合、追加で150〜750件のがんが検出される一方で、59,700〜79,600人が不要な監視を受けることになる。
強みと限界
検索範囲は広かったが、期間は2012年1月から2023年3月までに制限された。また、英語で発表された研究のみに限定されたが、これが結果に大きなバイアスを生じさせる可能性は低い。使用されたQUADAS-2とQUADAS-Cツールにより、ほとんどの研究で患者選択、参照基準、テスト方法、タイミングにおいて品質が不足していた。研究は非常に異質で、6種類の異なるAIソフトウェアを使用し、肺がんの疫学や放射線科医の訓練が異なる国からのものであった。したがって、結果はメタアナリシスではなくナラティブレビューとしてまとめられた。AI支援の効果は、肺がんの有病率に依存し、一般化は難しい。また、AIソフトウェアは、データセットの拡張に伴いパフォーマンスが向上する可能性があるが、評価はあくまで一時点のものである。
他の研究との比較における強みと弱み
12件のAIに関するシステマティックレビューが存在したが、ほとんどはスタンドアロンのAIパフォーマンスを評価しており、本レビューの目的とは一致しなかった。AI使用による感度の向上と特異度の低下という傾向は他のレビューでも同様の結果が見られたが、これまでのレビューでは全体的に感度と特異度が改善されたという報告もあった。
臨床医および政策立案者への結論と示唆
本レビューにより、AI支援ソフトウェアの使用が感度を向上させる一方で、特異度が低下し偽陽性が増加することが確認された。NHSのターゲット肺健康チェックプログラムはすでにAIに支援されており、これを排除することは現実的ではないが、特異度の向上が必要である。AIの使用によって、がんの診断基準や紹介基準が変わることを防ぐため、バイアスや適用可能性の懸念を克服した質の高い研究が求められる。
この記事が気に入ったらサポートをしてみませんか?