見出し画像

Recent medRxiv on Health Informatics: June 27, 2024

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 1: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
手術後の転倒は患者にとって重大な影響を及ぼすだけでなく、社会全体にも影響を与えます。高齢者の患者ケアを改善し、医療コストを削減するためには、手術後の転倒を検出することが極めて重要です。しかし、手術後の転倒を特定し追跡することは困難です。

新規性:
この研究では、臨床ノートに含まれる非構造化データを使用して、信頼性が高く自動化された転倒検出のための有望な解決策として、大規模言語モデル(LLM)を利用しました。これまでの研究では、このようなアプローチが取り入れられることは少なかったため、LLMを用いた転倒検出は新規性があります。

方法:
研究では、異なる2つの医療システム(スタンフォードヘルスケアと退役軍人健康管理局)で、手術後の転倒検出に対するいくつかのLLMプロンプティングアプローチをテストしました。使用されたのは3つのオープンソースのLLMで、その中でも「Mixtral-8x7B zero-shot」というモデルが最も優れた性能を示しました。

結果:
「Mixtral-8x7B zero-shot」はスタンフォードヘルスケアでは陽性的中率(PPV)が0.81、再現率が0.67であり、退役軍人健康管理局ではPPVが0.93、再現率が0.94であることがわかりました。これらの結果は、LLMがほとんど、または全く指導なしに転倒を検出できることを示しており、様々な設定での転倒予測と予防のためのLLMの応用への基盤を築いています。

以上の内容から、この研究は手術後の転倒検出において、大規模言語モデルを利用することの有効性を示し、高齢者の患者ケアの改善と医療コスト削減に寄与する可能性があると結論付けられます。

Improving postsurgical fall detection for older Americans using LLM-driven analysis of clinical narratives
Pillai, M., Blumke, T. L., Studnia, J., Wang, Y., Veigulis, Z. P., Ware, A. D., Hoover, P. J., Carroll, I. R., Humphreys, K., Osborne, T. F., Asch, S. M., Hernandez-Boussard, T., Curtin, C. M. 2024-06-26 http://medrxiv.org/cgi/content/short/2024.06.25.24309480v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 2: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

2020年のCOVID-19パンデミック発生以来、COVID感染の長期的な影響に焦点を当てた研究が数多く行われています。アメリカ疾病予防管理センター(CDC)は、長期COVIDが慢性的な状態を持つ実際の病気であることを表すために、「COVID-19後状態、特定されていない(U09.9)」という追加コードを国際疾病分類第10版臨床改訂(ICD-10-CM)に2021年10月1日に有効に実装しました。National COVID Cohort Collaborative(N3C)は、アメリカの異なる臨床機関をまたがる電子健康記録(EHR)データを集約し調和させることで、研究者に豊富なEHRデータを提供し、大量のCOVID陽性患者の中で長期COVID患者と非長期COVID患者の生存分析を構築することを容易にしています。

背景:
COVID-19の感染後に継続する多様な症状群、いわゆる「長期COVID」や「ポストCOVID症候群」として知られる状態が認識され、その実態解明と治療法の開発が急務とされています。CDCによるICD-10-CMへの追加コード導入は、長期COVIDが公式に認識され、その診断と報告のための基盤が整えられたことを意味しています。

新規性:
この研究は、N3Cが提供する大規模なEHRデータを活用し、COVID-19感染者の中で長期COVID患者と非長期COVID患者の生存率を比較分析することにより、長期COVIDの影響をより深く理解することを目指しています。これは、多様な臨床機関からのデータを統合することで、より大きな患者集団に関する情報を得ることが可能となり、長期COVIDの影響を広範に分析する新たな試みです。

方法:
研究では、N3Cデータベースから得られた電子健康記録を用いて、COVID-19感染者の追跡調査を行います。長期COVIDの定義を設定し、感染後の一定期間を経て発症した患者群と発症しなかった患者群を識別します。その後、生存分析を通じて、両群の生存率の差異を評価します。この分析には、統計的手法が用いられ、様々な共変量(年齢、性別、基礎疾患など)を考慮に入れた調整が行われます。

A Bayesian Survival Analysis on Long COVID and non Long COVID patients: A Cohort Study Using National COVID Cohort Collaborative (N3C) Data
Jiang, S., Loomba, J., Zhou, A., Sharma, S., Sengupta, S., Liu, J., Brown, D. E. 2024-06-25 http://medrxiv.org/cgi/content/short/2024.06.25.24309478v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 3: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
心不全は世界中で数百万人の人々に影響を及ぼし、生活の質を大きく低下させるとともに、高い死亡率と関連しています。広範な研究にもかかわらず、集中治療室(ICU)の患者における心不全と死亡率の統計的関連は十分には探求されていません。これは、予測モデルの改善が必要であることを示しています。

新規性:
この研究では、ICD-9コードを用いてMIMIC-IIIデータベースから18歳以上の1,177人の患者を特定しました。欠損データの処理、重複の削除、歪度の処理、データ不均衡の軽減のためのオーバーサンプリングといった前処理が行われました。LightGBMモデル内で変動膨張係数(VIF)値、LASSO回帰、および単変量分析を確認することにより、18の特徴が選択されました。最終的なLASSOロジスティック回帰モデルの出力は、他のベースラインモデル(ロジスティック回帰、ランダムフォレスト、LightGBM、サポートベクターマシン(SVM)、決定木)と比較して、最高のテストAUC-ROCが0.8766(95% CI 0.8065 - 0.9429)および精度が0.7291でした。すべてのモデルは良好な校正を示し、比較的低いブライアスコアでその信頼性を強調しました。私たちのモデルは、文献およびベースラインモデルの最良の結果よりも、心不全のICU患者の死亡をより良く予測しました。これらの結果は、改善された欠損値の補完戦略による前処理と、拡張された文献検索と重要な特徴の選択における改善された経験に基づいた改善された特徴選択に基づいています。グリッドサーチを用いたところ、ほぼ完璧な予測モデルが得られました。これらの方法は、心不全のICU患者の入院中死亡率の予測精度を大幅に向上させました。

方法:

  1. データ前処理 - MIMIC-IIIデータベースからICD-9コードを使用して患者を識別し、欠損データの処理、重複の削除、歪度の処理、オーバーサンプリングを行いました。

  2. 特徴選択 - VIF値、LASSO回帰、単変量分析を用いて18の特徴を選択しました。

  3. モデル構築と評価 - LASSOロジスティック回帰モデルを含む複数のモデルを構築し、AUC-ROCと精度で評価しました。また、ブライアスコアを用いてモデルの校正を評価しました。

  4. モデルの改善 - 欠損値の補完戦略の改善、特徴選択の改善、グリッドサーチを用いたモデルの最適化を行いました。

Prediction of In-Hospital Mortality for ICU Patients with Heart Failure
Zhang, J., Li, H., Ashrafi, N., Yu, Z., Placencia, G., Pishgar, M. 2024-06-25 http://medrxiv.org/cgi/content/short/2024.06.25.24309448v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 4: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
退院日の予測は、効率的なリソース配分と患者ケア計画において重要な役割を果たします。退院日の正確な見積もりは、病院の運営を最適化し、より良い患者の結果を促進することができます。

新規性:
本研究では、退院日予測モデルを開発するために、体系的なアプローチを採用しました。臨床専門家と密接に協力して、予測精度に寄与する関連データ要素を特定しました。構造化されたデータソースだけでなく、非構造化データソースからも予測特徴を抽出するために特徴工学が使用されました。予測タスクには、強力な機械学習アルゴリズムであるXGBoostが使用されました。さらに、開発されたモデルは、広く使用されている電子医療記録(EMR)システムにシームレスに統合され、実用的な使いやすさを確保しました。

方法:
この研究では、関連するデータ要素の特定、特徴工学による予測特徴の抽出、XGBoostアルゴリズムの使用、EMRシステムへの統合という一連の体系的な手法を用いています。

結果:
モデルは、F1スコアで最大35.68%のベースライン推定値を上回るパフォーマンスを達成しました。展開後、モデルはMS GMLOSとの整合性を示し、余分な病院滞在日数を18.96%削減することにより、運用上の価値を実証しました。

結論:
私たちの所見は、臨床実践における開発された退院日予測モデルの有効性と潜在的価値を強調しています。退院日の推定の精度を向上させることにより、モデルは医療資源管理と患者ケア計画の強化の可能性を持っています。さらなる研究の取り組みは、多様なシナリオにわたるモデルの長期適用性の評価と、患者の結果に対するその影響の包括的な分析を優先すべきです。

Development and Validation of a Machine Learning Model Integrated with the Clinical Workflow for Inpatient Discharge Date Prediction
Mahyoub, M. A., Dougherty, K., Yadav, R., Berio-Dorta, R., Shukla, A. 2024-06-25 http://medrxiv.org/cgi/content/short/2024.06.24.24309419v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 5: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
強度変調放射線治療(IMRT)は現代放射線治療技術の中でも特に重要なものであり、最適化問題としてモデリングされることが多いです。目的関数と制約は、異なる臨床設定のために設計された複数の臨床要件から成り立っています。最適化問題が厳密な制約のもとで解を持たない場合、プランナーは経験的に特定の制約パラメータを緩和し、問題を再解決することで、より満足のいく解を得ることができます。しかし、このプロセスは時間がかかり、労力を要します。

新規性:
これまでの逆計画研究では、自動化された放射線治療計画スキームに多大な努力が注がれてきました。多くの研究で強化学習がこのプロセスのモデリングに使用されていますが、2つの重要な問題点があります。1つ目は、各臓器に対してサブネットワークを設計する必要があり、異なる臓器の数を持つ他の患者へのモデルの拡張が困難であることです。臨床では、同じ種類のがんであっても、放射線治療を考慮する臓器の数が患者ごとに一貫性がないことが一般的です。2つ目は、低信号対雑音比のDVH(線量体積ヒストグラム)カーブを状態として強化学習ネットワークに直接供給することで、その機能的特性を無視し、訓練効率が低いことです。本研究では、深層強化学習の枠組みの中で、DVHの効果的な情報を直接抽出し、異なる臓器が戦略的ネットワークを共有できるようにするDVH機能ベースの埋め込み層を設計しました。

方法:
提案モデルでは、DVHのデータから有効な情報を抽出するための埋め込み層が設計されており、これにより異なる臓器が同じ戦略的ネットワークを共有することが可能になります。これは、臨床現場で異なる患者に対してモデルを柔軟に適用できるようにするための重要なステップです。また、強化学習ネットワークへの入力としてDVHカーブを使用する代わりに、DVHの機能的特性を考慮した情報処理を行うことで、訓練の効率性を向上させています。

実際に子宮頸がんの患者135名のデータセットにおいてテスト結果が得られており、これにより提案されたモデルが現実世界の放射線治療計画に応用可能であることが示されています。

Automatic radiotherapy treatment planning with deep functional reinforcement learning
Liu, B., Liu, Y., Li, Z., Xiao, J., Lin, H. 2024-06-24 http://medrxiv.org/cgi/content/short/2024.06.23.24309060v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 6: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
医療知識の複雑さが増す中で、臨床現場において効率的かつ信頼性の高い情報アクセスシステムの必要性が高まっています。品質保持のため、多くの病院では情報管理と地域の治療標準の実施のために標準作業手順(SOP)を使用しています。しかし、臨床の日常では、この情報は常に容易にアクセス可能なわけではありません。カスタマイズされた大規模言語モデル(LLM)は、この問題に対するテーラーメイドの解決策を提供する可能性がありますが、臨床導入前に徹底的な評価が必要です。

新規性:
この研究の新規性は、病院特有のSOPから情報を取得するためにLLMをカスタマイズし、その臨床使用における精度を評価し、さまざまなプロンプト戦略と大規模言語モデルを比較することにあります。これにより、臨床情報の取得を強化し、より効率的な臨床ツールとしてのLLMの可能性を探ります。

方法:
GPT-4を、ドレスデン大学病院の4つの部門からの10のSOPと事前定義されたシステムプロンプトを用いてカスタマイズしました。モデルのパフォーマンスは、異なる詳細度を持つ30の事前定義された臨床質問を通じて評価されました。これらの質問は、異なる医療専門知識レベルを持つ5人のオブザーバーによって、シンプルおよびインタラクティブな質疑応答(Q&A)を通じて評価されました。回答の完全性、正確性、臨床使用における十分性が評価され、プロンプトデザインがモデルパフォーマンスに与える影響が検証されました。最後に、GPT-4とClaude-3-opusのパフォーマンスを比較しました。

結果:
インタラクティブなQ&Aは、完全性(80%)、正確性(83%)、十分性(60%)の最も高い評価を得ました。LLMの回答に対する受け入れは、キャリア初期の医療スタッフの間で高かったです。質問プロンプトの詳細度は回答の正確性に影響を与え、中間の詳細度のプロンプトが最も高い十分性率を達成しました。LLMの比較では、Claude-3-opusがGPT-4よりも十分な回答を提供することにおいて優れており(70.0%対36.7%)、満足のいく回答に必要な反復回数が少なかったです。どちらのモデルも、ブラウザアプリケーションよりも自己コーディングされたパイプラインでシステムプロンプトに効果的に従いました。すべてのオブザーバーは、SOP内の情報の表現に根ざした回答の正確性と正確性の間に相違を示しました。

結論:
カスタマイズされたLLMに対するインタラクティブなクエリは、臨床情報の取得を強化することができますが、この技術を安全に適用するためには専門家の監督が不可欠です。広範な評価を経て、プロンプトエンジニアリングの基本知識を持つことで、カスタマイズされたLLMは効率的で臨床に適用可能なツールになる可能性があります。

Customizing GPT-4 for clinical information retrieval from standard operating procedures
Muti, H. S., Loeffler, C. M. L., Lessmann, M. E., Stueker, E. H., Kirchberg, J., von Bonin, M., Kolditz, M., Ferber, D., Egger-Heidrich, K., Merboth, F., Stange, D., Distler, M., Kather, J. N. 2024-06-24 http://medrxiv.org/cgi/content/short/2024.06.24.24309221v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 7: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
電子健康記録(EHR)の急速な普及と広範な応用により、健康イベントの予測が強化されています。特に集中治療室(ICU)においては、健康関連イベントを事前に正確に予測することが、患者のアウトカムを改善するための治療や介入を提供する上で不可欠です。EHRは、臨床テキスト、時系列データ、構造化データなどの多様なモダリティを含むマルチモーダルデータです。多くの健康イベント予測の研究は単一のモダリティ、例えばテキストや表形式のEHRに焦点を当てていますが、マルチモーダルEHRから効果的に学習する方法は依然として課題です。

新規性:
本研究では、大規模言語モデル(LLM)のテキスト処理における強力な能力に触発され、LLMから知識を抽出し、マルチモーダルEHRから学習することで健康イベント予測を行うフレームワークCKLEを提案しています。LLMを健康イベント予測に応用する際の2つの課題、すなわちLLMがテキストデータのみを扱い、他のモダリティ(例えば構造化データ)を扱えない点、および健康アプリケーションのプライバシー問題がLLMをローカルにデプロイする必要があり、計算リソースによって制限される可能性がある点に対処しています。

方法:
CKLEは、LLMから健康イベント予測モデルへのクロスモダリティ知識抽出を通じて、LLMのスケーラビリティとポータビリティの課題を解決します。LLMの強力な能力を完全に活用するために、原始的な臨床テキストはプロンプト学習によって洗練され、拡張されます。臨床テキストの埋め込みはLLMによって生成されます。予測モデルへのLLMの知識を効果的に抽出するために、クロスモダリティ知識抽出(KD)方法を設計しました。複数のモダリティと患者の類似性を考慮した特別に設計されたトレーニング目的がKDプロセスに使用されます。KD損失関数は2つの部分から構成されます。1つ目は同一患者の異なるモダリティ間の相関をモデル化するクロスモダリティ対照的損失関数です。2つ目は類似患者間の相関をモデル化する患者類似性学習損失関数です。クロスモダリティ知識抽出は、臨床テキストの豊富な情報とLLMの知識を構造化EHRデータの予測モデルに抽出することができます。

効果の検証として、CKLEを心臓病学の分野である心不全予測と高血圧予測の2つの健康イベント予測タスクで評価しました。MIMIC-IIIデータセットから7125人の患者を選択し、トレーニング/検証/テストセットに分割しました。最先端の健康イベント予測モデルと比較して最大4.48%の精度向上を達成することができました。この結果は、CKLEが通常および限定ラベル設定の両方でベースライン予測モデルを大幅に上回ることを示しています。また、心不全および高血圧予測における心臓病学疾患分析のケーススタディを実施しました。特徴重要度の計算を通じて、医療領域の知識に対応する心臓病学疾患に関連する顕著な特徴を分析しました。CKLEの優れた性能と解釈可能性は、実際の臨床設定での健康イベント予測におけるLLMの力と知識を活用するための有望な方法を提供します。

Distilling the Knowledge from Large-language Model for Health Event Prediction
Ding, S., Ye, J., Hu, X., Zou, N. 2024-06-24 http://medrxiv.org/cgi/content/short/2024.06.23.24309365v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 8: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
心疾患は世界中で死因のトップであり、心機能は排出率(Ejection Fraction, EF)によって測定される重要な指標であるため、正確な測定は患者の評価において不可欠です。エコーカーディオグラム(心臓超音波検査)はEFの測定に一般的に使用されますが、人間による解釈には観察者間や観察者内でのばらつきという限界があります。

新規性:
この研究では、ディープラーニング(Deep Learning, DL)を用いた新しいアプローチ「ViViEchoformer」を紹介しています。DLは機械学習において再び注目を集め、医療アプリケーションにおける進歩を牽引しています。ViViEchoformerはビデオビジョントランスフォーマーを使用して、エコーカーディオグラムビデオから直接左室機能(Left Ventricular Ejection Fraction, LVEF)を回帰させる手法です。

方法:
この研究では、スタンフォード大学病院の患者10,030例の心尖部4腔ビューのエコーカーディオグラムビデオデータセットを使用しました。ViViEchoformerモデルは、ビデオ入力から時空間トークンを抽出することにより、空間情報を正確に捉え、フレーム間の関係を維持することができ、EFの予測を完全自動化し、人間の評価や分析を支援します。

成果:
ViViEchoformerによる排出率の予測は、平均絶対誤差が6.14%、平均二乗根誤差が8.4%、平均二乗対数誤差が0.04、そしてR2が0.55でした。さらに、ViViEchoformerは、排出率が50%未満という標準的な閾値を使用して、低排出率の心不全(Heart Failure with reduced Ejection Fraction, HFrEF)を予測する際に、曲線下面積(Area Under the Curve, AUC)が0.83、分類精度が87%でした。

結論:
このビデオベースの方法は、左室機能の定量化を正確に行うことができ、人間の評価に対する信頼性の高い代替手段を提供し、エコーカーディオグラム解釈のための基礎を確立しています。

ViViEchoformer: Deep Video Regressor Predicting Ejection Fraction
Akan, T., Alp, S., Bhuiyan, M. S., Helmy, T., Orr, A. W., Bhuiyan, M. M., Conrad, S., Vanchiere, J., Kevil, C. G., Bhuiyan, M. A. N. 2024-06-22 http://medrxiv.org/cgi/content/short/2024.06.21.24309327v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 9: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
新薬の臨床試験において、薬物誘発性毒性は失敗の主要な原因の一つです。分子構造から薬物の毒性を予測する機械学習モデルが研究者にとって有用であり、より低毒性の薬剤候補を優先することに役立ちます。しかし、現在の毒性データセットは通常小さく、単一の臓器系(例えば、心臓、腎臓、肝臓等)に限定されています。これらのデータセットを作成するためには、100ページを超える薬のラベル文書を解析するなど、専門家による時間を要するキュレーションが必要でした。

新規性:
ここで紹介されているUniTox1は、GPT-4oを用いてFDAの薬物ラベルを処理することで作成された、2,418のFDA承認薬物に関する薬物誘発性毒性の要約と評価を含む統一データセットです。UniToxは8種類の毒性(心毒性、肝毒性、腎毒性、肺毒性、血液毒性、皮膚毒性、聴毒性、不妊)を網羅しており、これは我々の知る限り、薬物数と毒性の種類において最大の体系的なヒトin vivoデータベースであり、これらの毒性のほとんど全てのFDA承認薬について初めてカバーしています。UniToxの毒性評価は、無作為に選ばれたサンプルに関する臨床医のラベル付けと87-96%の時間で一致しています。

方法:
UniToxデータセットの有用性を実証するために、UniToxで訓練されたグラフニューラルネットワークをベンチマークしました。これにより、分子毒性予測モデルの構築にこのデータセットがどのように役立つかを示しています。また、UniToxで注釈付けされた毒性のランダムサンプルを検証するために臨床医を採用しました。これにより、GPT-4oによって生成された毒性の要約と臨床医による評価が高い一致率を示すことを確認しています。

UniTox: Leveraging LLMs to Curate a Unified Dataset of Drug-Induced Toxicity from FDA Labels
Silberg, J., Swanson, K., Simon, E., Zhang, A., Ghazizadeh, Z., Ogden, S., Hamadeh, H., Zou, J. 2024-06-22 http://medrxiv.org/cgi/content/short/2024.06.21.24309315v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 10: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
現在、西洋諸国のほとんどの公立病院では、相当な期間ほぼ満床状態が続いています。このような状況下では、緊急入院の遅れが一般的であり、患者の不快感を引き起こし、ケアの質に悪影響を及ぼす可能性があります。病院の退院数を予測することは、病院の過密を防ぐための措置を病院管理者が実施することを可能にします。

新規性:
この研究では、複数の人工知能手法を用いて、7日前からの病院の日々の退院数を予測し、分析された日の80%以上で成功した予測を得ることができました。これにより、機械学習手法が病院退院の予測において、新たで価値のある選択肢を提供することが示されました。

方法:
本研究では、2018年1月から2023年8月までの大学病院の救急部門からの全入院患者(n=67308)を分析しました。新しい入院に関するデータを週単位で取得することを模倣して、複数のトレーニングテスト分割を定義しました。まず、Light Gradient Boosting Machines(LGBM)とMultilayer Perceptron(MLP)モデルをトレーニングして、各入院についての滞在期間(LOS)の予測を生成しました。予測されたLOSに基づいて、時系列が構築され、将来7日間の病棟別の日々の病院退院に関する予測が、様々な予測技術を使用して作成されました。予測と観測された退院の間の平均絶対誤差(MAE)を使用して予測の精度を測定しました。予測された退院数が病院の日々の退院数の平均を10%を超えない場合、予測は成功したと分類されました。

結果:
LGBMは、25週間のLOS予測でMLPをわずかに上回りました(MAE 4.7{+/-}0.7 vs 4.9{+/-}0.7日、p<0.001)。7日前に病院の日々の退院数を予測するための最良の技術は、Prophet(MAE 5.0、R2=0.85)、LGBM(MAE 5.2、R2=0.85)、季節性ARIMA(MAE 5.5、R2=0.81)およびTemporal Fusion Transformer(TFT)(MAE 5.7、R2=0.83)を使用して得られました。予測を分類した後、LGBM、Prophet、季節性ARIMA、TFTはそれぞれ82.3%、81.1%、77.7%、77.1%の日で成功した予測に達しました。

結論:
LGBMを使用したLOSの予測と時系列予測技術を組み合わせることで、7日前までの病院の日々の退院の成功した予測が得られました。

Hospital Discharge Prediction Using Machine Learning
Oristrell, J., Pascual, A., Millet, P., Lazaro, G. R., Benavent, A. 2024-06-21 http://medrxiv.org/cgi/content/short/2024.06.20.24309256v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 11: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
この研究は、患者の入院時に収集される情報を利用して、1年以内の死亡リスクを予測するためのアンサンブル長短期記憶ニューラルネットワーク(ELSTM)を開発・検証することを目的としています。このモデルは、終末期にある患者を特定し、ケアの目標(GOC)に関する議論のための利益を享受できる患者を識別することを目指しています。

新規性:
この研究の新規性は、患者の縦断的データを統合し、特に限られた情報しか入院中に利用できない場合でも、患者の病状の重篤さや全体的な状態についてより良い洞察を提供するモデルを開発した点にあります。また、ELSTMは自動化された正確なモデルであり、臨床意思決定支援システムにおいて終末期ケアの改善に役立つ可能性があります。

方法:
ELSTMの評価は、(i) 入院時に報告可能な予測因子のみを含むもの(Ad-mDemo)、および (ii) 患者の滞在中に後で利用可能になる診断を追加したもの(AdmDemoDx)の2つのシナリオで行われました。2011年から2017年にかけて入院した82,104人の患者の記録を使用して、時系列的および非時系列的戦略を比較しました。また、2017年から2021年にかけてGOC議論の対象となる33,898人の患者において、最良の戦略の臨床的有用性を定量化しました。

結果:
AdmDemoおよびAdmDemoDx予測因子を使用したELSTMは、それぞれ0.73-0.90および0.79-0.93の範囲で性能が向上することを示しました。ELSTMに基づく意思決定は、通常の意思決定プロセスに比べて予測精度を最大12.1%向上させましたが、感度は最大3.8%低下しました。

結論:
提案されたELSTMは、1年以内の高リスク患者を特定するための自動化された正確なモデルであり、終末期ケアを改善するための臨床意思決定支援システムで使用可能です。

Leveraging patients' longitudinal data to improve the Hospital One-year Mortality Risk
Laribi, H., Raymond, N., Taseen, R., Poenaru, D., Vallieres, M. 2024-06-21 http://medrxiv.org/cgi/content/short/2024.06.21.24309191v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 12: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
免疫チェックポイント阻害剤(ICIs)は、がん細胞を標的として破壊する免疫システムの能力を高める治療法です。これらの治療は有効であるものの、急性腎障害(ICI-AKI)などの免疫関連副作用(irAEs)を引き起こす可能性があり、患者管理を複雑にしています。ICI-AKIに対する遺伝的素因はよく理解されておらず、リスク因子を特定し治療戦略を改善するためには、包括的なゲノム研究が必要です。

新規性:
本研究は、大規模な実世界データを使用してICI-AKIに対する遺伝的素因を同定することを目的としています。特に、白人においてPCCA遺伝子の変異がICI-AKIのリスク因子であることを新たに示しており、この知見は以前の研究では明らかにされていませんでした。

方法:
まず、系統的文献検索を行い、irAEsに関連する14の候補変異を同定しました。次に、これらの候補変異とAll of Usコホート(AoU, v7, カットオフ日:2022年7月1日)のデータを用いた関連性研究を実施しました。ICIを受けているがん患者のコホートと一般コホートを設定し、ICI-AKIリスクを評価しました。各候補遺伝子型の影響を評価するために、性別で調整されたロジスティック回帰分析を行い、自己申告した人種と遺伝的に推定される人種ごとに分けて行いました。Kaplan-Meier生存分析は、AKIフリー生存に対する遺伝的影響を評価しました。

結果:
ICIコホート(n=414)では、1年間のAKI発生率が23.2%と、一般コホート(6.5%, n=213,282)よりも有意に高かったです。PCCA遺伝子のrs16957301変異(chr13:100324308, T>C)は、自己申告した白人(Beta=0.93, ボンフェローニ補正後のP値=0.047)および遺伝的に推定された白人(Beta = 0.94, ボンフェローニ補正後のP値=0.044)において、ICI-AKIの有意なリスク遺伝子型でした。自己申告した白人では、rs16957301リスク遺伝子型(TC/CC)を持つ者が、リファレンス遺伝子型(TT)と比較して有意に早く(3.6ヶ月対7.0ヶ月、log-rank P=0.04)AKIを発症しました。遺伝的に推定された白人でも一貫した結果が見られました。この変異は一般コホートでは有意なAKIリスクを示さなかった(Beta: -0.008-0.035, FDR: 0.75-0.99)。

結論:
All of Usコホートからの実世界の証拠により、白人においてPCCA変異rs16957301がICI治療に特異的なAKIリスク遺伝子型であることが示唆されました。ICIで治療される白人患者におけるAKIのリスクマーカーとしてrs16957301を検証するための追加研究が必要であり、また他の祖先集団でのリスクを評価することも重要です。

PCCA variant rs16957301 is a novel AKI risk genotype-specific for patients who receive ICI treatment: Real-world evidence from All of Us cohort
Wang, Y., Xiong, C., Yu, W., Zhou, M., Shugg, T. A., Hsu, F.-C., Eadon, M. T., Su, J., Song, Q. 2024-06-20 http://medrxiv.org/cgi/content/short/2024.06.20.24309197v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 13: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

この最新論文では、電子健康記録(EHR)に含まれる自然言語テキストから個人識別情報(PII)を自動で識別し、除去する手法について述べられています。背景、新規性、方法という観点から詳細に説明します。

背景:
EHRには臨床記録などの形で、病気の進行度や治療への反応性といった他では得られない情報が含まれており、臨床分析に非常に価値があります。しかし、これらのデータを研究目的で広く利用するためには、アメリカ合衆国ではHIPAAのプライバシー規則に従い、PIIをEHRから削除する必要があります。正確な識別子検出を人間の精度で模倣する自動ディー識別システムにより、多様なディー識別データセットへのアクセスが可能になり、医療研究における堅牢な発見を促進し、患者ケアの進歩に寄与します。

新規性:
この研究では、「局所的に拡張されたアンサンブル」を導入しており、これは特定の健康機関で訓練されたPII検出アンサンブル手法を、機関固有の辞書を使用して、特有のPIIを捉え、以前にPIIと誤分類されていた医学的に関連する情報を回復することで他の健康機関に適応させるというものです。これにより、データセット間でテキストディー識別方法を適応させる必要性に対応しています。

方法:
研究では、メイヨークリニックで作成されたアンサンブルモデルを拡張し、デューク大学健康システムの15,716件の臨床記録データセットでテストを行いました。さらに、2014年のi2b2と2003年のCoNLL NERデータセットで、タスク特有のファインチューニングを施したアンサンブルと、LLMベースのプロンプトエンジニアリングソリューションを予測精度、速度、コストの面で比較しています。

デューク大学の記録におけるアプローチは、拡張なしの場合のリコール0.989、プレシジョン0.979に対し、リコール0.996、プレシジョン0.982という高い精度を達成しました。LLMはアンサンブルアプローチが達成したレベルに到達するためには、かなりのプロンプトエンジニアリングの労力が必要であることを示しています。さらに、現在の技術状況では、LLMはアンサンブルアプローチに比べて少なくとも3倍遅く、5倍のコストがかかるとされています。

Scaling text de-identification using locally augmented ensembles
Murugadoss, K., Kilamsetty, S., Doddahonnaiah, D., Iyer, N., Pencina, M., Ferranti, J., Halamka, J., Malin, B. A., Ardhanari, S. 2024-06-20 http://medrxiv.org/cgi/content/short/2024.06.20.24308896v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 14: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
この論文は、インドの高齢者人口における健康保険の種類の選択に関する社会経済的および人口統計学的決定要因に焦点を当てています。現在の疾病パターンの変化と高齢化が進む人口構造は、集中治療への依存度の増加、治療コストの上昇、そして健康ケア施設の利用頻度の増加をもたらしています。これにより、健康保険サービスのアクセシビリティが重要な議論のトピックとなっています。

新規性:
この研究は、インドにおける高齢者の健康保険プログラムやスキームの選択に影響を与える様々な社会経済的、人口統計学的要因を特定することで、インドの健康保険市場における実際の遅れを追跡し、政策立案者が健康保険政策を形成するのに役立てることを目的としています。また、健康保険市場の透明性を高め、健康保険スキームの失敗の可能性を減らす必要性にも焦点を当てています。

方法:
この研究では、インドの高齢者人口を対象に、Longitudinal Survey of Aging in India (LASI) Wave-1 2020のデータを使用しました。総サンプル数は45歳以上の高齢者66,658人でした。分析手法としては、健康保険の有無に関連するすべての社会経済的および人口統計学的決定要因を調べるために、二項関連と多項ロジスティック回帰が用いられました。

研究の所見:
研究結果は、人口統計学的、地理的、経済的分布、および健康状態に基づくすべてのカテゴリーの人々の間で、政府の健康保険がコミュニティ、雇用者、または私的健康保険よりも高い発生率を示していることを明らかにしました。特に慢性疾患を有する人々において、保険に加入することを選択する上でいくつかの影響が見られました。

推奨事項:
この研究は、健康保険市場の透明性を高め、健康保険スキームの失敗の可能性を減らすための政策行動を推奨しています。これにより、よりアクセスしやすく効果的な健康保険制度の実現に寄与することが期待されます。

Health Security Across the Spectrum: Exploring the Impact of Socio-Economic Factors on Health Insurance Uptake in India
Chatterjee, M., Aditya, A., Choudhary, P. K. 2024-06-20 http://medrxiv.org/cgi/content/short/2024.06.19.24309161v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 15: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
現代において、大腸癌は3番目に多い癌の一つです。大腸内視鏡検査は、ポリープの悪性度を早期に発見し、効果的な治療を確立するための重要な手順です。特に、大腸ポリープの良性か前がん病変かを判別することは、大腸癌予防において重要なステップとなります。

新規性:
この論文は、大腸ポリープの二値分類のための特定のディープラーニングアーキテクチャに焦点を当てており、前がん病変リスクの評価を考慮しています。主な目的は、大腸内視鏡データセットからの画像に基づいて、腺腫性、過形成性、および鋸歯状ポリープのサンプルを良性と前がん病変に分類するカスタムベースのディープラーニングアーキテクチャを作成することです。

方法:
提案されたモデル「Bionnica」は、マスクされたオートエンコーダを通じて各画像の出力を変更し、分類性能を向上させます。4つの評価された最先端のディープラーニングモデル(ZF NET、VGG-16、AlexNet、ResNet-50)の中で、実験によりResNet-50とZF NETが最も正確であることが示されました(84%以上の精度)。特に、ResNet-50は前がん性大腸ポリープを示すのに優れており(92%以上の精度)、ZF NETは700枚の画像を処理する速度が最も速いです。提案されたディープラーニングモデル「Bionnica」は、ZF NETよりも性能が高く、構造がシンプルであるため、大腸ポリープの効率的な分類を提供します。このモデルの利点は、学習プロセスを導き、医療従事者の意思決定を支援するルールベースの層によるカスタム強化の解釈可能性にあります。

Bionnica: A Deep Neural Network Architecture for Colorectal Polyps' Premalignancy Risk Evaluation
Babuc, D., Ivascu, T., Ardelean, M., Onchis, D. 2024-06-20 http://medrxiv.org/cgi/content/short/2024.06.19.24309153v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 16: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

この最新の論文では、ヘルスケアにおける大規模言語モデル(LLM)の展開が臨床判断、管理効率、患者の結果を向上させる大きな可能性を示していると述べています。しかし、これらのモデルの開発と適用において多様なグループの代表性が不足していると、バイアスが持続し、公平でないヘルスケアの提供につながる可能性があります。

背景:
この論文は、LLM研究における寄稿者の多様性を評価するために、2021年1月1日から2024年6月16日までのデータを含む、ヘルスケアにおけるLLM研究の包括的な科学計量分析を提示しています。背景としては、ヘルスケアにおけるLLMの有効性にもかかわらず、開発と適用の過程での多様性の欠如が問題となっていることが指摘されています。

新規性:
この研究の新規性は、PubMedとDimensionsからのメタデータを分析することで、著者の所属、国、資金源を含むLLM研究の寄稿者の多様性を科学計量的に評価した点にあります。また、科学出版物の包括性を測定するために、ジニ不純度に基づく新しいジャーナル多様性指数を導入しています。

方法:
論文では、メタデータを分析して性別や地理的な不均衡を明らかにし、特に男性著者の支配と高所得国(HIC)からの寄稿が主であるという重要な性別と地理的な格差を強調しています。研究方法としては、PubMedとDimensionsのデータベースから情報を収集し、ジャーナル多様性指数を計算するためにジニ不純度を用いた分析が行われています。

結果として、ヘルスケアにおけるLLMの公平な適用を確保するためには、より大きな代表性が必要であることを強調しています。そして、人工知能研究における多様性と包括性を高めるための実行可能な戦略を提案し、ヘルスケアイノベーションにおけるより包括的で公平な未来を育成することを最終目標としています。

Analyzing Diversity in Healthcare LLM Research: A Scientometric Perspective
Restrepo, D., Wu, C., Vasquez-Venegas, C., Matos, J., Gallifant, J., Nakayama, L. F. 2024-06-19 http://medrxiv.org/cgi/content/short/2024.06.18.24309113v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 17: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
妊娠中のカフェイン摂取は一般的ですが、子どもの行動や身体の健康に対する長期的な影響については、十分に理解されていません。本研究では、妊娠中のカフェイン暴露が、子どもが青春期に入る際の体重指数(BMI)や行動にどのような関連があるかを推定しました。

新規性:
これまでの研究では、妊娠中のカフェイン摂取と子どもの健康結果との関連性は不明瞭でした。本研究は、妊娠中のカフェイン暴露と子どものBMI、睡眠問題、そして心理病理学的特徴との関連性を、潜在的な交絡要因を考慮に入れて分析することで、新たな知見を提供します。

方法:
本研究は、アメリカ合衆国内の21箇所から募集した11,875人の9〜11歳の子どもたちを対象にした、Adolescent Brain and Cognitive Development (ABCD)SM Study の継続的なデータを用いています。2016年6月1日から始まったこの研究は、縦断的データと保護者によって報告された妊娠中のカフェイン暴露情報を収集しました。妊娠中のカフェイン暴露は4段階のカテゴリー変数として分析され、さらに「任意の暴露」と「毎日の暴露」グループを特徴づけるためのグループ比較が使用されました。アウトカムには、子どもの心理病理学的特徴、睡眠問題、BMIが含まれます。潜在的な交絡変数には、家族(例:収入、家族内の心理病理学)、妊娠(例:妊娠中の物質暴露)、子ども(例:カフェイン使用)の変数が含まれました。

結果:
欠損のない妊娠中のカフェイン暴露データを持つ10,873人の子どもたち(男児5,686人 [52.3%];平均[SD]年齢、9.9 [0.6]歳)のうち、6,560人(60%)が妊娠中にカフェインに暴露されていました。暴露されなかったグループに比べて、毎日のカフェイン暴露は子どものBMIが高いこと(β=0.08; FDR補正p=0.02)と関連していましたが、子どもの行動とは関連していませんでした。毎日2杯以上のカフェインを摂取していたグループ(n=1,028)は、低暴露/無暴露グループに比べて、より多くの睡眠問題を抱えていました(β>0.92; FDR補正p<0.04)。

結論:
妊娠中の毎日のカフェイン暴露は、子どものBMIを高めることと関連しており、1日に複数回使用された場合は、潜在的な交絡因子を考慮した上で、より多くの睡眠問題を引き起こすことが示されました。この関係が妊娠中のカフェイン暴露の結果であるか、それと関連する因子の結果であるかは、まだ不明です。

Associations between prenatal caffeine exposure and child development: Longitudinal results from the Adolescent Brain Cognitive Development (ABCD) Study
Modi, H., Baranger, D. A., Paul, S. E., Gorelik, A. J., Hornstein, A., Balbona, J. V., Agrawal, A., Bijsterbosch, J. D., Bogdan, R. 2024-06-19 http://medrxiv.org/cgi/content/short/2024.06.18.24309117v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 18: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
私たちの研究では、特定の状態にある個人の罹患率を正確に推定することが、医療提供システムの向上において非常に重要です。この研究では、DKABioクラスターという新しい概念を導入し、それらが医療管理に与える深い影響について詳しく調査しています。

新規性:
DKABioクラスターの主な焦点は、DKABio-HSと呼ばれる独自の健康評価ツールを開発することにあります。これは予測リスク分析と併せて、個人の健康状態を一つの数値に凝縮する「病気関連」スコアの計算を可能にします。

方法:
DKABio-HSを用いて、個人の健康スコアを算出します。この健康スコアは非常に一貫性があり、トレーニングデータセットとバリデーションデータセットの間で観察される変動は最小限です(平均絶対パーセンテージ誤差は0から10年で0.1%未満、全ての平均絶対パーセンテージ誤差は1.2-1.6%の範囲内)。高い健康スコアは良好な健康状態または病気リスクの低減を示し、年齢の増加や複数の病気の存在によって減少します。

この健康スコアを使用して、「病気マップ」という分類フレームワークを確立し、さまざまな健康状態の個人を正確に区別することができます。このフレームワークを通じて、病気のない個人を健康または亜健康として分類し、予防介入のためのカスタマイズされた健康管理戦略を容易にします。亜健康と分類される個人は、健康と見なされる個人に比べて、著しく高い病気リスクを持つことがわかります(女性(男性)の少なくとも1つの病気を発症する5年リスクは29%対15%(29%対16.5%))。

さらに、慎重に選ばれた一連の健康変数を活用して、DKABioクラスターの分布を描き出し、15の病気/状態に関連する10年リスクを予測することができます。モデルの予測能力を検証するために、予測されたリスクと、台湾の国家健康研究院によってリリースされた国家健康保険研究データベース(200万人以上の参加者)およびメイジャウ健康管理機構データベース(75万人以上の参加者)から導き出された実際のリスクとを比較し、ほとんどのケースで統計学的に有意な差はないことを示しています。これらのデータは、2000年から2016年にかけての台湾のデータに基づいています。

Developing a Health Score and Predicting Disease Risks Using DKAbio-Clusters
Cheng, K.-F., Yang, Y.-H., Su, C.-H., Tsai, M.-C. 2024-06-18 http://medrxiv.org/cgi/content/short/2024.06.16.24308995v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 19: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
近年、心電図(ECG)は心臓の異常を検出する重要なツールとなっています。従来のECG解析方法では、複数の心臓異常を同時に検出することは困難でした。また、不均衡なデータセットが分類の精度に与える影響についての理解も不足していました。本研究は、12誘導ECG記録から複数の心臓異常を同時に検出するシステムの開発と、不均衡なデータセットと最適な分類閾値の関係を分析することで検出精度を向上させることを目的としています。

新規性:
この研究では、マルチラベル分類問題を解決するために、新しいConvolution Positional EncoderとTransformer Encoderの融合を用いました。これにより、空間的および時間的特徴を捉えると同時に、注意機構を利用することで、心臓の異常をより効果的に検出することができる可能性を示しています。

方法:
モデルの評価には、適切な評価指標であるprecision-recall曲線の下の面積(AUPRC)を使用しました。これにより、精度と再現率のトレードオフを分析し、最適な閾値を見つけることが可能になりました。さらに、不均衡なデータセットの影響を減らす方法として、正のサンプルの割合と最適な閾値との間の負の相関係数を見出しました。

結果:
提案モデルは、他の人気のある深層ネットワークを上回る性能を示し、42511サンプルのデータセット上で最高のAUPRC 0.96およびf1スコア0.90を達成しました。また、最適な閾値と正のサンプルの比率との間には-0.68の負の相関係数があることを発見しました。

意義・結論:
本研究は、異なる深層学習アーキテクチャの性能を医療問題において比較し、高度な技術が空間的、時間的特徴と注意機構を捉える可能性を示しました。また、不均衡なデータセットの影響を減らし、最適な分類閾値を見つける方法を導入しました。

Detection of multiple cardiac abnormalities using Convolution, Positional Encoder and Transformer on 12-lead ECG recordings
Ford, A., Lan, J., Ng, K. 2024-06-17 http://medrxiv.org/cgi/content/short/2024.06.17.24309016v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 20: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
この論文は、うつ病の診断評価と治療経過のモニタリングが、専門家による面接や自己報告式のアンケートに大きく依存しているという現状を指摘しています。スマートフォンやその他の個人消費者向けデバイスの普及により、これらのデバイスを通じて収集されるデータが、うつ病の存在を示すデジタルな行動マーカーとして、また、うつ病の経過をモニタリングする手段としての可能性を探る研究が進められています。

新規性:
この研究の新規性は、モバイルフォンを使用して収集された行動データを利用して、うつ病の症状を検出し、モニタリングする可能性を探る点にあります。これまでのアプローチとは異なり、個人が日常的に使用するデバイスから得られるデータを活用することで、よりリアルタイムかつ客観的な情報を提供することが期待されます。

方法:
この前向きコホート研究では、最大1年間にわたってスマートフォンの行動データを収集しました。研究は、健康な対照群(n=25)と、さまざまなうつ病障害を診断された患者群:大うつ病性障害(MDD)(n=46)、境界性パーソナリティ障害を併発する大うつ病性障害(MDD|BPD)(n=16)、および大うつ病エピソードを持つ双極性障害(MDE|BD)(n=12)から成り立っています。データは、9項目の患者健康アンケート(PHQ-9)スコアを使用して、うつ病の重症度に基づいてラベル付けされました。統計分析と教師あり機械学習をデータに適用し、うつ病の重症度を分類し、時間経過に伴ううつ病状態の変化を観察しました。

結果:
うつ病状態の変化に関連する32の行動マーカーを特定しました。私たちの分析では、うつ病患者を82%の精度で分類し、うつ病状態の遷移を75%の精度で分類しました。

結論:
臨床評価を補完するためにモバイルフォンのデジタル行動マーカーを使用することは、臨床的うつ病の存在と再発の検出、およびその結果のモニタリングに役立つかもしれません。特に、症状の自己報告を断続的に組み合わせた場合には、より有効であると考えられます。

Predicting and Monitoring Symptoms in Diagnosed Depression Using Mobile Phone Data: An Observational Study
Ikäheimonen, A., Luong, N., Baryshnikov, I., Darst, R., Heikkilä, R., Holmen, J., Martikkala, A., Riihimäki, K., Saleva, O., Isometsä, E., Aledavood, T. 2024-06-17 http://medrxiv.org/cgi/content/short/2024.06.15.24308981v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 21: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

この研究では、生物医学的大規模言語モデル(LLM)が病気の表現型や時間経過に沿った進行をどのように表現するかを検出するための科学的フレームワークを提案しています。

背景:
現代の医療では、病気の進行を理解し、予測することが重要です。大規模言語モデル(LLM)は、大量のテキストデータから知識を学習し、その知識を新しいタスクに適用することができます。この研究は、LLMが次のトークン予測の訓練によって、病気の状態とその時間経過に関する知識を暗黙的に捉えることができるかどうかを検証するものです。

新規性:
この研究の新規性は、生物医学的なLLMが病気の表現型と進行をどのように捉えるかを定量的に評価する方法を開発した点にあります。具体的には、Kullback-Leibler発散に基づくスコアリング関数を使用して、患者の入院データのサブセットを13の生物医学的LLMの潜在空間に沿って「驚き」を測定します。

方法:
このフレームワークでは、患者データの潜在空間における順序付けを検出することで、モデルが臨床情報をどのように自己組織化するかを理解しようとしています。これにより、表現型分類や死亡予測などのタスクを支援することができます。公開されているMIMIC-IVデータセットを使用して睡眠時無呼吸(OSA)のケーススタディを行い、潜在空間内での表現型クラスターの順序付けと時間性を発見しました。

結果:
定量的な結果として、計算量の増加、計算最適なトレーニングへの適合、およびコンテキストの拡大が、病状による臨床入院データの暗黙の順序付けを促進することに強い相関があることを示しており、提案された暗黙のタスクの変動の60.3%を説明しています。質的な初期の発見は、LLMの潜在空間が患者の軌跡を異なる表現型クラスターを通じて追跡し、最終的には生命の終わりの表現型で終わることを示唆しています。

意義:
このアプローチは、病気の進行をモデル化し、病気の経路や医療介入に関連する臨床仮説を評価するための生物医学的LLMの潜在的な可能性を強調しています。また、患者の軌跡をモデル化する臨床LLMの有用性をさらに検証し、理解を深めるためには、より大規模で高解像度の縦断的データセットが必要であることを強調しています。

Towards Maps of Disease Progression: Biomedical Large Language Model Latent Spaces For Representing Disease Phenotypes And Pseudotime
Zamora-Resendiz, R., Khurram, I., Crivelli, S. 2024-06-16 http://medrxiv.org/cgi/content/short/2024.06.16.24308979v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 22: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
COVID-19パンデミックはセックス・ジェンダー多様性(SGD)コミュニティに不釣り合いな影響を及ぼしています。非SGD集団に比べて、SGDコミュニティの社会関係や健康状態がより脆弱でありながら、SGDに関する公衆衛生データは乏しい状況です。

新規性:
本研究は、SGD個人の懸念と健康状態を分析するために、2020年2月1日から2022年4月30日までの間に投稿された4億7137万1477件のツイートを利用しています。これには、SGDユーザー25万1455人と非SGDユーザー2264万4411人のデータが含まれており、SGDコミュニティの経験を理解するための洞察を提供しています。これは、ソーシャルメディアデータを用いた疫学および公衆衛生研究における新たな手法として注目されます。

方法:
このコホート研究では、SGDユーザーと非SGDユーザーのツイートを比較し、COVID-19関連のトピックの分布とダイナミクス、ワクチンに対する態度、症状の発生率などのアウトカム指標を測定しました。ツイートの内容分析を通じて、SGDユーザーがどのようにCOVID-19パンデミックに関連するトピックに言及しているかを調査しました。

結果:
トピック分析により、SGDユーザーは「友人や家族」(20.5%対13.1%、P<0.001)や「マスクを着用する」(10.1%対8.3%、P<0.001)に関する議論に、非SGDユーザーより頻繁に参加していることが明らかになりました。また、SGDユーザーは、モデルナ、ファイザー、アストラゼネカ、ジョンソン・エンド・ジョンソンに関するワクチンについてのツイートで、より高い割合で肯定的な感情を示していました。自己申告したCOVID-19診断をした10万2464人のユーザーの中で、SGDユーザーは非SGDユーザーに比べて、69のCOVID関連症状のうち61に言及する頻度が有意に高かったことが分かり、これには身体的および精神的な健康の課題が含まれていました。

結論:
この研究結果は、パンデミック中のSGDコミュニティのユニークなニーズと経験を理解するための洞察を提供し、ソーシャルメディアデータが疫学および公衆衛生研究において持つ価値を強調しています。

The sexual and gender-diverse face more health challenges during COVID-19: A large-scale social media analysis with natural language processing
Zhang, Z., Hua, Y., Zhou, P., Lin, S., Li, M., Zhang, Y., Zhou, L., Liao, Y., Yang, J. 2024-06-15 http://medrxiv.org/cgi/content/short/2024.06.14.24308944v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 23: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
近年、T2T-CHM13やヒト汎ゲノム参照などの高品質なゲノム参照が登場し、ゲノムワイド関連研究(GWAS)が再び注目を集めています。従来のGWAS手法には、高い偽陰性率などのいくつかの限界があります。新しくシーケンスされた複雑なゲノム領域を分析するためには、非従来的な機械学習ベースの方法が必要とされています。

新規性:
本研究では、偽陰性を避けるために機能的なエンリッチメント分析を取り入れた、堅牢な機械学習ベースのフレームワークを提示しています。特徴選択と関連性分析のためのフレームワークを提案し、これを様々なデータセットに適用して評価しています。

方法:
特徴選択には、4つの人気のある単一ヌクレオチド多型(SNP)選択方法(最小絶対収縮選択演算子(LASSO)、リッジ回帰、エラスティックネット、相互情報)をベンチマークしました。さらに、関連性分析には4つの方法(線形回帰、ランダムフォレスト、サポートベクター回帰(SVR)、XGBoost)を評価しました。提案されたフレームワークは、公開されているPennCATHデータセットのサブセットや、インピューテーションされたデータセット、希少変異データセット、シミュレートされたデータセットなど、多様なデータセットで評価されました。低密度リポプロテイン(LDL)コレステロールレベルを表現型として使用し、例として分析を行いました。

結果:
エラスティックネットとSVRを組み合わせた分析が、様々なデータセットにわたって他の方法よりも一貫して優れた性能を示しました。PennCATH実データセットからの上位100個のSNPの機能的注釈は、それらがLDLコレステロール関連組織で発現していることを明らかにしました。また、希少変異データセットの分析はLDLコレステロールに関連する37個の既知の遺伝子を確認しました。我々は、コレステロール関連疾患の潜在的な薬剤標的として、APOB(家族性高コレステロール血症)、PTK2B(アルツハイマー病)、PTPN12(心筋虚血/再灌流損傷)など、いくつかの重要な遺伝子を同定しました。

結論:
本研究による包括的な分析は、エラスティックネットとSVRを組み合わせた関連性分析が、従来のGWASアプローチの限界を克服する可能性があることを示唆しています。我々のフレームワークは、複雑な形質に関連する共通および希少変異を効果的に検出し、複雑な疾患の理解を深めることに寄与しています。

Enhancing genotype-phenotype association with optimized machine learning and biological enrichment methods
Jangale, V., Sharma, J., Shekhawat, R. S., Yadav, P. 2024-06-15 http://medrxiv.org/cgi/content/short/2024.06.14.24308920v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 24: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
近年、臨床研究や関連研究の数は大幅に増加しています。特に希少疾患においては、患者の層別化と福祉の向上のために新しい知識を統合・分析し、開発する努力が強化されています。臨床データベースには、デジタル医療記録を含め、病気の影響や進行を理解するのに役立つ膨大な情報が保持されています。しかし、このデータを組み合わせて統合することは、デジタル医療記録の複雑な構造と、データ入力のサイト全体にわたる標準化の欠如によって、データサイエンティストにとって課題を提供しています。

新規性:
これらの課題に対処するために、私たちはPythonをバックエンドに持つツール「Meda」を提示しています。このツールは、異なるソースからのデータを収集し、それらを統一されたデータベース構造に結合することを目的としており、臨床データのほぼリアルタイムの監視を可能にします。

方法:
Medaは、R Shinyインターフェースと組み合わせて使用され、リアルタイムの分析と可視化のためのほぼ完全なプラットフォームを提供します。これにより、臨床データをリアルタイムで監視し、分析することができるため、臨床研究者や医師がより迅速に意思決定を行うことが可能になります。また、データの統合により、異なる研究や施設間での比較分析が容易になり、希少疾患の治療法開発や患者ケアの改善に寄与することが期待されます。

Bridging health registry data acquisition and real-time data analytics
Schmidt, J., Arjune, S., Boehm, V., Mueller, R.-U., Antczak, P. 2024-06-14 http://medrxiv.org/cgi/content/short/2024.06.12.24308496v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 25: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
医用画像解析において、自動セグメンテーションは重要かつ基礎的なステップの一つです。自動セグメンテーション技術の品質は、精密放射線医学や放射線腫瘍学の効率に影響を与えます。高品質な自動セグメンテーションは、通常、限定的な手動修正を必要とします。セグメンテーションのメトリクスは、自動セグメンテーション結果を評価し、技術開発を導くために必要かつ重要です。現在広く適用されているセグメンテーションメトリクスは、通常、重なる領域(例:Dice Coefficient (DC))や境界間の距離(例:Hausdorff Distance (HD))の観点から自動セグメンテーションと基準真実(ground truth)を比較します。しかし、これらのメトリクスは、臨床実践で自動セグメンテーション結果を観察する際に必要な手動修正の労力を十分に示すものではないかもしれません。

新規性:
本論文では、臨床の要求に適した自動セグメンテーション評価方法を探るために、異なるセグメンテーションメトリクスを研究しています。専門家による自動セグメンテーションの修正にかかる修正時間を記録し、必要な修正労力を示します。重なる領域ベースのメトリックであるDC、セグメンテーション境界距離ベースのメトリックであるHD、セグメンテーション境界長ベースのメトリックであるsurface DC (surDC)とadded path length (APL)、そして新たに提案されたハイブリッドメトリックであるMendability Index (MI)について、相関分析実験と回帰実験で議論されています。これら明示的に定義されたメトリクスに加え、セグメンテーションマスクと元の画像を入力として、修正労力を予測するディープラーニングモデルの実現可能性も初歩的に探っています。

方法:
7つのオブジェクトのデータセットを用いた実験が、3つの異なる機関から収集されています。これには、元の計算機断層撮影(CT)画像、基準真実のセグメンテーション、自動セグメンテーション、修正されたセグメンテーション、そして記録された修正時間が含まれています。5つの明確に定義されたメトリクスに対する相関分析と回帰実験によると、MIの変種は、疎なオブジェクトの修正労力を示すのに最も良いパフォーマンスを示し、一方でHDの変種は、非疎なオブジェクトの修正労力を評価する際に最も優れています。さらに、ディープラーニングモデルは、基準真実のセグメンテーションなしでも、自動セグメンテーションの修正に必要な労力をよく予測できることが示されており、自動セグメンテーション技術を評価し促進するための新しい簡単な方法の可能性を示しています。

Predicting the effort required to manually mend auto-segmentations
He, D., Udupa, J. K., Tong, Y., Torigian, D. A. 2024-06-13 http://medrxiv.org/cgi/content/short/2024.06.12.24308779v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 26: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
医療研究では実際の臨床データを用いることが多いが、プライバシー要件のために患者データの取り扱いには細心の注意が必要です。理想的には、患者データは完全に擬似匿名化または匿名化されるべきですが、これにより医療研究者が大規模なデータセットにアクセスし、分析すること、または病院間でデータを交換することが難しくなります。特に、文書化スタイルの多様性とデータの非構造性のために、医療フリーテキストの特定情報の削除は困難です。しかし、大規模言語モデル(LLMs)の開発によって推進される自然言語処理(NLP)の最近の進歩は、非構造化テキストから情報を抽出する能力を革命的に向上させました。

新規性:
本研究では、LLMsが患者に関連する情報を抽出するための非常に効果的なツールであり、それを用いて医療報告書の匿名化が可能であるという仮説を立てています。この仮説を検証するために、8つのローカルにデプロイ可能なLLMs(Llama-3 8B, Llama-3 70B, Llama-2 7B, Llama-2 70B, Llama-2 7B "Sauerkraut", Llama-2 70B "Sauerkraut", Mistral 7B, およびPhi-3-mini)を使用して、100件の実世界の臨床レターから患者関連情報を抽出し、その情報を新たに開発されたLLM-Anonymizerパイプラインを使用して削除するベンチマーク研究を実施しました。

方法:
研究では、実世界の臨床レターのデータセットから患者関連情報を抽出するために、複数のLLMsを使用しました。その後、抽出された情報を特定し、新開発されたLLM-Anonymizerパイプラインを用いて削除しました。

結果:
LLM-Anonymizerは、Llama-3 70Bを使用した場合、個人識別情報を含むテキスト文字を削除する成功率が98.05%に達したことを示しています。個人情報と識別可能な特徴を含むと手動で特定された文字数に関して性能を評価したところ、システムは個人識別情報の1.95%のみを見落とし、誤って0.85%の文字を削除しました。

結論:
我々は、LLMベースのAnonymizerパイプラインをオープンソースライセンスのもとで提供し、ローカルハードウェア上で動作し、プログラミングスキルを必要としないユーザーフレンドリーなウェブインターフェースを備えています。この強力なツールは、臨床フリーテキストデータの安全かつ効率的な匿名化を可能にし、その場で医療データ共有の主要な課題に対処することで、医療研究を大いに促進する可能性を秘めています。

Anonymizing medical documents with local, privacy preserving large language models: The LLM-Anonymizer
Wiest, I. C., Lessmann, M.-E., Wolf, F., Ferber, D., van Treeck, M., Zhu, J., Ebert, M. P., Westphalen, C. B., Wermke, M., Kather, J. N. 2024-06-13 http://medrxiv.org/cgi/content/short/2024.06.11.24308355v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 27: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
本研究の主な目的は、臨床試験管理システムにおけるブロックチェーン技術の実世界での使用証拠をマッピングし、ブロックチェーンに基づくデジタルエコシステムのための新しい概念的フレームワークを作成することでした。この概念的フレームワークの検証に向けての第一歩として、Pythonプログラミング言語によるブロックチェーンのシミュレーションを作成することを目指しました。

新規性:
この研究は、臨床試験管理におけるブロックチェーン技術の応用に関する実証的な証拠を集め、それに基づき新しい概念的フレームワークを提案しています。また、このフレームワークを検証するために、PythonとDjangoフレームワークを用いて臨床試験専用のブロックチェーンシミュレーションをコーディングし、GitHubで公開している点が新規性を有しています。

方法:
研究方法としては、ブロックチェーン技術が臨床試験管理に応用された事例や概念実証を示す研究論文をスコーピングレビューしました。PubMed、Web of Science、IEEE Xploreを用いて、2023年4月までに英語で発表された原著論文を検索しました。臨床試験の実施に関わる全てのステークホルダーを含むブロックチェーンに基づくデジタルエコシステムのための新しい概念的フレームワークを開発しました。PythonとDjangoフレームワークを使用して、臨床試験特有のブロックチェーンのシミュレーションをコーディングし、そのコードをGitHubで公開しています。

結果:
スコーピングレビューで960の抄録を取得し、その中から21の全文記事をレビューに含めました。Hyperledger FabricやEthereumなどのプライベートブロックチェーンが最も人気のあるプラットフォームでした。スマートコントラクトは、特定の活動を制御するブロックチェーンシステムの重要な機能として機能しています。臨床試験データの大部分はブロックチェーンの外部に保存されていましたが、データの分散型ストレージにはInterplanetary File Systemがよく使用されていました。

結論:
スコーピングレビュー、概念的フレームワーク、そしてオープンソースのPythonコードは、ブロックチェーンに基づく臨床試験管理システムの今後の研究や製品開発、さらには臨床研究情報学の進歩に向けた指針となるでしょう。

Blockchain based clinical trial management system: A scoping review and conceptual framework
Arjun, M. C., Ahamed, A., Kurpad, A. V., Thomas, T. 2024-06-12 http://medrxiv.org/cgi/content/short/2024.06.12.24308813v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 28: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
医療分野において、非構造化データ(医師の手紙や臨床記録など)から診断や医療手続きなどの情報を抽出し、国際的な分類システムに基づいてコーディングすることは非常に重要です。このプロセスは、Named Entity Recognition (NER) 技術を使って行われます。大規模言語モデル(LLMs)のようなChatGPTはテキスト中の医療エンティティを認識する能力を持っていますが、このタスクを行うには信頼性に欠けます。特に、英語と異なり、ドイツ語のような他の言語では、このタスクを支援するための適切な言語モデルが不足しています。

新規性:
この研究は、オンコロジー(がん学)の臨床ナラティブにおける疾患、共病、および医療手続きの識別と分類のためのワークフローを実装し、高品質な完全合成データセットの生成方法論を提示しています。これは、特にドイツ語のようなリソースが不足している言語において、NERの精度を向上させることを目指しています。

方法:
研究では、まず合成データセットを生成するための方法論が開発されました。これは、実際の臨床データのプライバシーを保護しつつ、モデルが学習するためのリッチなデータを提供することを目的としています。次に、生成されたデータセットを使用して、疾患、共病、および医療手続きを識別し分類するためのワークフローが実装されました。このワークフローは、特定の言語モデルを訓練し、実際の臨床ナラティブから関連情報を抽出するために使用されます。

総合的に、この研究は、特に言語リソースが不足している分野において、NER技術の精度と効率を向上させることを目指しています。また、合成データセットの生成という新しいアプローチは、プライバシーを保護しながら、言語モデルの訓練に必要な豊富なデータを提供するための有効な手段であることを示しています。

A tool for mapping medical narratives into medical ontologies in low resource settings: A case study for German
Diaz Ochoa, J. G., Mustafa, F. E. 2024-06-12 http://medrxiv.org/cgi/content/short/2024.06.11.24307163v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 29: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

バーチャル臨床試験(VCT)は、人口内での異質な治療反応を定量的に予測するためのツールとして人気が高まっています。VCTの文脈では、「妥当な患者」は、その特定の患者の病気の特徴や治療への反応を反映するように選ばれたパラメータ(または属性)値を持つ数学モデルのインスタンスです。仮想患者コホートに含めるべきモデルのパラメータ設定を決定するための多くの技術が導入されています。これらの方法論は一般的に、各モデルパラメータの事前分布から始まり、サンプルされたパラメータセットが妥当な集団に含めるか除外するかを決定するためのいくつかの基準を利用します。しかし、これらの事前分布を生成し、包含/除外基準を選択するための標準的な技術は存在しません。本研究では、VCT設計の選択がVCT予測に与える影響を厳密に定量化します。実際のデータと複雑な数学モデルを使用する代わりに、放射線療法の空間モデルを使用してシミュレートされた患者データを生成し、患者データを記述するために使用される数学モデルは二パラメータの常微分方程式モデルです。この制御された設定により、事前分布と包含/除外基準の両方の妥当な集団の異質性と予測される治療反応への影響を分離することができます。私たちは、包含/除外基準よりも事前分布が妥当な集団の異質性に大きな影響を与えることを発見しました。しかし、妥当な集団内の治療反応者の割合は、使用される包含/除外基準により敏感でした。VCT設計の役割に関するこの基礎的な理解は、より複雑なモデルと実際のデータを使用する将来のVCTの開発を導くのに役立つはずです。

背景: VCTは、実際の患者データに基づく実験ではなく、数学モデルを使用して患者の治療反応を予測するための技術です。VCTは、治療法の効果を人口全体でどのように異なるかを理解するために有用です。

新規性: 本研究の新規性は、VCT設計が治療反応の予測に与える影響を定量化することにあります。特に、事前分布と包含/除外基準が妥当な集団の異質性と治療反応に与える影響を分離して評価しています。

方法: 研究者は、実際の患者データを使用する代わりに、放射線療法の空間モデルを用いてシミュレートされた患者データを生成しました。そして、このデータを記述するために二パラメータの常微分方程式モデルを使用しています。このモデルを用いて、事前分布の選択と包含/除外基準が予測に与える影響を分析しています。

Assessing the Role of Patient Generation Techniques in Virtual Clinical Trial Outcomes
Gevertz, J. L., Wares, J. R. 2024-06-12 http://medrxiv.org/cgi/content/short/2024.06.11.24308775v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 30: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
大規模言語モデル(LLMs)は、人間らしい高品質なテキストを生成する能力があり、医療分野での応用についても様々な推測がなされています。それに伴い、倫理的および安全性に関する懸念も提起されています。

新規性:
この研究は、医療分野における自然言語処理(NLP)タスクにおけるLLMsのパフォーマンスを評価し、他の商業的に利用可能なツールと比較することを目的としています。特に、GPT-3.5-turboやGPT-4などの一般的なLLMsと、Microsoft Text Analytics for Health、Amazon Comprehend Medical、IQVIA API Marketplaceといった医療特化のNLPツールとの比較が行われている点が新規性を示しています。

方法:

  • 設計: 観察研究であり、市販されているモデルのパフォーマンスを評価し、比較しました。すべてのモデルは市販されており、変更を加えずに評価されました。

  • 設定: Text Analysis Coding (TAC) 2017 チャレンジを使用して、標準的なMedDRA優先用語を使用した医療コーディングの能力を評価しました。55件の公開されている非識別化された医療転写レポートからテキストが抽出され、事前に定義された医療概念(年齢、病気/症状、身体構造、薬品名、薬品用量)を識別するために注釈が付けられました。

  • 参加者: 公開されている非識別の有害事象および医療転写レポートが評価に使用されました。

  • 曝露: 各タスクにおいて、一般的なLLMs(GPT-3.5-turbo、GPT-4)と市販の医療NLPツール(Microsoft Text Analytics for Health、Amazon Comprehend Medical、IQVIA API Marketplace)を比較しました。

  • 主な成果と尺度: 各NLPタスクにおいて、感度、陽性予測値(PPV)、F1スコアが計算されました。GPTモデルは出力に変動があったため、5回の試行にわたる指標の範囲が報告されています。

結果:
MedDRAコーディングにおいて、GPT-4は医療NLPアルゴリズムと同様のF1スコアのパフォーマンスを示しました(GPT-4: 0.67から0.73; Microsoft Text Analytics for Health: 0.66, IQVIA API Marketplace: 0.72)、一方でGPT-3.5-turboはかなり低いパフォーマンスを示しました(0.50から0.51)。医療情報抽出においては、LLMsのパフォーマンスは医療概念によって大きく異なりましたが、年齢(GPT-3.5-turbo: 0.82から0.83, GPT-4: 0.84から0.87)と薬品名(GPT-3.5-turbo: 0.55から0.59, GPT-4: 0.70から0.76)に関しては最も高いF1スコアを示しました。病気/症状、身体構造、薬品用量については、医療NLPツールに比べてF1スコアが低かったです。GPT-3.5-turboとGPT-4は、比較対象よりも一般に感度が低かったです。

結論と関連性:
ドメイン固有の微調整がない状態では、GPT-4は一部のタスクにおいて医療特化のNLPツールと同様のパフォーマンスを示し、他のタスクではそれよりも正確ではありませんでした。GPT-3.5-turboは一貫して比較対象よりも正確さを欠いていました。医療の文脈でLLMsを実装する前に、特定のタスクに対する堅牢な定量的評価を行うことで、利益を最大化し、害のリスクを減らすことができます。

How well it works: Benchmarking performance of GPT models on medical natural language processing tasks
Feng, H., Rough, K., Milligan, P. B., Tombini, F., Kwon, T., Zine El Abidine, K., Mack, C. D., Hughes, B. 2024-06-12 http://medrxiv.org/cgi/content/short/2024.06.10.24308699v1

この記事が気に入ったらサポートをしてみませんか?