見出し画像

Automated clinical coding using off-the-shelf large language models

https://arxiv.org/abs/2310.06552

  1. 本研究の学術的背景は、国際疾病分類(ICD)コーディングの自動化に関するものです。ICDコーディングは、患者の医療記録に対してICDコードを割り当てる作業であり、専門の医療従事者によって通常行われています。ICDコードは、請求書作成や監査、資源管理、疫学調査、治療効果の測定などの目的で使用されます。しかし、人手によるコーディングは時間がかかり、エラーが発生する可能性があります。そのため、自動化が模索されていますが、稀少なコードの予測や概念的な重複などの困難さがあります。

  2. 本研究の目的は、事前学習済みの大規模言語モデルを使用して、ゼロショットやフューショットのコード割り当てに適した実用的な解決策を開発することです。従来の教師あり深層学習モデルでは、稀少なコードの予測が困難であるため、本研究では事前学習済みの言語モデルを利用して、情報抽出タスクとしてフレーム化し、関連する言及を取得するようモデルに要求します。また、ICDコードの階層構造を活用して、効率的に関連するコードを検索する方法を提案します。

  3. 本研究の着想は、既存の事前学習済みの言語モデルとして広く利用されている大規模言語モデル(LLM)を活用するという点から生まれました。最近のモデルは、質問応答や要約、臨床情報の検索など、医療のタスクにおいて良好なパフォーマンスを示しており、医療テキストに対しても高い能力を持っています。本研究では、既存のLLMをICDコーディングのタスクに適用する方法を探究し、タスク固有の学習なしでICDコーディングを行うことを提案します。また、ICDコードの階層構造を活用した新しい検索戦略を適用し、モデルのパフォーマンス向上を実証します。

  4. 本研究では、ICDコーディングに関して、ゼロショットの学習やフューショットのコード割り当てを行う手法を提案しました。具体的には、事前学習済みの言語モデルを活用し、情報抽出タスクとしてフレーム化し、関連する言及を取得する方法を提案しました。また、ICDコードの階層構造を利用して、関連するコードを効率的に検索するための手法を提案しました。実験では、ICDコード付きの臨床ケース文書データセットを使用し、提案手法の有効性を検証しました。

  5. 本研究では、提案手法の有効性をLlama-2、GPT-3.5、GPT-4のモデルを使用して検証しました。ICDコードのレアなクラスにおいて、提案手法は最高のマクロF1値0.225を達成しました。マイクロF1値は0.157であり、PLM-ICDの値(マイクロF1値0.216、マクロF1値0.219)よりもわずかに低い結果となりました。この結果から、提案手法が稀少なコードにおいて優れた性能を発揮することが確認されました。

この記事が気に入ったらサポートをしてみませんか?