機械学習モデルによる2型糖尿病のHbA1c trajectory

古いデータベースによるからどうしてもこういう検討というのは現時点で行われている臨床と乖離してしまう。SGLT2i,GLP-1、DPP4iなど現在のT2D治療での準主役たちが登場していない状況の検討だから物足りなく感じる。でも、機械学習モデルの研究手法は一般化されそうで・・・


機械学習モデルにより、6年間の追跡調査においてHbA1cの発達が類似している異質なT2D患者において、3つのtrajectoryを特定することにより、HbA1cの変動を捉えた。事前のグルコース値、T2D診断からの時間、インスリンのみの使用、インスリンと何らかの経口抗糖尿病薬の使用、メトホルミンのみの使用、抗糖尿病薬の数が、血糖コントロールクラスのメンバーを推定するための最も重要な予測因子であった。最適で十分な治療バランスを有する者(86.5%)と不十分な治療バランスを有する者(13.5%)を区別するために,2値分類を用いて軌道のメンバーシップを予測した。全体として、この予測モデルは高い性能を有していた。また、SHAP値を用いることで、予測の理由を集団レベル、個人レベルで説明できることが示された。

【序文】治療ガイドラインでは、罹病期間の短い若年T2D患者にはより厳しい目標を、高齢で合併症の多い患者にはより緩やかな治療目標を設定し、ほぼ「一律」な標準的治療が提案されている。 しかし、HbA1c値は、疾患の進行性、加齢、ライフスタイルの変化、他の併存疾患、異なる治療などにより、しばしば経時的に悪化し変動することが観察されており、これはT2D関連の疾病および死亡の重大な危険因子であることも知られている。T2Dケアにおいて課題を持つ患者を特定し、ケアの流れのための異なるモデルを有効にして治療の選択および医療資源の使用を最適化することが急務である。
HTxプロジェクト(EU Horizon 2020資金提供プロジェクト2019-2024)の一環である本研究で、6年間のHbA1cの軌跡に基づいて類似した患者のクラスターを特徴付けし、医師や医療従事者が治療バランスの悪い患者を特定し、患者のニーズに応じて治療やモニタリングを調整することを支援するために、2型糖尿病の期間、以前のHbA1cレベル、空腹時血糖値、既存の抗糖尿病薬とその数に関するデータを使用することにより、病気のどの時点でも高血糖のリスクが持続する患者を確実に特定できる。言い換えれば、不十分な血糖コントロールは、糖尿病の監視と管理の一環として日常的に収集されるデータから予測することができるという・・・

Data-Driven Identification of Long-Term Glycemia Clusters and Their Individualized Predictors in Finnish Patients with Type 2 Diabetes
Authors Lavikainen P ,et al.
Clinical Epidemiology Published 5 January 2023 Volume 2023:15 Pages 13—29
identification of long-term in Finnish patients with T2D. | CLEP (dovepress.com)


【目的】2型糖尿病(T2D)患者の不均一なグループを理解するために、我々は、均質な長期HbA1c軌道を持つ患者を特定し、説明可能な機械学習法と異なる臨床、治療、社会経済関連の予測因子を使って各患者の軌道のメンバーシップを予測することを目的とした。
対象者および方法 フィンランドの北カレリア地方でT2Dと診断された9631人の患者のプライマリーヘルスケアと専門的ヘルスケアをカバーする電子カルテデータを抽出した。6年間のHbA1cの推移をgrowth mixture modelで検討した。Linear discriminant analysis 及びneural networksを適用して、軌道のメンバーシップを個別に予測した。
【結果】 6年間で3つのHbA1cの軌跡が区別された。血糖コントロールは,「安定,適切」(86.5%),「改善,不十分」(7.3%),「変動,不十分」(6.2%)であった。
長期的な治療バランスについては,事前の血糖値,T2Dの期間,インスリンのみの使用,インスリンといくつかの経口抗糖尿病薬の併用,メトホルミンのみの使用が最も重要な予測因子であった.

血糖コントロールの軌跡を予測するため、「改善しているが不十分」(7.3%)と「変動しており不十分」(6.2%)を1つの「不十分」クラスとして統合した。二値分類は、クラスメンバーシップ(適切/不十分)を予測するために、LDAとNNモデルを用いて行われた。両モデルとも,表1に示した予測因子で,4重クロスバリデーションを用いて,カスケード順序で学習させた.各クロスバリデーションにおいて、データは4つに分割され、3つの部分がトレーニングに、1つの部分がテストに使用された。図4は,各予測器のタイプについて,モデルのトレーニングおよびテストに選択された最良の予測器を示している.

予測モデルのバランス精度は85%、AUROCは91%であり、高い性能を示していた。さらに、SHAP(SHapley Additive exPlanationに基づく結果から、機械学習法の結果を集団レベル、個人レベルで説明できることが示された。

図 7 臨床+治療+社会経済予測因子に対するニューラルネットワークモデルの 1 つの SHAP サマリープロット。OAD、経口糖尿病薬またはGLP-1類似体(メトホルミン、スルホニル尿素、経口血糖降下薬の組み合わせ、グリタゾン、DPP-4阻害剤、グリニド、GLP-1類似体、SGLT2阻害剤など)。


【結論】 過去のHbA1c値、空腹時血糖値、T2Dの期間、抗糖尿病薬の使用などの情報を活用することで、長期血糖コントロールの不均質性を確信を持って予測することが可能である。将来的には、患者固有の危険因子に基づいてHbA1cの予想推移を予測することで、臨床医が治療計画をサポートする実用的なツールを提供することが期待される。

Keywords: type 2 diabetes, cluster, HbA1c, machine learning, SHAP

Translated with DeepL



各患者のtrajectory membership推定のため、いくつかのmachine learning algorithmを組み込んだPythonにて解析
Tensor_Flowにてconnected neural network(CNN)、sklearnにて linear discriminant analysis (LDA)を解析

LDAは線形結合を用いて2つ以上のイベントclassを特徴づけあるいは判別のため用いる。LDAは異なるガウス(正規)分布をベースに、異なるclassを形成するデータ作成を想定するclassification methodである。classifierを生成あるいは学習するため、適合関数:fitting functionは各class毎ガウス分布パラメータを推定;このモデルは、各classに対して同じ共分散行列をもち、平均値のみが変化する。学習されたdiscriminant classifierを用いた新しいデータの推定classは誤判定コストを最小化したものとする。本研究で用いた LDA インスタンスは、データのクラス条件分布をクラスごとにモデル化した単純な確率モデルから導出することができる 。予測は各トレーニングサンプルに対してベイズの法則を用いて得ることができる。

$${x \in R^d : P(y=k\vert x)=\frac{P(x\vert y=k)P(y=k)}{P(x)}=\frac{P(x\vert y=k)P(y=k)}{\Sigma_i P(x\vert y=l)P(y=l)}}$$


事後確率を最大化するclassを選択する


LDA では、密度が次のように定義される多変量ガウス分布としてモデル化される。

$${P(x \vert y=k)=\frac{1}{(2 \pi)^2 \vert \Sigma_kl^{1/2}} exp(- \frac{1}{2}(x-\mu_k)^T \Sigma_k^{-l}(x-\mu_k)) }$$

$${d:特性数、\Sigma_k 共分散行列、(x-\mu_k)^T \Sigma_k^{-l}(x-\mu_k) サンプル x と 平均 \mu_kのマハラノビス距離}$$


NN は、隠れ層の活性化関数に「elu」、出力層の活性化関数にシグモイドを用いた完全連結多層ネットワーク

                                                                                       Figure 1 Structure of the fully connected neural network.


この記事が気に入ったらサポートをしてみませんか?