NCAE: data-driven representations using a deep network-coherent DNA methylation autoencoder identify robust disease and risk factor signatures
この研究の学術的背景となる「問い」は、「現在の知識主導型アプローチは、既存の生物学的知識に内在するバイアスにより、新たな、または予期しない現象を見過ごす可能性があるので、それを克服できる新たなデータ駆動型の署名発見の手法はないか?」というものです。
この研究の目的は、DNAメチル化解析用のデータ駆動型の署名発見ワークフローを提示し、それを利用した署名の抽出と解釈可能なデープニューラルネットワークの訓練を行うことです。これは、知識主導型方法の限界を克服し、複雑なエピジェネティックなプロセスの理解を深め、より効果的な診断・治療戦略の開発を可能にするという点で、学術的に独自で創造的です。
ヒトのエピゲノムワイド関連研究の大規模パンティッシュコレクション(n = 75 272)を訓練に使用するオートエンコーダの建築空間を探索することから、この研究の着想を得ました。ここで見いだされた深層オートエンコーダの潜在空間が生物学的ネットワークモジュールに対応する共有化パターンの出現がこの研究のきっかけです。
この研究では、ネットワーク共有性オートエンコーダ(NCAE)の設定を決定し、そのエンベッティングを利用して、リスクファクターや疾患の予測・分類のための解釈可能な深層ニューラルネットワークを訓練しました。これにより、既存の予測器よりも優れた性能を示すモデルを開発し、それぞれの症例に関連する遺伝子セットや経路で豊かな新たなDNAメチル化署名を発見することができました。
リスク要因(加齢・喫煙)と疾患(全身性エリテマトーデス)の予測と分類のタスクにおいて、このNCAEエンベッディングベースのモデルは既存の予測器よりも優れた性能を示しました。これにより疾患ごとに関連する遺伝子セットや経路に富んだ新規のDNAメチル化署名が得られ、それが各病態の理解に寄与しました。これにより、本研究の有効性が検証されました。