見出し画像

[論文] VAEの一部を線形化して解釈性を上げる試み

Valentine Svensson, Lior Pachter. Interpretable factor models of single-cell RNA-seq via variational autoencoders. bioRxiv (2019)   http://dx.doi.org/10.1101/737601

scRNA-seqデータの解析ではPCAがよく用いられます。PCAをscRNA-seqデータの線型モデルと考えることもできます。各細胞の遺伝子発現量ベクトルをデータ点とみなすと、細胞の潜在変数の分散を最大化していることになります。各遺伝子のloadingは、細胞ごとの潜在変数 (coordinate) から遺伝子発現を予測する際の線型な重みパラメータとみなせます。また、各軸のloadingはmeta-gene (共発現する遺伝子群) とも考えられます。まとめると、PCAは細胞間の変動と遺伝子間の変動を同時に捉えることができる方法です。

しかし、PCAは多変数ガウス分布を仮定しており、scRNA-seqのようなノイズの大きなカウントデータに適切ではないという議論があります。そこで、scRNA-seqのデータをより柔軟な確率分布でモデル化する手法が提案されてきました。その中の一つがscVIです。

scVIは、VEAを用いてscRNA-seqデータをモデリングし、高速に細胞の次元圧縮を行うソフトウェアです。しかし、このモデルでは解釈性 (ここでは遺伝子間の共発現関係およびそれと細胞を分散させる「軸」との関係) が失われていると著者らは考えました。

そこで著者らは、scVIのRepresentationステップ、すなわち、潜在変数から発現量分布のパラメーターを生成するステップについての関数を線型化することを提案しました。これにより、柔軟性は失われるために再構成のエラーは大きくなりますが、潜在変数の各次元における各遺伝子の重みが得られることで解釈性が上がります

著者は提案手法を、Cao 2019のマウスの胚のscRNA-seqデータに適用して、各軸で重みが大きい遺伝子群が機能的に関連したものであることを確認している。また、細胞数を増やしていっても数分から数時間で終わることを示している。

個人的に驚いたのは、(著者らがディスカッションに書いていることですが) scVI の拡張として提案してマージしてもらっていること。scVIは著者らとは別のグループによって開発されたソフトウェアで、それに対する機能拡張として提案手法を実装するというのはあまり例がないことです。アイデアを素早く実証できることだけを目的とするなら、ソフトウェアを完全にオリジナルにする必要はないのかと気付かされました。


この記事が気に入ったらサポートをしてみませんか?