見出し画像

Recent BioRxiv on Bioinformatics: June 10, 2024

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 1: 論文「 HCNetlas: Human cell network atlas enabling cell type-resolved disease genetics 」の内容を詳しく説明してください。

論文「HCNetlas: Human cell network atlas enabling cell type-resolved disease genetics」では、病気の遺伝的構造の複雑さに寄与する細胞タイプ特有の遺伝子の作用について論じています。単一細胞オミクスが細胞レベルでの遺伝子の機能的役割を明らかにし、病気の進行に重要な細胞タイプを特定しています。しばしば、遺伝子はその発現レベルの変化というよりも、特定の細胞タイプ内の変化したネットワークを通じて病気に影響を及ぼします。

この論文では、様々な健康な組織細胞における細胞タイプ特有の遺伝子ネットワーク(CGNs)をカタログ化したリソースであるHCNetlas(human cell network atlas)の開発について報告しています。また、病気の遺伝子の細胞タイプ特有の機能を調査するために、3つのネットワーク分析方法を考案しました。これらの方法は、HCNetlasのCGNsと疾患に影響を受けた組織サンプルから得られたCGNsを比較することを含んでいます。

これらの方法により、全身性エリテマトーデス(SLE)に関連する遺伝子が主に骨髄系細胞で機能し、アルツハイマー病に関連する遺伝子が抑制的および興奮性ニューロンで主に機能することがわかりました。さらに、多くの肺がん遺伝子が免疫細胞でその役割を果たしていることも示されています。

これらの発見は、HCNetlasが疾患関連遺伝子を行動する細胞タイプにリンクする可能性を示唆しており、複雑な人間の疾患に対する細胞タイプ解決の診断法や治療戦略の開発を促進する可能性があることを示しています。

HCNetlas: Human cell network atlas enabling cell type-resolved disease genetics
Yu, J., Cha, J., Koh, G., Lee, I. 2024-06-09 http://biorxiv.org/cgi/content/short/2024.06.07.597878v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 2: 論文「 Alignment of multiple protein sequences without using amino acid frequencies. 」の内容を詳しく説明してください。

この質問は架空の論文「Alignment of multiple protein sequences without using amino acid frequencies.」についての説明を求めていますが、実際にはこのタイトルの論文は存在しないため、直接的な説明は提供できません。しかし、与えられたコンテキストに基づいて、関連する情報を提供することは可能です。

コンテキストによると、現在のタンパク質配列のアラインメントアルゴリズムは、特定のアミノ酸ペアにおけるアミノ酸の発見確率と、任意のペアにおけるこのアミノ酸の周辺確率を組み合わせた置換スコアを使用しています。しかし、アラインメントにおけるアミノ酸の位置確率は、配列自体のアミノ酸にも依存しています。コンテンツ依存の補正はタンパク質アラインメントモデルを過度にパラメータ化してしまいます。そのため、提案されているアプローチでは、周辺確率を使用せず、ペアにおけるアミノ酸の発見確率のみをスコアリングする(不)類似度測定に基づいています。不類似度スコアリング行列は、アラインされた配列のセットに対してメトリック空間を与えます。これにより、新しいヒューリスティックを開発することが可能になりました。このアライナーはガイドツリーを使用せず、すべての配列を均一に扱います。我々は、明示的な進化に基づくモデリングの仮定を用いずに行われるこのようなアラインメントは、タンパク質の進化に関する仮説(例えば、分子系統学)を検証するために使用されるべきだと提案しています。

このコンテキストに基づいて、論文は従来のアミノ酸周辺確率に依存するアラインメント手法ではなく、アミノ酸ペア間の(不)類似度のみに基づく新しいアラインメント手法を提案していると解釈できます。これにより、過度に複雑化することなく、よりシンプルで効率的なアラインメントが可能になるという利点があります。また、進化モデルに依存しないため、進化に関する新しい仮説をテストする際の基準として有用であるとされています。

Alignment of multiple protein sequences without using amino acid frequencies.
Shirokov, R., Shelyekhova, V. 2024-06-09 http://biorxiv.org/cgi/content/short/2024.06.05.597668v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 3: 論文「 Training Compute-Optimal Protein Language Models 」の内容を詳しく説明してください。

論文「Training Compute-Optimal Protein Language Models」では、生物学的研究における重要な関心事であるタンパク質言語モデルの最適なトレーニング方法について調査しています。多くのモデルは、性能向上が頭打ちになるまで、広範な計算リソースを使ってトレーニングされていますが、モデルサイズを増やすことに重点を置くのではなく、性能と計算予算のバランスを取る効率的な計算フロンティアの最適化に焦点を当てています。この調査は、9億3900万のタンパク質配列という巨大なデータセットに基づいて行われています。3.5百万から107億のパラメータを持つ300以上のモデルを、5百億から2000億のユニークなトークンでトレーニングし、モデルサイズ、トレーニングトークン数、および目標の関係を調査しました。

まず、一般的に使用されるUnirefデータベースを繰り返し使用することで、Causal Language Model(CLM)の次元の逓減効果と、Masked Language Model(MLM)のオーバーフィッティングの効果を観察しました。これに対処するために、トレーニングセットにメタゲノミクスタンパク質配列を含めることで、多様性を増やし、プラトー効果やオーバーフィッティング効果を避けることができました。次に、タンパク質配列データの特定の特徴に合わせたCLMとMLMのスケーリング法則をTransformer上で得ました。第三に、CLMからMLMへの転送スケーリング現象を観察し、推定される効果的に転送されたトークンに基づくスケーリング行動を通じての転送の有効性をさらに示しました。最後に、スケーリング法則を検証するために、ESM-2とPROGEN2の大規模バージョンを、プロテイン生成や構造・機能関連のタスクを含む下流タスクで比較しました。これは、同等またはそれ以下のプリトレーニング計算予算内で行われました。

この研究は、タンパク質言語モデルのトレーニングにおける計算効率と性能の最適化に貢献するものであり、データの多様性を高めることや、モデル転送の効率化など、新たなアプローチを提案しています。また、大規模なタンパク質データセットを用いた実験を通じて、実際のタスクにおけるモデルの有効性を検証しています。

Training Compute-Optimal Protein Language Models
Cheng, X., Chen, B., Li, P., Gong, J., Tang, J., Song, L. 2024-06-09 http://biorxiv.org/cgi/content/short/2024.06.06.597716v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 4: 論文「 Fast and Tuning-free Nonlinear Data Embedding and Integration based on DCOL 」の内容を詳しく説明してください。

シングルセル技術の急速な進歩により、生物学者たちは細胞集団、疾患の状態、発達の系統などの複雑さを解き明かすために、多様なオミクスデータをより速く、コスト効率よく取得することが可能になりました。さらに、マルチモーダルシングルセルオミクス技術の登場は、生物システム内の相互作用を研究する新しい道を開きました。しかし、シングルセルオミクスデータは高次元でノイズが多く、スパース(疎)な特徴を持つため、分析には大きな課題があります。そのため、次元削減(Dimension Reduction, DR)技術はこのようなデータの分析において重要な役割を果たします。

多くのDR方法が開発されていますが、それぞれに限界があります。例えば、PCAのような線形方法は、細胞のタイプや状態間の高い多様性と複雑な関連性を効果的に捉えることに苦戦します。これに対応して、非線形技術が導入されましたが、これらは高次元の環境でのスケーラビリティの問題に直面するか、単一のオミクスデータに限定されるか、主に視覚化に焦点を当てており、下流タスクに有益な埋め込みを生成することには重点を置いていません。

本論文では、変数間の非線形関係を定量化するための機能依存尺度であるDCOL(Dissimilarity based on Conditional Ordered List)相関を正式に紹介します。この尺度に基づいて、シングルおよびマルチオミクスデータの次元削減と統合のためのDCOL-PCAおよびDCOL-CCAを提案しています。シミュレーション研究では、私たちの方法は他の8つのDR方法と4つのジョイント次元削減(jDR)方法を上回る性能を発揮し、さまざまな設定において安定した性能を示しました。これは、最も困難なシナリオであっても、重要な要因を効果的に抽出する能力が高いことが証明されました。また、実際のデータセットにおいてもこれらの方法を検証し、オミクスデータ内外の微妙な信号を検出し、データの本質的な情報と潜在的な構造を保持する低次元の埋め込みを生成する能力を示しました。

Fast and Tuning-free Nonlinear Data Embedding and Integration based on DCOL
Liu, S., Yu, T. 2024-06-09 http://biorxiv.org/cgi/content/short/2024.06.06.597744v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 5: 論文「 Exploiting protein language model sequence representations for repeat detection 」の内容を詳しく説明してください。

「Exploiting protein language model sequence representations for repeat detection」という論文では、タンパク質の進化を理解する上で中心的な役割を果たす重複(duplication)現象の研究に焦点を当てています。染色体、DNAの大きな塊、遺伝子、タンパク質ドメイン、そして短いモチーフのスケールで作用するこの重複は、進化の基本的なメカニズムです。しかし、内部リピート間の類似性が長期的な発散により低下するため、反復的な配列パターンの検出はしばしば困難です。

この論文で最も敏感なシーケンスベースのリピート検出方法としてHHrepIDが紹介されています。HHrepIDは、類似性のシグナルを強化し、非常に古い重複の検出を容易にするために、複数のシーケンスアラインメント(MSAs)の構築に依存しています。しかし、このアラインメントベースのアプローチは遅く、大規模なスキャンを行う能力に制限があります。

最近のタンパク質表現学習の進歩は、タンパク質言語モデルから抽出されたシーケンス埋め込みを、MSAsよりもはるかに高速で強力な代替手段として導入しました。タンパク質シーケンス表現は、私たちが最近開発したpLM-BLASTなどのソフトウェアによって例証されるように、相同性検出に効果的であることが示されています。

この研究では、シーケンス埋め込みにエンコードされたリピートを識別するために、pLM-BLASTに基づいて構築されたパイプラインであるpLM-Repeatを実装しています。pLM-Repeatは、リピートの存在を検出する際にHHrepIDと同等の感度を達成し、より多くのリピートユニットを予測し、著しく優れた実行時間を提供します。さらに、よく特徴付けられたリピートフォールドに類似したパターンを持つドメインの検出のために、DeepRepeatというニューラルネットワークを訓練し、高速なフィルタリングをサポートしています。

新たに開発されたツールを使用して、AFDB90v4データベースをスキャンし、新規かつ未記述のリピートタンパク質のコレクションを特定しました。この研究は、タンパク質のリピート検出における新しい手法の開発と、それによる新規リピートタンパク質の同定に貢献しています。

Exploiting protein language model sequence representations for repeat detection
Qiu, K., Dunin-Horkawicz, S., Lupas, A. N. 2024-06-09 http://biorxiv.org/cgi/content/short/2024.06.07.596093v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 6: 論文「 AI-based mining of biomedical literature: Applications for drug repurposing for the treatment of dementia 」の内容を詳しく説明してください。

この論文「AI-based mining of biomedical literature: Applications for drug repurposing for the treatment of dementia」は、AIを活用した生物医学文献のマイニングツール「AGATHA」を紹介し、認知症治療薬の再利用(リパーパジング)の可能性を探る研究内容を説明しています。アルツハイマー病、パーキンソン病、ハンチントン病、筋萎縮性側索硬化症(ALS)、多発性硬化症、HIV関連認知障害などの神経変性疾患は個人、家族、介護者、そして医療システムに大きな影響を与えていますが、現在のところ治療法はありません。

この状況を改善するために、研究者たちは世界中で新しい治療法の開発に取り組んでおり、その一環としてこの論文では、AGATHAを用いて、既存のFDA承認薬と特定の健康状態との間に隠された関連性を明らかにし、薬の再利用を促進することを目指しています。AGATHAはPubMedなどの大規模な科学文献データベースをナビゲートし、論文の抄録を多次元空間に変換します。ここでは、各遺伝子と健康状態が特定の指標によって表現されます。

研究チームは、選択された健康状態と遺伝子に対してAGATHAが計算したパラメータを使用して作成された仮想空間内で、科学用語の明確なクラスターを明らかにするために高度な統計分析を実施しました。部分最小二乗判別分析(PLS-DA)を用いて、特定のクラスに適合するサンプル(122の疾患と20,889の遺伝子)を分類し、予測しました。高度な統計学を使用して、各疾患クラスに特有の遺伝子リストを抽出するための識別モデルを構築しました。

特に、この研究では神経変性疾患の結果としての認知症治療薬の再利用に焦点を当てており、他の疾患クラスで統計的に高くランクされた認知症関連遺伝子を特定しました。さらに、複数の健康状態に共通する遺伝子を検出するメカニズムについても報告しています。これらの遺伝子セットは、生物学的経路における存在に基づいて分類され、薬の再利用に利用可能な候補と生物学的プロセスの選択に役立てられます。

AI-based mining of biomedical literature: Applications for drug repurposing for the treatment of dementia
Sikirzhytskaya, A., Tyagin, I., Sutton, S. S., Wyatt, M. D., Safro, I., Shtutman, M. 2024-06-09 http://biorxiv.org/cgi/content/short/2024.06.06.597745v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 7: 論文「 SpotSweeper: spatially-aware quality control for spatial transcriptomics 」の内容を詳しく説明してください。

「SpotSweeper: spatially-aware quality control for spatial transcriptomics」という論文では、空間的に分解されたトランスクリプトミクス(SRT)実験から得られるデータの信頼性と正確性を確保するための新しい品質管理(QC)手法が紹介されています。SRTは、組織の特定の位置での遺伝子発現を解析する技術であり、そのデータの品質管理は非常に重要です。

従来のQCアプローチは、単一核RNAシークエンシング(snRNA-seq)メソッドから採用されたものであり、SRTデータの空間的な生物学を考慮していないため、SRTには不適切です。さらに、SRT独特の組織学的なアーティファクトを特定する方法も存在していませんでした。

この論文で紹介されているSpotSweeperは、SRTデータの品質管理のための空間的に意識したQCメソッドです。SpotSweeperは、個々のスポット(サンプルの位置)の品質をその局所的な近傍と比較することで評価し、生物学的な異質性によるバイアスを最小限に抑えます。また、マルチスケールの手法を使用して地域的なアーティファクトを検出します。

公開データを使用してSpotSweeperを試した結果、一貫して品質が低いと判断されるVisiumバーコード/スポットのセットを特定しました。また、SpotSweeperが2種類の異なる地域的なアーティファクトを正確に識別し、その結果、空間的なドメインにおける下流のクラスタリングとマーカー遺伝子の検出が改善されることを示しました。

要するに、この論文はSRTデータの品質管理を改善するための新しい手法であり、局所的な外れ値と地域的なアーティファクトを特定することにより、データ解析の精度を高めることができると主張しています。

SpotSweeper: spatially-aware quality control for spatial transcriptomics
Totty, M. S., Hicks, S. C., Guo, B. 2024-06-09 http://biorxiv.org/cgi/content/short/2024.06.06.597765v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 8: 論文「 RNA-TorsionBERT: leveraging language models for RNA 3D torsion angles prediction 」の内容を詳しく説明してください。

この論文「RNA-TorsionBERT: leveraging language models for RNA 3D torsion angles prediction」では、RNAの3次元構造予測のための新しいアプローチが提案されています。この研究では、言語モデルの成功した応用に触発された手法をRNAに適応させ、RNAのトーション角(ねじれ角)と疑似トーション角を生の配列データから直接予測するモデル、RNA-TorsionBERTを開発しました。

RNAの3次元構造予測は、継続的な進歩にも関わらず、完全に解決されていない進行中の課題です。現行のアプローチでは、しばしば二次構造や多重配列アラインメントを特徴として予測を導くために用いられます。しかし、この論文では、トーション角や疑似トーション角のような追加的な特徴を組み込むことで、予測モデルの精度向上を図っています。

RNA-TorsionBERTは、配列のみからRNAのトーション角と疑似トーション角を予測するために、より良い連続的な相互作用を取り入れた言語ベースのモデルです。広範なベンチマークを通じて、この方法が最先端の手法に比べて平均絶対誤差(MAE)を7.4改善することが示されました。

さらに、この予測モデルを使用して、RNA-Torsion-Aと呼ばれるトーション角依存のスコアリング関数を推論しました。これは、真の参照角をモデルの予測で置き換えるもので、RNAのバックボーンのトーション角と疑似トーション角の値に関して、近似ネイティブ構造の品質を正確に評価することができます。

この研究は有望な結果を示しており、言語モデルがRNAの3次元構造予測を進歩させる可能性があることを示唆しています。ソースコードはEvryRNAプラットフォームで自由に利用可能です: https://evryrna.ibisc.univ-evry.fr/evryrna/RNA-TorsionBERT。

RNA-TorsionBERT: leveraging language models for RNA 3D torsion angles prediction
Bernard, C., Postic, G., Ghannay, S., Tahi, F. 2024-06-09 http://biorxiv.org/cgi/content/short/2024.06.06.597803v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 9: 論文「 New insight in cyclic monoterpenoids mechanism of action: an in silico approach 」の内容を詳しく説明してください。

「New insight in cyclic monoterpenoids mechanism of action: an in silico approach」という論文では、天然テルペノイドの作用機序を明らかにすることが挑戦的であると述べられています。特に、抗真菌剤の開発において、これらの成分の効果が注目されています。ティモール、カルバクロール、チモール酢酸エステルは広く研究されていますが、新たなブロモ化ティモール、すなわちブロモチモール(4-ブロモ-2-イソプロピル-5-メチルフェノール)については、さらなる研究が必要です。

この論文では、ブロモチモールの抗真菌効果を評価するとともに、作用機序に関するin silico(コンピュータ上でのシミュレーション)研究を行っています。耐性が高いとされる種に対する生体内(in vivo)実験では、ブロモチモールの最小抑制濃度(MIC)が約40μg/mlであり、ティモールよりも6倍活性が高いことが示されました。

密度汎関数理論(DFT)を用いてヘプタン中での分配係数(LogP)を決定し、最小バイアスアプローチに基づく分子動力学(MD)シミュレーションを行った結果、ブロモチモールはティモール、カルバクロール、チモール酢酸エステルと同様に細胞膜に挿入することが示唆されました。ヒドロキシル基を持つモノテルペノイドは、膜の厚さを縮小させる一方で、ティモールのみが挿入した葉状体の膜密度に影響を与えました。

ティモール、カルバクロール、ブロモチモールは、脂質の極性頭部と相互作用し、膜内の静電的不均衡を引き起こし、その生物学的活性を正当化しました。これらの化合物の作用機序に関して、初めて詳細なin silico特性評価が行われ、その作用機序に関して一貫性のある明確な絵が提供されました。

この論文は、これらのモノテルペノイド類の抗真菌作用の詳細なメカニズムをコンピュータシミュレーションを通じて解析し、その結果を提示しています。

New insight in cyclic monoterpenoids mechanism of action: an in silico approach
Pezzola, S., Bocchinfuso, G., Galloni, P., Venanzi, M., Sabuzi, F., Conte, V. 2024-06-09 http://biorxiv.org/cgi/content/short/2024.06.05.597591v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 10: 論文「 Pathway activation model for personalized prediction of drug synergy 」の内容を詳しく説明してください。

論文「Pathway activation model for personalized prediction of drug synergy」では、がん治療における薬剤の単独療法が耐性のためにしばしば失敗するという問題に対処しています。この問題に対する解決策として、複数のターゲットに同時に作用する薬剤の組み合わせが提案されており、この組み合わせは相乗効果を生み出し、薬剤の有効性を高めるとともに耐性の発生を減少させることが期待されています。

この研究では、DIPx(Drug Interaction Prediction with pathway activation)というアルゴリズムが紹介されています。このアルゴリズムは、オミクスデータの統合に基づく計算モデルを用いて、個別化された薬剤の相乗効果を予測するために開発されました。DIPxは、腫瘍特有のものと薬剤特有のものの両方に基づいている生物学的に動機付けられた経路活性化スコア(PAS)を用いています。

研究者たちは、AstraZeneca-Sanger(AZS)DREAM Challengeデータセットを使用してDIPxを訓練および検証しました。このデータセットは2つの別々のテストセットを含んでいます。テストセット1は訓練セットに既に存在する組み合わせを含んでおり、テストセット2は訓練セットには含まれていない新しい組み合わせを含んでいます。これにより、DIPxが新しい薬剤組み合わせに対する予測能力を持っているかを評価することができます。

テストセット1における予測された薬剤相乗効果と観察された薬剤相乗効果のスピアマンの相関係数は0.50(95%CI: 0.47--0.53)であり、テストセット2では0.26(95%CI: 0.22--0.30)でした。これは、DREAM Challengeで最も性能が良かった方法の相関係数0.38(95%CI: 0.34--0.42)および0.18(95%CI: 0.16--0.20)と比較して改善されています。

研究者たちは、薬剤のターゲット間の機能的相互作用が高いほど相乗効果が高くなることを示し、この機能的相互作用情報がPASによって捉えられていることを示しています。さらに、PASを使用して、組み合わせ薬剤の相乗効果を媒介する活性化された経路に関する潜在的な生物学的説明を提供する方法を説明しています。

要約すると、DIPxは個別化された薬剤相乗効果の予測と、組み合わせ薬剤の効果に関連する活性化された経路の探索に有用なツールであることが示されています。

Pathway activation model for personalized prediction of drug synergy
Trac, Q. T., Huang, Y., Erkers, T., Östling, P., Bohlin, A., Osterroos, A., Vesterlund, M., Jafari, R., Siavelis, I., Backvall, H., Kiviluoto, S., Orre, L., Rantalainen, M., Lehtiö, J., Lehmann, S., Kallioniemi, O., Pawitan, Y., Vu, T. N. 2024-06-08 http://biorxiv.org/cgi/content/short/2024.06.05.597583v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 11: 論文「 VCAb: A web-tool for structure-guided antibody engineering 」の内容を詳しく説明してください。

「VCAb: A web-tool for structure-guided antibody engineering」という論文では、抗体工学を支援するためのウェブツール「VCAb」について詳しく説明されています。このツールは、異なる免疫応答に対して効果的な対応をするためには、特定のエフェクター機能を持つ様々なアイソタイプの抗体の分泌が必要であるという点に基づいています。それらのアイソタイプに関する構造情報は、所望の抗原結合特性を持ち、かつ最適な安定性と開発可能性を備えた潜在的治療抗体として、抗体をエンジニアリングするために不可欠です。

VCAbは、これらのアノテーションを明確にし、抗体工学を容易にするためのアクセスしやすく、容易に参照できるリソースを提供する目的で設立されました。現在、VCAbは6,948個の実験的に決定された抗体構造のデータを提供しており、これには異なる種からのV領域(変数領域)とC領域(定数領域)が含まれています。さらに、VCAbは種とアイソタイプのアノテーションを提供し、V領域とC領域のナンバリングスキームが適用されており、インタラクティブに照会したり、バッチでダウンロードすることができます。

VCAbの構造には、複数のインシリコ変異スキャンニング方法が適用されており、抗体の安定性に対する変異の影響を照会するためのアクセスしやすいインターフェースを提供しています。これらの機能はR shinyアプリケーションに実装されており、データのインタラクティブな調査を可能にしています。

VCAbはhttps://fraternalilab.cs.ucl.ac.uk/VCAb/で無料でアクセス可能です。VCAbデータベースを生成し、オンラインのR shinyアプリケーションを利用するためのソースコードはhttps://github.com/Fraternalilab/VCAbにて提供されており、ユーザーはローカルのVCAbインスタンスを設定することができます。

VCAb: A web-tool for structure-guided antibody engineering
Guo, D., Ng, J. C., Dunn-Walters, D., Fraternali, F. 2024-06-07 http://biorxiv.org/cgi/content/short/2024.06.05.597540v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 12: 論文「 CEBPB as a potential biomarker for prognosis and immuneinfiltration in clear cell renal cell carcinoma 」の内容を詳しく説明してください。

この論文では、クリアセル腎細胞癌(ccRCC)という進行性が高く予後が悪い腎癌のサブタイプにおいて、CCAAT/enhancer-binding protein beta(CEBPB)遺伝子の発現および臨床的意義について研究しています。TCGA、UCSC XENA、cBioPortalからRNAシークエンシング、遺伝子増幅、変異データを取得し、STARワークフローとRソフトウェアを使用してデータ処理、統計解析、可視化を行いました。実験的検証は、58人の患者組織サンプルに対する免疫組織化学およびRT-qPCRを用いて行われました。機能的経路エンリッチメントはGO-KEGGとGSEA解析を使用し、PPIネットワークはSTRINGとCytoscapeで構築されました。免疫浸潤および生存分析はスピアマン相関とコックス回帰モデルを使用して行われました。

その結果、ccRCC組織では隣接する正常組織と比較してCEBPBの発現が有意に高いことが示されました。臨床変数のグループ化により、CEBPBの発現における有意な差異が指摘されました。エンリッチメント解析により、補体および凝固カスケード、炭素代謝に関与していることが特定されました。PPIネットワークでは、STAT3およびEP300との強い相互作用が強調されました。免疫浸潤解析では、複数の免疫細胞タイプとの有意な相関が明らかにされました。高いCEBPB発現は悪い予後と関連しており、ccRCCに対する高い診断精度を示しました。

この研究はCEBPBがccRCCの予後と免疫浸潤における潜在的なバイオマーカーである可能性を示唆しており、その発現がccRCCの診断と治療の戦略において重要な役割を果たすことを示しています。

CEBPB as a potential biomarker for prognosis and immuneinfiltration in clear cell renal cell carcinoma
Ren, Y., Qiao, B., Wei, M., Tian, Q., Guo, W. 2024-06-07 http://biorxiv.org/cgi/content/short/2024.06.05.597653v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 13: 論文「 Protein Design with StructureGPT: a Deep Learning Model for Protein Structure-to-Sequence Translation 」の内容を詳しく説明してください。

論文「Protein Design with StructureGPT: a Deep Learning Model for Protein Structure-to-Sequence Translation」では、タンパク質の三次元構造をアミノ酸配列に逆変換することに焦点を当てた新しいディープラーニングモデルであるStructureGPTについて紹介されています。この研究は、タンパク質の機能を理解し、エンジニアリングするための重要なステップであり、特に製薬開発や産業応用に不可欠な溶解性や安定性の向上に貢献することを目的としています。

従来の計算ツールは、主にシーケンスから構造への予測に焦点を当てていましたが、StructureGPTは構造からシーケンスへのプロセスに注目しています。このモデルは、自然言語処理技術を応用し、複雑なタンパク質の三次元構造から対応するアミノ酸配列を翻訳します。

StructureGPTは、詳細な構造入力から自己回帰的にアミノ酸配列を生成する能力を示しており、特定の機能を持つタンパク質の設計を強化します。タンパク質構造と人間の言語の間の言語的類似性を活用することで、このモデルは高い精度でシーケンスを予測するだけでなく、タンパク質の特性を改善する可能性のある変更を提案することもできます。

StructureGPTの複数のタンパク質設計タスクへの応用は、バイオメディカルおよびバイオテクノロジーのさまざまな文脈でのその有用性を示しています。

このモデルのソースコードは、https://github.com/StructureGPT にて無料で公開されており、DOI: 10.5281/zenodo.11065607でアクセス可能です。この研究は、タンパク質設計の分野における重要な進歩を示しており、将来の製薬や産業応用に大きな影響を与える可能性があります。

Protein Design with StructureGPT: a Deep Learning Model for Protein Structure-to-Sequence Translation
Zalba, N., Ursua-Medrano, P., Bustince, H. 2024-06-07 http://biorxiv.org/cgi/content/short/2024.06.03.597105v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 14: 論文「 Exploring intra- and intergenomic variation in haplotype-resolved pangenomes 」の内容を詳しく説明してください。

この論文「Exploring intra- and intergenomic variation in haplotype-resolved pangenomes」では、ハプロタイプ解決(フェーズド)ゲノムアセンブリ内およびゲノム間の変異を分析するための新しい戦略について説明しています。長読みシーケンスとアセンブリ技術の進歩により、フェーズドゲノムアセンブリが植物ゲノミクスの分野でも一般的になりつつあります。特に多倍体ゲノムについて、これらのフェーズドゲノムを効果的に探索する計算ツールは現在限られています。そこで著者らは、パンゲノムアプローチを採用する新戦略を提案しています。

ソフトウェアパッケージPanToolsを多倍性を認識するように更新し、パンゲノムグラフの表現を改良し、シンテニーと遺伝子保持を評価するための新機能や、リピートのプロファイリング、同義および非同義突然変異率の計算などの機能を追加しました。PanToolsを使用して、1つの二倍体および4つの四倍体のジャガイモ品種からなるパンゲノムと、5つの二倍体リンゴ種からなるパンゲノムを構築し分析しました。これらのパンゲノムは、遺伝子の存在/不在、SNP、インデル、およびより大きな構造変異の点で高い内部および間ゲノムの遺伝的多様性を示しました。

著者らの発見によると、新しい機能と視覚化ツールは、フェーズドゲノム内のイントログレッション(遺伝子の導入)を発見し、おそらく誤ったアセンブリを検出するのに有用であることが示されました。PanToolsはhttps://git.wur.nl/bioinformatics/pantoolsで利用可能です。

Exploring intra- and intergenomic variation in haplotype-resolved pangenomes
Jonkheer, E. M., de Ridder, D., van der Lee, T. A. J., de Haan, J. R., Berke, L., Smit, S. 2024-06-06 http://biorxiv.org/cgi/content/short/2024.06.05.597558v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 15: 論文「 ComputAgeBench: Epigenetic Aging Clocks Benchmark 」の内容を詳しく説明してください。

「ComputAgeBench: Epigenetic Aging Clocks Benchmark」という論文は、長寿薬の臨床試験の成功が統合的な健康と加齢のバイオマーカーの同定に大きく依存していることを背景にしています。その中でも、生物学的年齢というバイオマーカーが重要です。エピジェネティック・エイジング・クロックは、個人のDNAメチル化プロファイルを使用して生物学的年齢を予測するもので、通常は血液サンプルから取得されます。しかし、エピジェネティック・クロックモデルを検証し比較するための標準化された方法論はまだ存在しません。

この論文では、ComputAgeBenchという統一的なフレームワークを提案しています。このフレームワークは、様々な臨床的に関連するエイジング・クロックを総合的にベンチマークするための方法論とデータセットを含んでいます。提案された方法論は、信頼性のあるエイジング・クロックが健康な個人と加齢が加速する状態にある個人を区別できなければならないという核心的な考えを利用しています。具体的には、異なる年齢と加速する状態にある19の条件をカバーする66の公開データセットの血液DNAメチル化データを収集し、調和させ、13の公表されたクロックモデルをテストしました。

この研究は、信頼性のある健康と加齢のバイオマーカーに関する研究のために、加齢生物学と機械学習の分野をより緊密に結びつけることに貢献すると考えられています。

ComputAgeBench: Epigenetic Aging Clocks Benchmark
Kriukov, D., Efimov, E., Kuzmina, E. A., Khrameeva, E. E., Dylov, D. V. 2024-06-06 http://biorxiv.org/cgi/content/short/2024.06.06.597715v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 16: 論文「 Molecular modeling of Proteinase-Activated Receptor 1 in complex with Thrombin Receptor Activator Peptide 6. 」の内容を詳しく説明してください。

この論文では、プロテアーゼ活性化受容体1(PAR1)とその活性化因子であるトロンビン受容体活性化ペプチド6(TRAP6)の複合体の構造について研究しています。PAR1とTRAP6は、止血、血栓形成、がん進行など、さまざまな生理的・病理的プロセスにおいて重要な役割を果たしています。PAR1とTRAP6の相互作用については多くの実験的手法を用いて研究されてきましたが、PAR1のような膜タンパク質の研究は技術的な困難さから構造データが不足しています。

この研究では、統合モデリング手法を用いてPAR1-TRAP6複合体の構造を解明することを目的としています。最先端のAIベースのタンパク質モデリングツールであるAlphaFold2やESMFOLDを活用し、物理ベースの手法であるHADDOCKを組み合わせて予測を精緻化しました。予測された構造は、文献で利用可能な実験データと良い一致を示しています。

モデルは、TRAP6のF2とPAR1のY360の間に新しいT字型のπ-スタッキング相互作用を明らかにしました。深層学習モデルの予測と物理ベースの手法を組み合わせた統合モデリングアプローチは、膜タンパク質の構造を高い信頼性で解決するための有望な戦略であることが示されています。PAR1-TRAP6複合体のモデルは、TRAP6によるPAR1の活性化に関するさらなる研究の出発点となるでしょう。

Molecular modeling of Proteinase-Activated Receptor 1 in complex with Thrombin Receptor Activator Peptide 6.
Reboul, E., Hamawi, D., Pasquali, S., Gaussem, P., Rossi, E., Taly, A. 2024-06-06 http://biorxiv.org/cgi/content/short/2024.06.05.597686v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 17: 論文「 A Regularized Bayesian Dirichlet-multinomial Regression Model for Integrating Single-cell-level Omics and Patient-level Clinical Study Data 」の内容を詳しく説明してください。

この論文では、個々の患者のフェノタイプによって異なる細胞の種類の豊富さに関する研究が述べられています。患者間、さらには同じフェノタイプを持つ患者の間でも、細胞の種類の豊かさは大きく異なることがあります。さらに、年齢、性別、ライフスタイルの習慣などの他の臨床変数も、特定の細胞の種類の豊かさに影響を与えるという証拠が増えてきています。しかし、シングルセルレベルのオミクスデータと患者レベルの臨床データを統合する現在の方法は不十分です。

この研究では、シングルセルRNAシークエンスデータと患者レベルの臨床データとの関係を調査するための正則化ベイジアン・ディリクレ多項回帰フレームワークを提案しています。このモデルは、異なる細胞型レベルでの関係を特定するために、新しい階層的ツリー構造を使用します。モデルは、肺線維症、COVID-19、非小細胞肺がんという3つの異なる疾患にわたって、特定の細胞の種類と臨床変数との間の有意な関連を明らかにすることに成功しています。

この統合分析は生物学的な洞察を提供し、さまざまな疾患に対する臨床介入を知らせる可能性があります。つまり、この研究はシングルセルオミクスデータと患者レベルの臨床データを統合し、疾患に関連する細胞の種類と臨床変数との関連を解明することを目的とした新しい統計モデルを提案しています。これにより、個々の患者に対するより個別化された治療戦略の開発に貢献することが期待されます。

A Regularized Bayesian Dirichlet-multinomial Regression Model for Integrating Single-cell-level Omics and Patient-level Clinical Study Data
Guo, Y., Yu, L., Guo, L., Xu, L., Li, Q. 2024-06-06 http://biorxiv.org/cgi/content/short/2024.06.04.597391v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 18: 論文「 AnnoDUF: A Web-Based Tool for Annotating Functions of Proteins having Domains of Unknown Function (DUFs) 」の内容を詳しく説明してください。

論文「AnnoDUF: A Web-Based Tool for Annotating Functions of Proteins having Domains of Unknown Function (DUFs)」では、高スループットなゲノミクスおよびプロテオミクスのシーケンシング手法によって生物学的シーケンスデータベースが急速に拡大している中、多くの同定されたタンパク質シーケンスが不明瞭または不完全な機能注釈を持っているという問題に対処しています。DUFs(Domains of Unknown Function)は、機能注釈がないが多くのタンパク質に存在するタンパク質ドメインです。

この問題に対応するため、論文ではDUFの機能注釈を見つけるための計算手法を開発しています。この手法はPSI-BLASTとデータマイニング技術を利用して、これらの謎のタンパク質ドメインを効率的に同定し注釈付けを行います。このパイプラインはDUFの潜在的な機能を推定し、既知のシーケンスと機能との間のギャップを減少させることを目指しています。また、ユーザーが入力したシーケンスに対しても注釈を付けることができます。

実際に、このパイプラインをPfamから取得した4,775個のユニークなDUFシーケンスに実行し、そのうち1,971個に対して推定された注釈を付けました。これらの注釈はその後、包括的なデータベースに組み込まれ、'AnnoDUF'というウェブベースのサーバーとインターフェースされました。AnnoDUFは、学術界および産業界の両方のユーザーが、World Wide Webを介してhttp://bts.ibab.ac.in/annoduf.phpのリンクで無料でアクセスできるようになっています。

要約すると、この論文は未知の機能を持つタンパク質ドメイン(DUF)の機能注釈を付けるためのウェブベースツールAnnoDUFを開発し、その有効性を示しており、生物学的シーケンスデータの機能的理解を進めるための重要なステップを提供しています。

AnnoDUF: A Web-Based Tool for Annotating Functions of Proteins having Domains of Unknown Function (DUFs)
Vishwakarma, A. T., Padmashali, N., Thiyagarajan, D. S. 2024-06-06 http://biorxiv.org/cgi/content/short/2024.06.05.597330v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 19: 論文「 Understanding the Sources of Performance in Deep Learning Drug Response Prediction Models 」の内容を詳しく説明してください。

この論文「Understanding the Sources of Performance in Deep Learning Drug Response Prediction Models」では、がん細胞株を用いた抗がん剤反応予測(DRP)のための深層学習(DL)モデルについて検討されています。個別化医療や薬剤発見において、DRPは重要な役割を果たしています。近年、DLモデルを用いたDRPが注目され、性能の向上が示されています。しかし、これらのモデルは異なる入力データのモダリティやニューラルネットワークのアーキテクチャを使用しているため、性能向上の原因を特定することが困難です。

論文では、状態-of-the-artのパフォーマンスを報告している3つのDL DRPモデルを検討し、これらのモデルが細胞株のゲノミクスまたはトランスクリプトミクスプロファイル、および薬剤の化学プロファイルを入力データとして使用していることを示しています。また、オミクスや化学プロファイルを使用せず、真理値のパターンを単純に活用するヌル仮説ベンチマークを構築しています。

DLモデルを実験し、ヌル仮説ベンチマークと比較することで、複数のテストタイプにおいて、現在報告されているパフォーマンスの多く、または全てが訓練データの真理値の特性によるものであることを示しています。さらに、未知の細胞株に対するがん盲検テスト(cancer blind testing)では、薬剤の特徴からはパフォーマンスが生じず、パフォーマンスはトランスクリプトミクス細胞株プロファイルによるものであることを示しています。

この研究は、DLモデルが実際にどのようなデータから学習しているのか、そしてその性能がどのような要因によって決定されているのかについて理解を深めることに寄与しています。これにより、今後のDRPモデルの開発において、より効果的なアプローチが導かれることが期待されます。

Understanding the Sources of Performance in Deep Learning Drug Response Prediction Models
Branson, N., Cutillas, P. R., Bessant, C. 2024-06-06 http://biorxiv.org/cgi/content/short/2024.06.05.597337v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 20: 論文「 ProToDeviseR: an automated protein topology scheme generator 」の内容を詳しく説明してください。

論文「ProToDeviseR: an automated protein topology scheme generator」では、ProToDeviseRというRパッケージを紹介しています。このツールは、タンパク質のトポロジー図を自動で生成するためのものです。タンパク質のアミノ酸配列の特徴を理解することは、タンパク質分析において非常に重要であり、明瞭かつ簡潔なタンパク質のトポロジー図を作成することはプロテオミクス研究において重要です。多数のデータベースや予測サーバーが存在するものの、異なる、時には矛盾する情報源からのデータを出版準備の図に統合することは困難です。

ProToDeviseRは、データベースのアクセス番号、複数の予測サーバーからの生の結果、または手動で準備された特徴の表からタンパク質のトポロジー図を自動生成することができます。このアプリケーションにはグラフィカルユーザーインターフェースが備わっており、R Shinyで実装されています。また、視覚的に魅力的な図を描画するためのPfamのドメインジェネレーターの強化版が含まれています。

ProToDeviseRは、UniProtやNCBI GenPeptデータベースに対して問い合わせを行い、容易かつ迅速にトポロジー図を生成することができることが示されています。さらに、さまざまな情報源からの特徴をエレガントに組み合わせることができます。

要するに、この論文はProToDeviseRという新しいツールを紹介しており、このツールを使用することで、研究者は異なるデータベースや予測ツールから得られる情報を統合し、タンパク質のトポロジー図を効率的に、しかも視覚的に魅力的な形で生成することが可能になると述べています。これにより、プロテオミクスの研究におけるデータの表現と理解が向上することが期待されます。

ProToDeviseR: an automated protein topology scheme generator
Petrov, P., Izzi, V. 2024-06-06 http://biorxiv.org/cgi/content/short/2024.06.04.597333v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 21: 論文「 EuDockScore: euclidean graph neural networks for scoring protein-protein interfaces 」の内容を詳しく説明してください。

この論文「EuDockScore: euclidean graph neural networks for scoring protein-protein interfaces」では、タンパク質-タンパク質相互作用のための改良されたスコアリング関数を提示しています。これらのスコアリング関数は最先端のユークリッドグラフニューラルネットワークアーキテクチャを利用しており、特にタンパク質-タンパク質ドッキングスコアリングや抗体-抗原インターフェースのスコアリングに焦点を当てています。

論文で紹介されているモデルは以下の通りです:

  1. EuDockScore: タンパク質-タンパク質ドッキングのためのスコアリングモデルで、ユークリッドグラフニューラルネットワークを用いています。

  2. EuDockScore-Ab: 抗体-抗原特有のインターフェースをスコアリングするためのモデルです。

  3. EuDockScore-AFM: AlphaFold-Multimerの出力に特化して調整された抗体-抗原特有のモデルであり、AlphaFoldのようなモデルによって学習されたエネルギー関数を抽出することができることを示しています。

  4. EuDockScore-AFSample: 最先端の複合体予測ツールであるAFSampleからのモデルをスコアリングするためのモデルです。

これらのモデルは、既存および新しいタンパク質生成モデルと組み合わせて、モデルのエネルギーを評価するために使用することができます。これにより、タンパク質間の相互作用インターフェースのより正確な予測が可能となり、生物学的な現象の理解や薬剤開発などに貢献することが期待されます。

また、これらのモデルのコードは公開されており、https://gitlab.com/mcfeemat/eudockscore で入手することができます。これにより、研究者は自分の研究にこれらのモデルを適用し、その有効性を検証することが可能です。

この論文では、単一のポリペプチドチェーンタンパク質の構造決定がディープラーニング技術によって革命を遂げた一方で、複合体予測はまだ完璧ではないという問題を指摘しています。実験的な構造決定は資源と時間が非常にかかる上、実行が困難であるため、計算ドッキング技術が代替手段として提案されています。計算ドッキングは、解かれたタンパク質の個々の構造を利用して候補となるインターフェース(デコイ)を生成し、スコアリング関数を用いてシステムのエネルギーを予測する方法です。

EuDockScore: euclidean graph neural networks for scoring protein-protein interfaces
McFee, M. C., Kim, J., Kim, P. M. 2024-06-06 http://biorxiv.org/cgi/content/short/2024.06.04.597410v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 22: 論文「 Gap-App: A sex-distinct AI-based predictor for pancreatic ductal adenocarcinoma survival as a web application open to patients and physicians 」の内容を詳しく説明してください。

この研究では、RNA-Seq遺伝子発現データと先進的な機械学習技術を用いて、男性と女性の膵管腺癌(PDAC)患者間で異なる遺伝子発現プロファイルを特定しました。この洞察に基づき、性別特有の3年生存予測モデルを開発し、それぞれ男性で88.47%、女性で88.94%の精度を達成しました。これらのモデルは、より小さなサンプルサイズにもかかわらず、一般的な単一モデルよりも優れた性能を示し、性別特有の分析の価値を強調しました。これらの発見に基づき、個々の遺伝子発現プロファイルに性別情報を組み合わせて個人化された生存予測を可能にするWebアプリケーションであるGap-Appを作成しました。Gap-Appは、複雑なゲノムデータと臨床応用との間のギャップを埋めることを目指す初のオンラインツールであり、より正確で個別化されたがんケアを促進する上で重要な進歩を示しています。この研究は、個別予後における性差を認識することの重要性を強調するだけでなく、従来のワンサイズフィットオール型の医療からより個別化されたターゲット型医療への移行の舞台を整えています。GAP-Appサービスは、www.gap-app.orgで無料で利用可能です。

Gap-App: A sex-distinct AI-based predictor for pancreatic ductal adenocarcinoma survival as a web application open to patients and physicians
Ojha, A., Zhao, S.-J., Zhang, J.-T., Simo, K. A., Liu, J.-Y. 2024-06-06 http://biorxiv.org/cgi/content/short/2024.06.04.597246v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 23: 論文「 CellFM: a large-scale foundation model pre-trained on transcriptomics of 100 million human cells 」の内容を詳しく説明してください。

「CellFM: a large-scale foundation model pre-trained on transcriptomics of 100 million human cells」という論文では、100万個のヒト細胞のトランスクリプトームデータに基づいて事前学習された大規模な基盤モデル「CellFM」の開発について述べられています。シングルセルシーケンシング技術の急速な進化により、細胞レベルでの正確なトランスクリプトームプロファイリングが可能になり、細胞集団内の複雑な異質性に光を当てることができるようになりました。しかし、細胞の多様性、ノイズ、バッチ効果、データのスパース性などの課題が存在し、これらを効果的に学習し表現する統一モデルが求められていました。

このギャップを埋めるために、シングルセル大規模言語モデル(LLMs)が開発されましたが、ヒト細胞に対する性能は限定的でした。これは、様々な種からのトレーニングデータの混在効果によるものであり、一つの種に対して利用可能な細胞が限られていることが一因と考えられます。

そこで、著者らは公共データベースやウェブサイトに預けられた様々なファイルタイプのヒトシングルセルデータセットから、約1億個のヒト細胞のデータセットをコンパイルしました。これら広範なデータコホートを活用して、800万パラメータを有する堅牢なシングルセル基盤モデル「CellFM」を開発しました。これは現在の最大の単一種モデルに比べて8倍の増加を示しています。

CellFMのトレーニングには、HuaweiのMindSpore AIフレームワークが使用され、効率と性能のバランスを取るために、線形複雑性を持つトランスフォーマーアーキテクチャの変種であるRetNetが統合されました。包括的な実験により、CellFMは細胞アノテーション、摂動予測、遺伝子機能予測など、様々なアプリケーションにおいて既存のモデルを上回る性能を発揮することが示されました。

CellFM: a large-scale foundation model pre-trained on transcriptomics of 100 million human cells
Zeng, Y., xie, j., Wei, Z., Su, Y., Shangguan, N., Yang, S., Zhang, C., Li, W., Zhang, J., Fang, N., Zhang, H., Zhao, H., Lu, Y., Fan, J., Yu, W., Yang, Y. 2024-06-06 http://biorxiv.org/cgi/content/short/2024.06.04.597369v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 24: 論文「 Baikal: Unpaired Denoising of Fluorescence Microscopy Images using Diffusion Models 」の内容を詳しく説明してください。

「Baikal: Unpaired Denoising of Fluorescence Microscopy Images using Diffusion Models」という論文では、蛍光顕微鏡画像のデノイジング(ノイズ除去)に関する新しい手法が提案されています。この手法は、ペアになっていないノイジーな画像とクリーンな画像を必要とせずに、高品質なデータセットから情報を学習することができる点が特徴です。

従来のデノイジング手法は、監視下での学習が一般的であり、ノイジーな画像とクリーンな画像のペアが必要でした。これにより、多様なデータセットへの適用が制限されていました。また、自己監督型のデノイジングモデルもありますが、これらはサンプル間の独立したノイズを仮定しており、利用可能なペアでないクリーンな画像からの一般化ができませんでした。

この論文では、Denoising Diffusion Probabilistic Models(DDPM)を使用して、ペアになっていないデータから学習し、利用可能な高品質な画像から情報を使用できるフレームワーク「Baikal」を初めて提案しています。まず、DDPMのバックボーンを無条件でトレーニングし、顕微鏡画像の複雑な形態に関する生成的事前知識を学習します。次に、訓練されたモデルからサンプリングするために様々な条件付け戦略を適用し、所望の画像をデノイズするための最適な戦略を提案しています。

複数のデータセットにわたって行った広範な定量的比較により、Baikalが自己監督型の最先端手法よりも優れたパフォーマンスを発揮することが示されています。特に、他の手法が失敗する複雑なFlywingの形態学的構造のデノイジングにおいて、DDPMによって学習された生成的事前知識の利点が強調されています。

総じて、このDDPMに基づくデノイジングフレームワークは、ペアになった高品質な画像の収集なしに高いパフォーマンスを達成する蛍光顕微鏡データセットのための新しいクラスのデノイジング手法を提示しています。GitHubリポジトリのURLも提供されており、そこから関連するコードやデータを入手することができます。

Baikal: Unpaired Denoising of Fluorescence Microscopy Images using Diffusion Models
Chaudhary, S., Sankarapandian, S., Sooknah, M., Pai, J., McCue, C., Chen, Z., Xu, J. 2024-06-06 http://biorxiv.org/cgi/content/short/2024.06.04.597486v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 25: 論文「 Cancer radiomic feature variations due to reconstruction kernel choice and integral tube current. 」の内容を詳しく説明してください。

この論文では、放射線腫瘍イメージング特徴(ラジオミクス特徴)が病気の診断や治療反応の予測に役立つが、ベンダーやスキャナー、プロトコル、さらには再構成ソフトウェアのバージョンによる変動が臨床でのラジオミクス特徴の使用を困難にしていると述べています。この研究は、CTスキャンから抽出されたラジオミクス特徴に対する再構成カーネルの違いと積分管電流設定の影響を特徴づけることを目的としています。

方法として、3Dプリントされたファントム(5つの印刷された腫瘍を含む)のCTスキャンからCERRソフトウェアシステムを使用して282の特徴が抽出されました。バッチ効果は主成分分析(PCA)と相関測定によって評価されました。堅牢性は一致相関係数(CCC)とピアソン相関係数を使用して測定されました。統計解析はRソフトウェアを使用して実施されました。

結果として、PCAはStandard、ASIRs、ASIRV、およびsoftカーネルを含む一方のクラスターと、LungおよびBoneカーネルを含む他方のクラスターの2つを識別しました。特徴はASIR10からASIR50、ASIRV1からASIRV5への勾配を示し、Standard Kernel特徴値に近いことが示されました。特徴相関行列はASIRs、ASIRVs、およびStandard Kernelでほとんど変化がないことを示しましたが、BoneおよびLung Kernelの結果においては顕著な変化が示されました。Combatアルゴリズム補正は堅牢性、特に第一次統計特徴の改善に寄与し、ASIRsおよびstandard kernelによるバッチ効果を緩和しました。282の特徴のうち40個が堅牢であると同定されました。しかし、Combatベースの補正はBoneおよびLung再構成カーネルの調和にはあまり効果がありませんでした。

結論として、カーネル再構成の選択による平均および中央値のラジオミクス特徴の堅牢性が示されている一方で、他の多くのラジオミクス特徴は堅牢ではないことが示され、これは現在の調和方法ではカーネル再構成の影響が十分に対処されていないことを示唆しています。

Cancer radiomic feature variations due to reconstruction kernel choice and integral tube current.
Salanon, E. M. B., Fu, A., Apte, A. P., Mahmood, U., Belkhatir, Z., Shukla-Dave, A., Deasy, J. O. 2024-06-06 http://biorxiv.org/cgi/content/short/2024.06.04.596806v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 26: 論文「 Hayai-Annotation v3.0: A functional gene prediction tool that integrates orthologs and gene ontology for network analysis 」の内容を詳しく説明してください。

論文「Hayai-Annotation v3.0: A functional gene prediction tool that integrates orthologs and gene ontology for network analysis」では、機能的アノテーションを行うためのRパッケージであるHayai-Annotation v3について説明しています。このツールは、R-Shinyブラウザインターフェースと統合されており、機能アノテーションのために2つの方法を利用しています。1つ目は、UniProtKB Plantsデータベースを使用したシーケンスアライメントのためのDIAMONDです。2つ目は、オーソログ(種間での相同遺伝子)の推定のための公式OrthoDBツールであるOrthoLogerです。

Hayai-Annotation v3のGO(Gene Ontology)エンリッチメントの精度は、CAFA-evaluatorによって評価され、その精度はベンチマークであるBLAST2GOと比較して同等であることが示されました。この論文では、オーソログと遺伝子オントロジー(分子機能と生物学的プロセス)を共起表から相関させることによって、ゲノムの進化と適応を異なる視点から探索する方法を提案しています。このアプローチにより、オーソログと遺伝子オントロジー用語を関連付けることで、特徴づけられていない遺伝子の機能推定能力が向上し、異なる種間での共起パターンに相関する遺伝子数の分布を視覚化する能力が強化されます。

論文では、オーソログとGO(分子機能と生物学的プロセス)を相関させて遺伝子ネットワークを構築する初の試みであり、遺伝子の分布と機能について包括的で種を越えた視点を提供すると述べています。Hayai-Annotation v3は、以前のバージョンの利便性を維持しつつ、オーソログ分析機能を強化し、遺伝子配列から進化的な洞察を得ることを可能にします。Hayai-Annotation v3は、植物ゲノム解析の将来の発展に大きく貢献することが期待されています。

Hayai-Annotation v3.0: A functional gene prediction tool that integrates orthologs and gene ontology for network analysis
Ghelfi, A., Isobe, S. 2024-06-06 http://biorxiv.org/cgi/content/short/2024.06.05.597500v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 27: 論文「 IMMUNOTAR - Integrative prioritization of cell surface targets for cancer immunotherapy 」の内容を詳しく説明してください。

論文「IMMUNOTAR - Integrative prioritization of cell surface targets for cancer immunotherapy」では、がん免疫療法のための標的候補を系統的に優先順位付けし、同定する計算ツールIMMUNOTARの開発について述べられています。IMMUNOTARは、ユーザーが提供したRNAシーケンスデータやプロテオミクスデータを、公開データベースから抽出された定量的な特徴と統合し、最適な免疫療法標的基準に基づいて潜在的な表面タンパク質標的を定量的に優先順位付けします。

このツールは、3つの異なるデータセットを使用してその有用性と柔軟性を示し、分析されたがん表現型において、既知の潜在的な免疫療法標的だけでなく、新たな潜在的な標的も同定する効果を検証しています。IMMUNOTARによって、複数のソースからのデータを統一されたプラットフォームに集約することが可能となり、ユーザーは様々な基準を横断して表面タンパク質を同時に評価することができます。

結局のところ、IMMUNOTARは標的同定のプロセスを合理化することにより、研究者が資源を効率的に割り当て、免疫療法の開発を加速することを可能にします。全体的に、このツールはがん治療の分野における免疫療法の標的同定という課題に対処するための有力なアプローチを提供しており、がんの死亡率を減少させるための新たな治療法の開発に貢献する可能性を秘めています。

IMMUNOTAR - Integrative prioritization of cell surface targets for cancer immunotherapy
Shraim, R., Mooney, B., Conkrite, K. L., Weiner, A. K., Morin, G. B., Sorensen, P. H., Maris, J. M., Diskin, S. J., Sacan, A. 2024-06-06 http://biorxiv.org/cgi/content/short/2024.06.04.597422v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 28: 論文「 Single-cell and spatial transcriptome characterize coinhibitory cell-cell communications during histological progression of lung adenocarcinoma 」の内容を詳しく説明してください。

この論文では、肺腺癌の組織学的進行における異なる組織学的パターン(レピディック、乳頭状、腺房状、固形)を示す腫瘍組織から得られた単一細胞トランスクリプトームデータの比較分析を行いました。分析を通じて、PD1-PDL1、PVR-TIGIT、TIGIT-NECTIN2といった共抑制受容体-リガンド相互作用が明らかにされ、これらがM2型マクロファージやTreg(調節性T細胞)などの免疫抑制細胞の肺腺癌(LUAD)腫瘍へのリクルートに重要な役割を果たし、免疫抑制マイクロ環境を確立し、T細胞の消耗状態を誘導する可能性が示唆されました。さらに、これらの共抑制因子、特にNECTIN2やPVRの発現レベルは、免疫浸潤の低下、不良な患者の臨床結果、免疫療法の効果の限界と強く相関していました。

その後、免疫蛍光アッセイと空間的トランスクリプトームシーケンシングを実施し、典型的な共抑制因子の空間的共局在を検証しました。この研究は、肺腺癌の組織学的進行中に免疫抑制マイクロ環境に至る分子的、細胞的相互作用の多様性について貴重な洞察を提供しています。これらの発見は、肺癌のための新しい免疫療法の開発を促進する可能性があります。

Single-cell and spatial transcriptome characterize coinhibitory cell-cell communications during histological progression of lung adenocarcinoma
Liu, H., Gao, Q., Luo, J. 2024-06-06 http://biorxiv.org/cgi/content/short/2024.06.04.597379v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 29: 論文「 Modeling nascent transcription from chromatin landscape and structure 」の内容を詳しく説明してください。

本論文では、単一のゲノム配列から異なる細胞タイプとそれに関連する機能が、特定の領域が発現される一方で他の領域が沈黙していることによって生じることに焦点を当てています。このような遺伝子の発現とその潜在的な機能不全を異なる細胞コンテキストでモデリングすることは、発達と疾患の両方を理解する上で重要です。

研究者たちは、クロマチンのランドスケープ(風景)と3D構造を記述する異なるデータモダリティを統合することができる、エピジェネティックベースのディープニューラルネットワークである「Chromatin Landscape and Structure to Expression Regressor (CLASTER)」を紹介しています。CLASTERは、これらをキロベースペア解像度で測定された新生転写レベルに効果的に変換することができ、EU-seqによって測定されます。予測は、DNA配列に依存せず、明示的に抽出されたクロマチンの特徴も使わずに、バイナリレベルと遺伝子レベルの両方で、ターゲットとのピアソン相関係数がr=0.86以上に達しました。

モデルは予測されたローカスから10 kbp以内にある情報を主に使用しており、1 Mbpの広範囲なゲノム領域が利用可能であったとしてもこの傾向は変わりませんでした。マルチヘッドアテンションを使用して長距離相互作用を明示的にモデリングし、高解像度のクロマチン接触マップを使用しても、モデルの性能にはほとんど影響を与えませんでしたが、モデルはこれらの入力で新生転写に影響を与える要素を正しく識別していました。

訓練されたモデルは、シミュレートされたエピジェネティックな沈黙の摂動が転写に与える影響を予測するプラットフォームとして機能しました。結果は、遺伝子のコンテキスト固有の転写を形作るのは、遺伝子を取り巻くクロマチン環境の変化であり、むしろ局所的で統合的かつ組み合わせ的な遺伝子調節のパラダイムを示唆しています。

著者たちは、現在の機械学習アプローチの限界とその主に局所性が、ゲノムの組織の本質的な特徴として現れる可能性があると結論づけており、これは将来のモデリングアプローチに広範な意味を持つとしています。

Modeling nascent transcription from chromatin landscape and structure
Pielies Avelli, M., Sigurdsson, A. I., Narita, T., Choudhary, C., Rasmussen, S. 2024-06-06 http://biorxiv.org/cgi/content/short/2024.06.04.597340v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 30: 論文「 Cell-Graph Compass: Modeling Single Cells with Graph Structure Foundation Model 」の内容を詳しく説明してください。

「Cell-Graph Compass: Modeling Single Cells with Graph Structure Foundation Model」という論文では、単一細胞RNAシーケンスデータを用いて、細胞をグラフ構造を利用してモデル化する新しい基盤モデル「Cell-Graph Compass (CGC)」を紹介しています。これまでの研究では、トランスフォーマーモデルを大規模な単一細胞シーケンスデータに事前学習させ、様々な下流タスクに微調整することで顕著な性能を達成していましたが、遺伝子間の複雑な相互作用を単純化し、テキストデータ用に設計されたトランスフォーマーアーキテクチャを遺伝子に人為的な連続構造を課すという共通の短所がありました。また、これらのモデルはトランスクリプトームデータのみに焦点を当てており、他の関連する生物学的情報を無視していました。

CGCモデルは、これらの問題に対処するために設計されています。CGCは、細胞の転写プロファイル、遺伝子テキスト要約、転写因子の調節ネットワーク、遺伝子共発現パターン、遺伝子の位置関係など、複数の視点から細胞を記述することができます。自己注意メカニズムを取り入れることで、モデルは5千万個の人間の単一細胞シーケンスデータに事前学習され、細胞の堅牢なデジタル表現を生み出しました。広範な下流実験により、CGCアプローチが有意義な生物学的知識を捉え、様々な問題シナリオにおいて優れた結果を達成し、最先端(SOTA)を実現していることが示されています。

要するに、CGCは、遺伝子間の複雑な関係性を維持しつつ、多様な生物学的情報を統合することにより、単一細胞の理解を深めるための新しい基盤モデルとして提案されています。このモデルは、単一細胞の研究における新たなパラダイムを示唆し、生物学的な洞察の獲得と疾患診断、治療法の開発などに貢献する可能性があります。

Cell-Graph Compass: Modeling Single Cells with Graph Structure Foundation Model
Fang, C., Hu, Z., Chang, S., Long, Q., Cui, W., Liu, W., Li, C., Liu, Y., Wang, P., Meng, Z., Pan, J., Zhou, Y., Feng, G., Chen, L., li, x. 2024-06-06 http://biorxiv.org/cgi/content/short/2024.06.04.597354v1

この記事が気に入ったらサポートをしてみませんか?