見出し画像

Recent BioRxiv on bioinformatics: June 06, 2024

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 1: 文脈として与えられた最新論文の内容を詳しく説明してください。

「nyemtaay」というPythonパッケージについて紹介します。このパッケージは、古典的な集団遺伝学の統計を計算するだけでなく、情報理論を用いてメタ集団ネットワーク内の遺伝子流のネットワーク接続と方向性を推測することができます。この遺伝子情報流のネットワーク推論アプローチは、生態学や進化学の研究だけでなく、例えばがん生物学においても応用可能であり、転移性腫瘍におけるクローン細胞の起源を分析するのに有用です。

我々のパッケージの有用性は、シミュレーションと転移性がん細胞系統の分析を通じて実証されています。特に、がんネットワークにおける起源の組織サイトを同定する能力を示しています。この研究は、遺伝子流の方向性を解釈する際に、人口史や創始者効果を考慮することの重要性を強調しており、この理解の利点は、このアプローチを遺伝子流ネットワークモデリングに応用し、より広範な領域に達することを可能にしています。

Information theoretic inference of magnitude and direction of gene flow in metapopulation networks using nyemtaay, with potential for applications in metastasizing cancer clonal cell origin analysis
Ortiz-Velez, A., Sukumaran, J. 2024-06-05 http://biorxiv.org/cgi/content/short/2024.06.04.596026v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 2: 文脈として与えられた最新論文の内容を詳しく説明してください。

ナノポアシークエンシングは、DNAやRNAを直接シークエンスし、数百キロベースからメガベースにも及ぶ長いリード長を実現する技術であり、トランスクリプトーム学やその他のオミクス研究分野で大きな可能性を秘めています。しかし、この技術は塩基の同定における限定的な精度のために、その広範な応用が制限されていました。DNAデコーディングの改善を目的とした多くのアルゴリズムが開発されている一方で、RNAシークエンシングの進展は限定的です。

この課題に対処するために、我々はGCRTcallという新しいアプローチを導入しました。これはトランスフォーマーアーキテクチャをゲート付き畳み込みネットワークと相対位置エンコーディングと統合したもので、RNAシークエンシングシグナルのデコードに使用されます。我々の評価によると、GCRTcallはRNAベースコールの分野において最先端の性能を達成しています。

GCRTcallは、RNAシークエンシングのデータから塩基配列を正確に読み取るためのツールであり、特にトランスフォーマーアーキテクチャを活用しています。トランスフォーマーは、自然言語処理で広く用いられているアーキテクチャで、大量のデータから複雑なパターンを学習する能力があります。これにゲート付き畳み込みネットワークを組み合わせることで、シークエンシングデータの局所的な特徴とグローバルな依存関係の両方を捉えることができます。さらに、相対位置エンコーディングを用いることで、シークエンス内の塩基の相対的な位置関係をより適切にモデル化することが可能になります。

GCRTcallの開発により、RNAシークエンシングの精度が向上し、より正確な塩基配列の読み取りが可能になることが期待されます。これにより、トランスクリプトーム解析をはじめとする多くのバイオインフォマティクスの分野での応用が拡大することが予測されます。

GCRTcall: a Transformer based basecaller for nanopore RNA sequencing enhanced by gated convolution and relative position embedding via joint loss training
Li, Q., Sun, C., Wang, D., Lou, J. 2024-06-04 http://biorxiv.org/cgi/content/short/2024.06.03.597255v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 3: 文脈として与えられた最新論文の内容を詳しく説明してください。

融合オンコタンパク質は、染色体の転座から生じるキメラタンパク質の一種で、特に小児がんにおいて重要な役割を果たしています。これらのタンパク質は本質的に無秩序で大きく、明確な薬剤結合部位がないため、治療的なターゲットとしては歴史的に困難でした。小分子ベースの方法や構造ベースのバインダーデザインアプローチは、この種の分子にはあまり強くありません。

最近、プロテイン言語モデル(pLM)は、タンパク質の配列情報を豊富に含んだ埋め込みを表現することに成功し、配列だけからの下流デザインアプリケーションを可能にしました。しかし、現在のpLMは融合オンコタンパク質の配列には訓練されておらず、これらのタンパク質に最適な表現を生成することはできませんでした。

この研究では、FusOn-pLMという新しいpLMを紹介しています。これは、融合オンコタンパク質の配列に焦点を当てて、最先端のESM-2モデルをファインチューニングしたものです。特に、バインディングサイトの確率予測器を使用して、重要なアミノ酸残基にマスキングを集中させる新しいマスク言語モデリング(MLM)戦略を導入し、より最適な融合オンコタンパク質認識の埋め込みを生成しています。

私たちのモデルは、融合オンコタンパク質特有のベンチマークと無秩序予測タスクの両方で、ベースラインのESM-2表現および手作りの生物物理学的埋め込みに比べて性能が向上しています。これは、これらの融合をターゲットとする治療設計タスクにFusOn-pLMの埋め込みを下流で使用する動機付けとなります。私たちは、このモデルをコミュニティに公開しており、https://huggingface.co/ChatterjeeLab/FusOn-pLM でアクセスすることができます。

FusOn-pLM: A Fusion Oncoprotein-Specific Language Model via Focused Probabilistic Masking
Vincoff, S., Goel, S., Kholina, K., Pulugurta, R., Vure, P., Chatterjee, P. 2024-06-04 http://biorxiv.org/cgi/content/short/2024.06.03.597245v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 4: 文脈として与えられた最新論文の内容を詳しく説明してください。

与えられた文脈に基づいて、最新の論文の内容を詳しく説明します。

この論文では、生物学的な生命現象や治療戦略に不可欠な役割を果たしているタンパク質の翻訳後修飾(PTM)の多様性に焦点を当てています。PTMはタンパク質の機能や構造に影響を及ぼし、その場所を正確に予測することは科学的にも医学的にも重要です。

研究者たちは、PTMの位置を予測するために、シークエンスベースのディープラーニングアルゴリズムの使用を評価しています。具体的には、PTMの位置を別のアミノ酸としてコード化し、その後ワード埋め込みを使用してシーケンスをエンコードし、修飾が特定のサイトで発生する確率を予測するために畳み込みニューラルネットワーク(CNN)に入力しています。

論文では、既知のPTMサイトをラベリングせずにモデルを使用した場合でも、他のモデルと同等の性能を達成していることを示しています。しかし、既知のPTMをラベリングすることで、既存のモデルよりも大幅に改善されたことが明らかになりました。さらに、既知のPTMの位置を把握することで、異なるPTMの予測可能性を高めることができるとしています。

この研究の発見は、追加のPTMを導入する際に、PTMがどれだけ重要であるかを強調しています。研究者たちは、既知のPTMの位置を含めることで、プロテオミクスの機械学習アルゴリズムの性能が向上することを期待しています。

要するに、この論文はPTMの正確な位置予測がタンパク質の機能解析や病気の治療において重要であるとし、ディープラーニング技術を用いてPTMの位置予測の精度を向上させる方法を提案しています。そして、既知のPTM情報を組み込むことで予測精度が向上することを実証しています。

Sitetack: A Deep Learning Model that Improves PTM Predictionby Using Known PTMs
Gutierrez, C. S., Kassim, A. A., Gutierrez, B. D., Raines, R. T. 2024-06-04 http://biorxiv.org/cgi/content/short/2024.06.03.596298v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 5: 文脈として与えられた最新論文の内容を詳しく説明してください。

与えられた文脈は、公開されている生物医学的データの再利用が知識発見に大きな影響を与える可能性があるが、これらのデータは通常、非構造化されたプレーンテキストで記述されているため、データの発見性や再利用が妨げられているという問題提起から始まっています。この問題に対処するために、txt2onto 2.0という新しい手法が提案されています。これは自然言語処理と機械学習を基盤とした一般的な目的のメソッドで、非構造化メタデータを疾病や組織の制御された語彙に注釈付けするものです。

txt2onto 2.0は、以前のバージョン(txt2onto 1.0)が数値的な埋め込みを特徴として使用していたのに対し、単語を特徴として使用することで、特に正の訓練インスタンスが少ない場合に解釈性とパフォーマンスが向上しています。また、txt2onto 2.0は予測中に大規模な言語モデルからの埋め込みを使用して、入力テキスト中の未知ながら関連性のある単語に対処し、予測される各疾病および組織用語に関連する生物医学的概念を入力テキスト中で強調表示することで、すべての注釈の根拠を説明します。

この手法の汎用性を示すために、プロテオミクスや臨床試験など、独立したデータセットからの研究に対する疾病注釈の正確な予測を行っています。全体として、このアプローチは実験タイプやソースに関係なく生物医学テキストに注釈を付けることができます。コード、データ、訓練済みモデルはhttps://github.com/krishnanlab/txt2onto2.0で利用可能です。

Annotating publicly-available samples and studies using interpretable modeling of unstructured metadata
Yuan, H., Hicks, P., Ahmadian, M., Johnson, K., Krishnan, A. 2024-06-04 http://biorxiv.org/cgi/content/short/2024.06.03.597206v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 6: 文脈として与えられた最新論文の内容を詳しく説明してください。

この研究では、ホモロジカル・バーテックス・インポータンス・プロファイル(H-VIP)という新しい尺度を提案しており、これはトポロジカルデータ分析ツールであるパーシステントホモロジーを用いて、人間の脳の構造的および機能的コネクトームを分析するためのものです。パーシステントホモロジーは、ネットワーク内のサイクルや空洞などのトポロジカルな特徴を識別するための有用なツールです。このツールの重要性は、ネットワーク全体のグローバルな視点を提供することにあります。しかし、これらのトポロジカルな特徴に寄与するネットワークの頂点の相対的な重要性を正確に決定することには不足しています。私たちの目的は、ホモロジカルなサイクルの形成における各個々の頂点の寄与を定量化し、ローカルな接続性についての洞察を提供することです。

提案されたH-VIP尺度は、複数の分離度における頂点からの接続性情報を捉え、定量化し、圧縮し、各頂点に投影することができます。この尺度を用いて、ヒトコネクトームプロジェクトからの構造的コネクトームと、アルツハイマー病神経画像イニシアチブからの機能的コネクトームという2つの独立したデータセットを分析しました。私たちの発見は、様々な認知測定とH-VIPとの間に正の相関があることを示しており、解剖学的および機能的脳ネットワークの両方でこの相関が見られます。また、私たちの研究は、全脳ネットワークと比較して、前頭葉の接続性が認知パフォーマンスとより高い相関を持っていることを示しています。さらに、H-VIPは、潜在的に障害を受けた接続性を各被験者に対して容易に位置づけ、定量化し、視覚化するための尺度を提供し、神経疾患や障害に対するパーソナライズドメディシンの文脈での応用が考えられます。

Quantifying Contributions from TopologicalCycles in the Brain Network towards Cognition
Garai, S., Vo, S., Blank, L., Xu, F., Chen, J., Duong-Tran, D., Zhao, Y., Shen, L. 2024-06-04 http://biorxiv.org/cgi/content/short/2024.06.03.597217v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 7: 文脈として与えられた最新論文の内容を詳しく説明してください。

長読みシーケンシングの時代において、ゲノム研究者たちは、これまで短読みシーケンシングの限界により解読不可能な断片としてのみ観察されていた、正確な繰り返しDNAシーケンス(サテライトを含む)にアクセスできるようになりました。繰り返しシーケンスを注釈するツールは、新たに明らかになった繰り返しシーケンスをよりよく理解するため、また、これらの繰り返しシーケンスによって引き起こされるバイオインフォマティクスソフトウェアのエラーを軽減するために、今まで以上に重要です。この目的を達成するために、局所的に繰り返しのあるシーケンスを特定し注釈するためのツールであるULTRA(ULTRA Locates Tandemly Repetitive Areas)の1.0リリースを紹介します。ULTRAは、効率的なアノテーションパイプラインの一部として使用するのに十分な速さであり、多くの変異を含む繰り返し領域に対して信頼性の高いカバレッジを提供し、繰り返し領域に関する解釈可能な統計とラベルを提供します。オープンライセンスの下でリリースされ、https://github.com/TravisWheelerLab/ULTRA でダウンロード可能です。

ULTRA-Effective Labeling of Repetitive Genomic Sequence
Olson, D. R., Wheeler, T. J. 2024-06-04 http://biorxiv.org/cgi/content/short/2024.06.03.597269v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 8: 文脈として与えられた最新論文の内容を詳しく説明してください。

与えられた文脈に基づいて、最新の論文の内容を詳しく説明します。

この論文では、質量分析データの解析における核心的な計算課題であるデノボシークエンシング問題に取り組んでいます。デノボシークエンシング問題とは、観測されたフラグメンテーションスペクトルから直接アミノ酸配列を推定することであり、シーケンスデータベースを使用しません。最近、ディープラーニングモデルが大量の高信頼性ラベル付き質量スペクトルデータセットから学習することによって、デノボシークエンシングにおいて顕著な進歩を遂げています。しかし、これらの方法は主にデータ依存型取得(DDA)実験用に設計されています。

過去10年間で、質量分析の分野は、複雑なプロテオミックサンプルの分析において、その優れた特異性と再現性のためにデータ非依存型取得(DIA)プロトコルの使用に移行してきました。このため、論文では新しいデノボシークエンシングモデル「Cascadia」を紹介しています。Cascadiaは、DIAプロトコルによって生成されたより複雑なデータを扱うために、トランスフォーマーアーキテクチャを使用しています。

Cascadiaは、DIAデータのデノボシークエンシングのための既存のアプローチと比較して、さまざまな機器や実験プロトコルにわたって最先端のパフォーマンスを達成しています。さらに、Cascadiaがデノボコーディング変異や抗体の可変領域からのペプチドを正確に発見する能力を実証しています。

この論文は、質量分析におけるデノボシークエンシングの分野で、DIAプロトコルに特化した新しいディープラーニングモデルの開発とその有効性について述べています。Cascadiaは、複雑なデータを解析する能力に優れ、プロテオミクス分野での新たな変異やペプチドの同定に寄与すると考えられます。

A transformer model for de novo sequencing of data-independent acquisition mass spectrometry data
Sanders, J., Wen, B., Rudnick, P., Johnson, R., Wu, C. C., Oh, S., MacCoss, M. J., Noble, W. S. 2024-06-04 http://biorxiv.org/cgi/content/short/2024.06.03.597251v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 9: 文脈として与えられた最新論文の内容を詳しく説明してください。

最新の空間トランスクリプトミクス技術は、細胞下レベルの空間分解能を持つ全トランスクリプトームスケールのデータセットを生成しています。ここでは、新しい計算アルゴリズムである「chioso」を紹介します。このアルゴリズムは、参照データセット(通常は単一細胞RNAシークエンシングデータセット)からの細胞レベルのラベルを、細胞下の解像度であらゆる空間位置に割り当てることにより、ターゲット空間データセットへのラベルの転送を可能にします。重要なことに、これを単一細胞のセグメンテーション入力を必要とせずに行い、実験を単純化し、よりストリームライン化され、潜在的により正確な分析パイプラインを可能にします。生成的ニューラルネットを基本的なアルゴリズムエンジンとして使用することで、chiosoは非常に高速であり、大規模なデータセットに対してもよくスケールします。chiosoの性能は合成データを使用して検証され、Steoeoseq技術を使用して取得された完全なMOSTAデータセットを分析することにより、そのスケーラビリティがさらに示されました。

Chioso: Segmentation-free Annotation of Spatial Transcriptomics Data at Sub-cellular Resolution via Adversarial Learning
Yu, J. 2024-06-04 http://biorxiv.org/cgi/content/short/2024.06.03.597195v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 10: 文脈として与えられた最新論文の内容を詳しく説明してください。

がんは遺伝的変異によって引き起こされる異質な疾患です。がんゲノムの計算解析により、ドライバー変異のカタログが拡大しました。個々の高影響力の変異が遺伝子プロモーター内でも発見されていますが、頻度ベースのアプローチでは、いくつかの新しい候補を特定するにとどまっています。がんにおけるプロモーター変異の少なさを調査するために、我々は頻度に関係なく活性化プロモーター変異をin silicoで予測するREMIND-Cancerワークフローを開発し、PCAWGデータセットに適用しました。我々はルシフェラーゼアッセイによってANKRD53およびMYBのプロモーター内の変異を含む7つの候補を肯定的に検証しました。我々の分析は、特定の変異シグネチャーと必要な共変異が機能的なプロモーター変異の生成と肯定的選択を制約していることを示しています。我々は、活性化プロモーター変異が以前に観察されたよりもPCAWGデータセットでより頻繁であると結論付け、これは個別化腫瘍学における潜在的な意味合いを持っています。

The promoter mutation paucity as part of the dark matter of the cancer genome
Abad, N. A. B., Glas, I., Hong, C., Small, A., Pageaud, Y., Maia, A., Weichenhan, D., Plass, C., Hutter, B., Brors, B., Körner, C., Feuerbach, L. 2024-06-04 http://biorxiv.org/cgi/content/short/2024.06.03.597231v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 11: 文脈として与えられた最新論文の内容を詳しく説明してください。

与えられた文脈に基づくと、最新の研究では、単一細胞レベルでの高解像度分析を可能にする単一細胞マルチオミクスデータ統合と、細胞の空間的な異質性を探求し、より多様な下流分析を促進する空間マルチオミクスデータ統合の重要性が強調されています。しかし、既存の方法は主に単一細胞マルチオミクスデータに焦点を当てており、空間情報をあまり考慮していないため、パフォーマンスの改善の余地があります。単一細胞と空間解像データの両方に適用可能な信頼性の高いマルチオミクスデータ統合方法が必要であり、意義も大きいです。

この研究で提案されているのは、デュアルパスグラフアテンションオートエンコーダ(SSGATE)に基づく単一細胞マルチオミクスおよび空間マルチオミクスデータ統合方法です。この方法は、単一細胞の発現データと空間情報に基づいて近傍グラフを構築し、2つのパスからのグラフアテンションオートエンコーダを通じて自己教師あり学習を行い、データ統合を実現します。SSGATEは、異なるシークエンス技術から得られた様々な組織のトランスクリプトームとプロテオームを含む、単一細胞および空間解像データのデータ統合に適用されます。SSGATEは競合する方法よりも優れたパフォーマンスと強いロバスト性を示し、下流分析を促進します。

要約すると、この研究は、単一細胞と空間解像データの両方に対応できる新しいマルチオミクスデータ統合手法を提案し、それによって細胞の複雑な生物学的システムをより包括的かつ正確に理解することを可能にすることを目的としています。

Single-cell multi-omics and spatial multi-omics data integration via dual-path graph attention auto-encoder
Lv, T., Zhang, Y., Liu, J., Kang, Q., Liu, L. 2024-06-04 http://biorxiv.org/cgi/content/short/2024.06.03.597266v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 12: 文脈として与えられた最新論文の内容を詳しく説明してください。

与えられた文脈に基づいて、最新の論文「ECloudGen」の内容を詳しく説明します。

この論文では、AI支援による薬物設計が構造ベースの分子生成戦略を促進していることが述べられていますが、プロテイン-リガンドのデータが不足しているため、モデルが学習する化学空間を完全に活用し、未探索の潜在的な薬物を発見することが制限されていると指摘しています。この限られた化学空間のサンプリングは、より広い化学空間を探索することを目的とした生成モデルの本来の意図と矛盾しており、著者たちはこれを「Chemical Space Generation Paradox」と呼んでいます。

このパラドックスに対処するために、著者たちは「ECloudGen」という新しいアプローチを開発しました。ECloudGenは以下の特性を持っています:

  1. 基本的な物理的表現:著者たちは電子雲表現を導入し、すべての生物学的力を一つの表現で統一しています。これにより、コンパクトで連続的な学習空間が提供されます。

  2. 広範囲かつ構造的に整序された化学空間:電子雲を生成エージェントとして利用することで、ECloudGenは結合構造のないデータを活用してより広い化学空間にアクセスします。実装として、潜在的なECloudベースの拡散モデルである「ECloudDiff」が設立され、ポケットの構造に条件付けられた高忠実度の電子雲をサンプリングします。また、「CEMP」という新しいコントラスト学習戦略が提案され、これによって化学空間が構造的に整序され、制御可能な生成が可能になります。

その後の実験では、ECloudGenが化学的に実現可能な分子を生成し、高い結合効率、薬物様性、および他の化学的特性を持つことが確認されました。さらに、ECloudGenはより広い化学空間を網羅していることが示され、広範な実験において制御可能な生成における優位性も実証されています。

ECloudGen: Access to Broader Chemical Space for Structure-based Molecule Generation
Zhang, O., Jin, J., Lin, H., Zhang, J., Hua, C., Huang, Y., Zhao, H., Hsieh, C.-Y., Hou, T. 2024-06-04 http://biorxiv.org/cgi/content/short/2024.06.03.597263v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 13: 文脈として与えられた最新論文の内容を詳しく説明してください。

遺伝子の調節は、ゲノムの三次元的な構造によって複雑に影響を受けています。特に、クロマチンは長距離の調節相互作用を可能にするループ構造を形成することがあります。クロマチンのコンフォメーション・キャプチャー技術、例えばHi-Cを利用することで、これらのループ構造が3D空間でどのように組織されているかについての貴重な情報を得ることができます。機能的/特徴的なエンリッチメント分析は、生物学的な文脈を提供するために様々なゲノムデータの標準的な下流分析となっていますが、クロモソームのコンフォメーションを捉えるハイスループットアッセイのために特に開発されたツールは比較的限られています。

ここで紹介するLoopsimは、Hi-Cループプロファイルに対してユーザー定義の領域に対するエンリッチメント分析を行うコマンドラインアプリケーションです。Loopsimは、ループサイズ、間隔、ループ間距離、構造を考慮した特徴的なサンプリングアプローチを用いて、背景分布を効率的にシミュレートします。そして、経験的なヌル分布に基づいたループレベルの統計を計算します。

Loopsim: Enrichment Analysis of ChromosomeConformation Capture with Fast EmpiricalDistribution Simulation
Shaked, G., Zhang, H., Zhang, Z., Gudjonsson, J. E., Elder, J. T., Patrick, M. T., Tsoi, L. C. 2024-06-04 http://biorxiv.org/cgi/content/short/2024.06.03.595407v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 14: 文脈として与えられた最新論文の内容を詳しく説明してください。

最新の論文では、ディープラーニングに基づくタンパク質-リガンド構造予測の最新技術である共同折りたたみモデルについての研究が紹介されています。特に、RoseTTAFold All-AtomやAlphaFold 3のようなモデルが、小分子、他のタンパク質、核酸と相互作用するタンパク質の構造を高い精度で予測できることが示されています。これらのモデルは高度な能力を持ち、広範な可能性を秘めていますが、現在の研究では、これらのモデルが基本的な物理原則に従っているか、特定のタンパク質ファミリーへの過剰適合に対する脆弱性があるかという点に疑問を投げかけています。

具体的には、既存の物理的、化学的、生物学的原則に基づいた敵対的な例を用いて、生物学的に妥当な摂動にさらされた際のタンパク質-リガンド構造予測における顕著な不一致を実証しています。これらの不一致は、予想される物理的な振る舞いからの重大な逸脱を示し、トレーニングデータセット内の特定の部分集合に対する過剰適合の可能性を指摘しています。

この研究は、これらのモデルが多様な生物学的構造に効果的に一般化する能力に限界があることを強調し、予測ツールの開発において堅牢な物理的および化学的先行知識を統合する必要性を浮き彫りにしています。また、薬物発見やタンパク質工学のような重要な応用分野において、ディープラーニングベースのモデルに依存する際には慎重な姿勢が求められると結論付けています。これらの応用分野では、物理的および化学的性質の背後にある深い理解が不可欠だからです。

Do Deep Learning Models for Co-Folding Learn the Physics of Protein-Ligand Interactions?
Masters, M. R., Mahmoud, A. H., Lill, M. A. 2024-06-04 http://biorxiv.org/cgi/content/short/2024.06.03.597219v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 15: 文脈として与えられた最新論文の内容を詳しく説明してください。

HLA(ヒト白血球抗原)は、人間のゲノムにおいて高度に多型性を持つ遺伝子座であり、臨床的にも非常に重要です。新しいHLA遺伝子のアレルは絶えず発見されていますが、これは主にHLAタイピングに特化した研究室の努力によるものであり、HLA領域を高スループットシーケンシングデータから濃縮するといった、特定の実験的およびデータ処理技術を使用しています。しかしながら、過去数年にわたって蓄積された大量の全ゲノムシーケンシング(WGS)データが存在し、急速に拡大し続けています。したがって、既に利用可能なWGSデータから新しいHLAアレルを同定し、既知のアレルに関する情報を洗練させる可能性は魅力的です。現在、非HLA濃縮WGSデータから既知のアレルを割り当てるための多くのツールがありますが、新しいHLAアレルを特定し、即座に詳細な説明を行うために特別に設計されたものはありません。ここで、我々はHLAcheckerというパイプラインを紹介しています。これは、専用のツールによって予測されたHLAタイプと基礎となる生の30倍カバレッジWGSデータとの間の不一致に基づいて、潜在的に新しいHLAアレルを特定するために特別に設計されています。HLAcheckerは、潜在的に新しいHLAアレルのさらなる検証を簡素化し、適切なデータベースへのアレルの提出を合理化する方法で報告を行います。我々はこのツールを4195の30倍カバレッジWGSサンプルで検証し、HLA-HDによってタイプされたサンプルで、エキソン領域に置換がある17の潜在的に新しいHLAアレルを発見し、ランダムに選ばれた5つのアレルをサンガーシーケンシングによって検証しました。

Systematic search for new HLA alleles in 4195 human 30x WGS samples
Albert, E. A., Deviatkin, A., Smirnova, D. I., Zobkova, G. Y., Smirnova, A. V., Woroncow, M., Volchkov, P. Y. 2024-06-04 http://biorxiv.org/cgi/content/short/2024.05.31.596796v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 16: 文脈として与えられた最新論文の内容を詳しく説明してください。

文脈に基づいて、最新の論文ではGene Set Enrichment Analysis(GSEA)とそのシングルサンプルバージョン(ssGSEA)について述べられています。GSEAはサンプル群における経路やプロセスの活性化を定量化する手法であり、ssGSEAは単一サンプル中のmRNAの豊富さを利用して活性化をスコアリングします。これらは元々、マイクロアレイやバルクRNAシークエンシング(RNA-seq)データなどの個々の細胞技術ではなく、バルクサンプル用に開発されました。

しかし、シングルセルRNAシークエンシング(scRNA-seq)の使用が増えるにつれて、個々の細胞での経路やプロセスの活性化を定量化するためにssGSEAを用いる可能性が出てきました。ただし、scRNA-seqデータはRNA-seqデータよりもはるかにスパース(希薄)です。この論文では、バルクデータ用に設計されたssGSEAがscRNA-seqデータから得られた個々の細胞に適用した場合、ある程度のスコアの不確実性や他の技術的問題に直面することを示しています。

さらに、適切な正規化を使用することで、数百から数千の細胞の擬似バルク集団に対してssGSEAを堅牢に適用できることも示しています。このアプローチと他のランクリストエンリッチメント手法を比較した結果、UCellメソッドがスパース性に対して最も堅牢であることがわかりました。

この論文の著者たちは、擬似バルク細胞バージョンのssGSEAをPythonパッケージおよびGenePatternモジュールとして利用可能にし、またUCellもGenePatternで使用できるようにモジュール化する予定であると述べています。

Profiling ranked list enrichment scoring in sparse data elucidates algorithmic tradeoffs
Wenzel, A. T., Jun, J., Tamayo, P., Mesirov, J. P. 2024-06-04 http://biorxiv.org/cgi/content/short/2024.06.03.597180v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 17: 文脈として与えられた最新論文の内容を詳しく説明してください。

この研究では、サルモネラ・ケンタッキー株が、人間や家畜の間で抗微生物薬耐性決定因子を広める公衆衛生上の脅威であり、アフリカで広く見られると同時に、大陸における非チフス性胃腸炎の新たな原因として出現していることが述べられています。研究者たちはバイオインフォマティクスツールを用いて、サルモネラ・ケンタッキーの外膜タンパク質A、C、Fを使ったエピトープペプチドベースのワクチンを設計しました。彼らはMHCクラスIおよびクラスIIアレルによって制限される可能性のある14個のCD8+ T細胞エピトープと7個のCD4+ T細胞エピトープを予測しました。予測されたT細胞エピトープは、ワクチン製剤に使用される際に94.91%の人口カバレッジを提供するとされています。また、7つの高度に免疫原性のあるリニアB細胞エピトープと3つの立体構造B細胞エピトープが予測されました。これらのT細胞およびB細胞エピトープは適切なリンカーを用いて融合され、多エピトープワクチン(MEV)が構築されました。免疫原性を向上させるために、サルモネラ・チフィムリウムのfliCタンパク質がN末端にアジュバントとして追加されました。MEV構造は高品質で、受け入れられる物理化学的特徴を有していました。トール様受容体1、2、4、5に対するMEVのドッキングとドッキング複合体の分子動力学シミュレーションは、これらの複合体の形成が免疫活動中にエネルギー的に実現可能で、安定かつ強固であることを示しました。免疫刺激の結果は、IgG、IgM、CD8+ T細胞、CD4+ T細胞および一連のサイトカイン(IFN-γ、TGF-β、IL-2、IL-10、IL-12)の適切な誘発を示し、抗原レベルの顕著な減少が見られました。ワクチンの特性は賞賛に値するものでしたが、設計されたワクチンの保護特性と安全性を検証するためには、前臨床試験と臨床試験が必要です。

Immunoinformatics design of a novel multiepitope vaccine candidate against Non-typhoidal Salmonellosis caused by Salmonella Kentucky using outer membrane proteins A, C and F
Igomu, E. E., Mamman, P. H., Adamu, J., Muhammad, M., Woziri, A. O., Sugun, M. Y., Benshak, J. A., Anyika, K. C., Sam-Gyang, R., Ehizibolo, D. O. 2024-06-04 http://biorxiv.org/cgi/content/short/2024.06.03.597183v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 18: 文脈として与えられた最新論文の内容を詳しく説明してください。

この論文では、腫瘍細胞のサブポピュレーション間の進化的関係を推測するための有用な系統学的マーカーとして、体細胞コピー数変化(sCNAs)に焦点を当てています。シングルセルDNAシークエンシング技術の進歩により、より大規模なsCNAsデータセットを取得することが可能になりました。しかし、sCNAsから系統樹を再構築する既存の方法は、大規模なデータセットに対しては遅すぎることが多く、多くの既存の方法の精度は解析データセットのエラーやその他の特徴に高度に依存しています。

この研究では、sCNAデータからシングルセル腫瘍系統樹を再構築するための2つの新しい距離ベースのアプローチ、DICE-barとDICE-starを提案しています。これらの新しい方法は、新しく計算しやすい距離尺度に基づいており、精度とスケーラビリティの両方の点で現在の最先端技術を大幅に上回っています。慎重にシミュレートされたデータセットを用いた実験により、DICE-barとDICE-starは、幅広い実験条件とエラーレートにわたって既存の方法の精度を大幅に向上させると同時に、桁違いに高速であることがわかりました。また、実際のデータセットで予想されるように、コピー数推定のノイズ/エラーが多くの既存の方法の精度に大きな影響を与えることも実験分析で明らかになりました。

エラーが発生しやすいデータセットで最も精度が高い方法であるDICE-starを、2つの実際のシングルセル乳がんデータセットに適用した結果、以前に報告されていなかった希少な細胞集団を同定するのに役立つことがわかりました。

DICE: Fast and Accurate Distance-Based Reconstruction of Single-Cell Copy Number Phylogenies
Weiner, S., Bansal, M. S. 2024-06-04 http://biorxiv.org/cgi/content/short/2024.06.03.597037v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 19: 文脈として与えられた最新論文の内容を詳しく説明してください。

与えられた文脈に基づいて、最新の研究について説明いたします。

シングルセルRNAシークエンシング(scRNA-seq)技術は、単一細胞レベルでの遺伝子発現を測定することができますが、空間情報を提供することはできません。これに対して、空間トランスクリプトミクス(ST)技術は、遺伝子発現データと同時に空間情報も提供します。しかし、STデータの空間解像度や遺伝子カバレッジのデータ品質は、シングルセルトランスクリプトミクスデータに比べてまだ低いです。

この問題を解決するために、研究者たちはSpatial Transcriptomics-Aided Locator for single-cell transcriptomics(STALocator)を開発しました。STALocatorは、シングルセルの遺伝子発現データを対応するSTデータに位置づけることができます。シミュレーションデータへの適用結果から、STALocatorが他のローカライゼーション方法よりも優れていることが示されました。

人間の脳scRNA-seqデータと側頭前頭皮質の10x VisiumデータにSTALocatorを適用すると、層に関連する細胞タイプの層状構造を堅牢に再構築することができました。また、人間の扁平上皮癌におけるscRNA-seqデータと空間トランスクリプトミクスデータにSTALocatorを適用した結果、腫瘍特異的ケラチノサイト、微小環境関連細胞集団、および免疫細胞間の相対的な空間関係を堅牢に再構築することができました。

さらに、STALocatorはSlide-seqV2データの遺伝子発現パターンを強化し、FISHデータのゲノムワイドな遺伝子発現データを予測することができ、生データと比較して、より多くの空間的に変動する遺伝子とより生物学的に関連するGO項目を特定することに成功しました。

この研究は、シングルセルトランスクリプトミクスデータと空間トランスクリプトミクスデータの両方の情報を統合することで、細胞の空間的配置と遺伝子発現のパターンをより正確に再構築し、生物学的な洞察を深める新しいアプローチを提供します。

Spatial Transcriptomics-Aided Localization for Single-Cell Transcriptomics with STALocator
Li, S., Shen, Q., Zhang, S. 2024-06-04 http://biorxiv.org/cgi/content/short/2024.06.03.597193v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 20: 文脈として与えられた最新論文の内容を詳しく説明してください。

この研究の目的は、認知障害(CI)の段階の進行パターンを正確に分類し、示すために、最も重要な特徴と影響を受けた脳領域に基づいた新しいAIアンサンブルネットワークを開発することでした。方法として、アルツハイマー病(AD)の段階を分類するために、新しいアンサンブルアーキテクチャである3D ResNet-18 - RF(ランダムフォレスト)を提案しました。劣化問題を解決するために、3D畳み込みニューラルネットワーク(CNN)にResNetの残差ユニット(ブロック)を導入しました。これは、ファインチューニングとの組み合わせにより、精度が向上するという革新的な戦略とされました。このネットワークは選択された特徴と影響を受けた脳領域で訓練されました。構造化された磁気共鳴画像(MRI)は、アルツハイマー病神経画像イニシアチブ(ADNI)データセットから収集され、ランダムフォレストは、Atlas、自動解剖学的ラベリング3(AAL-3)を使用して、パーセル化された170の関心領域(ROIs)から特徴と影響を受けた領域の重要性を決定するために使用されました。このフレームワークは、ADの5つのカテゴリを分類し、進行パターンを検出しました。

結果として、提案されたネットワークは、66%のF-1スコア、76%の感度、93.5%の特異度を示し、5つのカテゴリを分類する従来の方法の性能を上回りました。腹側後外側領域と視床下部外側領域が最も影響を受けた領域であり、これは早期MCIからADへの進行を示していました。開発されたモデルの5倍の検証精度は60.02%でした。結論として、灰白質対白質比が最も重要な特徴であり、進行パターンを正確に予測することも示されました。パフォーマンスメトリクスは異なるハイパーパラメーターで変動しましたが、推定結果の0.05%を超えることはなく、提案された方法論の妥当性と独創性を示していました。

キーワード:軽度認知障害、アルツハイマー病、磁気共鳴画像、3D畳み込みニューラルネットワーク、ランダムフォレスト、脳の特徴と領域。

A Novel Artificial Intelligence (AI) Method to Classify and Predict the Progression of Alzheimers Disease
Hasan, M. M., Rahman, S., Parmar, H., Chowdhury, S. 2024-06-04 http://biorxiv.org/cgi/content/short/2024.06.03.597177v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 21: 文脈として与えられた最新論文の内容を詳しく説明してください。

この研究では、ゼブラフィッシュ(Danio rerio)をモデルとして使用し、外傷性脳損傷(TBI)後の脳再生メカニズムにおける新規の長鎖非コーディングRNA(lncRNA)を同定しました。ゼブラフィッシュは遺伝的に人間と類似しており、強力な再生能力を持つため、優れたモデルです。この研究では、BioStudiesデータベースから得られたゼブラフィッシュの前脳部分のRNAシーケンシングデータを分析し、コントロール群、損傷後1日目(早期創傷治癒)、損傷後3日目(細胞増殖)、損傷後14日目(分化)の各時点における新規lncRNAの発現を調べました。

分析ツールHISAT2、StringTie、FEELnc、PhastConを使用して、664の潜在的なlncRNAを同定しました。同定されたlncRNAの主成分分析(PCA)は、損傷後1日目に独特の発現プロファイルを示し、早期創傷治癒における重要な役割を示唆しました。加えて、重み付け遺伝子共発現ネットワーク分析(WGCNA)は、脳再生に重要な固有の発現パターンを示す2つのモジュール(ブラウンとターコイズ)を特定しました。経路エンリッチメント分析により、ブラウンモジュールのlncRNAはペプチド生合成、細胞アミド代謝、リボソーム生物生成に関連していることが明らかになりました。一方、ターコイズモジュールのlncRNAはイオンの膜横断輸送や細胞接着経路と関連していました。

選択されたlncRNAと相関遺伝子の共発現パターンを確認するための定量的PCR(qPCR)検証は、これらのlncRNAの調節役割を強調しました。この研究は、ゼブラフィッシュの脳再生においてlncRNAが重要な役割を果たし、特に早期創傷治癒段階においてlncRNA遺伝子発現を調節していることを示しています。これらの洞察は、神経再生医学におけるlncRNAの治療的応用の可能性を提供します。

Discovery of Novel Long Non-Coding RNAs That May Potentially Play a Role in Zebrafish Brain Regeneration Post Traumatic Injury
Kohli, S., Abhilash, D., Hemlata,, Srivastava, P. P., Kumar, V., Minocha, S., Gupta, I. 2024-06-03 http://biorxiv.org/cgi/content/short/2024.06.03.597135v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 22: 文脈として与えられた最新論文の内容を詳しく説明してください。

与えられた文脈に基づいて、この最新の研究は、複数の疾患に関連するタンパク質がしばしば互いに相互作用しているという広範な証拠を認識しています。この事実に基づき、人間の疾患の分子メカニズムを解明するためのネットワークベースの方法が開発されています。これらの方法は、タンパク質相互作用ネットワークが地図のように機能し、疾患が近傍内で局所的な摂動として現れるという考えに基づいています。これらの領域、いわゆる疾患モジュールを特定することは、特定の疾患特性についての詳細な研究に不可欠です。

多くの計算方法が開発されていますが、これらのモジュール内の基本的な接続パターンはまだ十分に探究されていません。この研究は、非負行列因子分解(NMF)技術を用いて複数の生物学的データソースを統合することによって、このギャップを埋めることを目指しています。タンパク質-タンパク質相互作用(PPI)とジーンオントロジー(GO)データの2つの生物学的情報源を活用し、新規遺伝子と疾患との間の関連性を見つけ出します。データソースはまずネットワークに変換され、その後クラスタリングされてモジュールが得られます。次に、2種類のモジュールをNMFベースの技術を通じて統合し、タンパク質/遺伝子間の相互作用パターンと機能的類似性情報の本質的な特徴を保持する一連のメタモジュールを得ます。

各メタモジュールには、疾患データセットと共有している統計的および生物学的特性に基づいて、複数のラベルが割り当てられます。メタモジュール内の遺伝子に新しい疾患ラベルを割り当てるために、マルチラベル分類技術が利用されます。合計で3131の遺伝子-疾患関連が特定され、文献調査、ジーンオントロジー、経路ベースの分析を通じて検証されます。

Integration of Biological Data via NMF for Identification of Human Disease-Associated Gene Modules through Multi-label Classification.
Alberuni, S., Ray, S. 2024-06-03 http://biorxiv.org/cgi/content/short/2024.06.03.597184v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 23: 文脈として与えられた最新論文の内容を詳しく説明してください。

与えられた文脈に基づくと、この最新の論文は、病気に関連する組織の違いを分析する際に、組織や細胞タイプによって異なるDNAメチル化の重要性に焦点を当てています。生物学的プロセスがエピジェネティックな不調整によってどのように影響を受けるかを明らかにするために、適切な細胞タイプからデータを生成することがエピジェネティック研究にとって不可欠です。

この論文では、実験的に細胞のサブタイプを分離する必要を迂回し、長い読み出しシーケンスデータから計算的にこれを行うための枠組みを提案しています。6種類の一般的な血液細胞タイプに関する参照データを使用して、全血から生成されたシーケンスデータを使用して特定の細胞に読み取りを帰属させるこのアプローチの可能性を評価しています。

分析により、ゲノムの小さな領域を使用して細胞タイプを正確に分類できることが示されました。これらの領域は、長い読み出しシーケンスプラットフォームによって生成されるものとサイズが同等です。ただし、ゲノムの異なる領域や細胞タイプ間で分類の精度は異なります。ゲノムの約三分の一については、リンパ球と骨髄細胞が発生する読み取りを正確に識別することが可能であることが分かりました。また、より専門化された血液細胞タイプの予測も有望です。

このアプローチは、エピジェネティック疫学において細胞特異的なDNAメチル化プロファイルを計算的に生成するための代替手法を提供し、健康と病気におけるエピゲノムの役割に関する重要な洞察を明らかにする能力を加速させます。

Leveraging epigenetic signatures to determine the cell-type of origin from long read sequencing data
Hannon, E., Mill, J. 2024-06-03 http://biorxiv.org/cgi/content/short/2024.06.03.597114v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 24: 文脈として与えられた最新論文の内容を詳しく説明してください。

最近の研究で、Narunsky-Hazizaらは様々ながん種において同定された菌類が、予後や診断に関して重要な意味を持つ可能性があることを示しました。我々はそのデータを利用して、年齢、性別、BMI、人種などの人口統計学的要因が腫瘍内真菌群(intratumor mycobiome)の構成に及ぼす影響をより深く理解するための研究を行いました。

研究の手法として、まず最近のマイクロバイオームデータ処理手順の批判を踏まえ、使用されているバッチ補正や変換が偽の信号を生み出す可能性があると結論づけました。その代わりに、13種のがんタイプにわたる224種の真菌データに対して、14種類のデータ変換とバッチ補正方法を探求しました。組織学的タイプや腫瘍ステージなどの潜在的な交絡因子を調整するために、傾向スコアを利用しました。偽の結果を最小限に抑えるために、特定のがんタイプ内の人口統計学的要因にわたって顕著な差異を示す菌種のみを、全14の組み合わせによって正規化されたデータを使用して、正の結果として同定しました。

結果として、特定の人口統計学的特性において腫瘍内の真菌種の豊富さに顕著な差異が観察されました。ほとんどの差異は特定のがんにおける人種間で見られました。これらの発見は、マイコバイオーム、がんの種類、そして患者の人口統計学的特性との間に複雑な相互作用があることを示しています。我々の研究は、がんにおけるマイコバイオームの役割をさらに理解するためには、潜在的な交絡因子を考慮に入れる必要性を強調し、データ処理技術の重要性を指摘しています。

Race-dependent variability in the human tumor mycobiome
Coster, D., Margalit, T., Boursi, B., Shamir, R. 2024-06-03 http://biorxiv.org/cgi/content/short/2024.06.01.596924v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 25: 文脈として与えられた最新論文の内容を詳しく説明してください。

パーキンソン病(PD)は、重篤で複雑な多因子性の神経変性病であり、その病態生理は未だ解明されていないため、治癒を目指した治療法の開発が進んでいません。縦断的なマルチオミクスによる分子的深層表現型解析は、PDの病因と進行のメカニズムを特定する有望なアプローチです。しかしながら、異種なデータを扱う必要があり、生物学的実体やプロセスを横断して病気の進行を理解するための新しい分析フレームワークが求められています。

ここでは、MONFITという新しい分析パイプラインを紹介しています。MONFITは、非負行列三重因子分解を用いて、単一細胞RNAシークエンスデータの時系列情報とバルクプロテオミクス、メタボロミクスデータを統合し、分子ネットワークからの事前知識を取り入れながらデータをマイニングすることができます。最初に、MONFITは特定の時点のデータを統合し、次に統合されたデータを時点を超えて包括的にマイニングします。

MONFITをパーキンソン病患者および対照患者から派生した誘導多能性幹細胞(iPSC)をドーパミン神経細胞へ分化させる過程の縦断的マルチオミクスデータに適用することで、新たなPD関連遺伝子を同定し、PDの病理において重要な役割を果たす分子経路を強調し、ドラッグリパーパジングを使用した新しい介入の機会を提案しています。MONFITは他のマルチオミクスデータセットにも完全に適応可能です。

MONFIT: Multi-omics factorization-based integration of time-series data sheds light on Parkinson's disease
Mihajlovic, K., Malod-Dognin, N., Ameli, C., Skupin, A., Przulj, N. 2024-06-03 http://biorxiv.org/cgi/content/short/2024.06.03.597147v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 26: 文脈として与えられた最新論文の内容を詳しく説明してください。

本研究では、増幅されたDNAの異質性を定量化するためのアクセスしやすい方法としてオックスフォードナノポアシーケンシングが試験されています。この方法により、削除、挿入、置換の迅速な定量化が可能であり、各変異エラーの確率と複製された配列内のそれらの位置を把握することができます。試験された増幅技術には、ポリメラーゼの忠実度の異なる従来のポリメラーゼ連鎖反応(PCR)(OneTaq、Phusion、Q5)およびPhi29ポリメラーゼを用いたローリングサークル増幅(RCA)が含まれます。また、バクテリアを使用したプラスミドの増幅も評価されました。各サンプルに対して大量のシーケンスのエラーの分布を分析することにより、各サンプルの異質性とエラーのモードを検討しました。この分析により、Q5およびPhusionポリメラーゼが増幅されたDNAで観察された最も低いエラー率を示したことが明らかになりました。二次的な検証として、増幅されたDNAを用いて細胞フリー発現で合成されたsfGFP蛍光タンパク質の発光スペクトルを分析しました。エラーを起こしやすいポリメラーゼ連鎖反応は、DNAエラー率に対するレポータータンパク質の発光スペクトルピークの広がりへの依存性を確認しました。提示されたナノポアシーケンシング方法は、他の遺伝子増幅技術の精度を定量化するための道筋として機能し、望まれるタンパク質のより均質な細胞フリー発現を可能にするための新技術が発見されるにつれて、それらの評価に利用できます。

Amplified DNA Heterogeneity Assessment with Oxford Nanopore Sequencing Applied to Cell Free Expression Templates
Hejazi, S. S., Hejazi, S. S., Kashani, M., Reuel, N. F. 2024-06-03 http://biorxiv.org/cgi/content/short/2024.06.02.597048v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 27: 文脈として与えられた最新論文の内容を詳しく説明してください。

この研究では、遺伝子の発現を調節し、疾患の状態に影響を与えるエピジェネティックなメカニズムであるDNAメチル化(DNAm)に焦点を当てています。正確なDNAmバイオマーカーの開発には特定の組織からのデータが必要ですが、これらの組織からサンプルを取得することは困難な場合があります。この研究は、唾液のDNAmデータを使用して血液のDNAmバイオマーカーを予測するための転移学習(TL)の使用を探求しています。これは、サンプルサイズと組織のアクセシビリティによって生じる制限を克服することを目的としています。

研究チームは、複数の組織からのDNAmデータを統合するTLベースのアルゴリズムを開発しました。これらのアルゴリズムは、従来のラッソ回帰や直接的な唾液DNAm推定と比較して評価されました。その結果、TLはDNAmバイオマーカーの予測精度を著しく向上させ、26個のバイオマーカーのうち20個で従来の方法を上回る性能を示しました。

さらに、独立したデータセットを使用してモデルを検証したところ、TLによる予測が既知の生物学的関係、例えば性差におけるテロメアの長さや喫煙がDNAmバイオマーカーに与える影響を反映していることが示されました。

この発見は、異なる組織間でのDNAmバイオマーカー予測を強化するTLの潜在能力を強調しており、エピジェネティック研究にとって価値あるツールを提供します。開発されたアルゴリズムと方法論は研究者にアクセス可能であり、パーソナライズドメディシンや老化研究の進歩を促進します。

この研究は、アクセス可能な組織データと関連する組織データの間のギャップを埋めるためにTLを利用するフレームワークを確立し、より正確で多様なDNAmバイオマーカーの応用への道を開きます。

Cross Tissue DNAm Biomarker Prediction using Transfer Learning
McGreevy, K. M., Chen, B. H., Horvath, S., Telesca, D. 2024-06-03 http://biorxiv.org/cgi/content/short/2024.06.01.596949v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 28: 文脈として与えられた最新論文の内容を詳しく説明してください。

与えられた文脈に基づいて、最新論文の内容を詳しく説明いたします。

この論文では、空間生物学において細胞の種類や状態を識別することが、時間がかかり、間違いが生じやすい課題であることが指摘されています。深層学習が増えているものの、健康と病気の状態で細胞、近傍、ニッチのレベルでの変動性が高いため、一般化が難しいとされています。

この問題に対処するために、研究者たちはTACIT(Thresholding Approach for Cell type Identification in Tissues)という教師なしアルゴリズムを開発しました。このアルゴリズムは、トレーニングデータを必要とせず、事前に定義されたシグネチャを使用して細胞注釈を行い、バイアスのないしきい値設定を用いて背景から陽性細胞を区別します。特に、複数のオミックスアッセイで明確でない細胞を識別するために関連するマーカーに焦点を当てています。

研究では、脳、腸、腺の3つのニッチから得られた5つのデータセット(5,000,000細胞; 51細胞タイプ)を使用して、TACITが既存の教師なしメソッドよりも精度とスケーラビリティで優れていることが示されました。

さらに、TACITによって同定された細胞タイプを新しいShinyアプリケーションと統合することで、2つの炎症性腺疾患における新しい表現型が明らかにされました。

最後に、空間転写学とプロテオミクスを組み合わせた研究によって、関心領域における免疫細胞の種類と状態の過少表現と過剰表現が発見され、これは空間生物学を臨床応用に翻訳するために多様なモダリティが不可欠であることを示唆しています。

Spatial Deconvolution of Cell Types and Cell States at Scale Utilizing TACIT
Huynh, K., Tyc, K. M., Matuck, B. F., Easter, Q. T., Pratapa, A., Kumar, N. V., Perez, P., Kulchar, R., Pranzatelli, T., Souza, D., Weaver, T. M., Qu, X., Alberto Valente Soares Junior, L., Dolhnokoff, M., Kleiner, D. E., Hewitt, S. M., Fernando Ferraz da Silva, L., Rocha, V., Warner, B. M., Byrd, K. M., Liu, J. 2024-06-03 http://biorxiv.org/cgi/content/short/2024.05.31.596861v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 29: 文脈として与えられた最新論文の内容を詳しく説明してください。

この研究では、長鎖非コーディングRNA(lncRNA)と疾患との関連を予測する新しいアプローチである適応型メタパス生成(Adaptive Meta-Path Generation: AMPGLDA)に基づく方法を提案しています。まず、lncRNA、疾患、miRNAに関する情報を統合して異種グラフを構築します。次に、主成分分析(PCA)を利用してノードからグローバルな特徴を抽出します。この異種グラフに基づき、AMPGLDAは複数のメタパスグラフ構造を適応的に生成し、グラフ畳み込みニューラルネットワークを用いて、メタパスからlncRNAと疾患の意味的特徴表現を学習します。最終的に、AMPGLDAは深層ニューラルネットワーク分類器を使用して、lncRNAと疾患との関連を正確に予測します。

AMPGLDAモデルは、独立テストセットの下で、AUC(受信者操作特性曲線下の面積)とAUPR(精度リコール曲線下の面積)のスコアがそれぞれ99.66%という印象的な結果を達成しています。さらに、3つのケーススタディを通じて、新たなlncRNA-疾患関連を発見する際のその正確性を示しています。

キーワードとして「LncRNA-疾患関連予測」「メタパス」「主成分分析」「グラフ畳み込みニューラル」「多層パーセプトロン」が挙げられており、これらは本研究の重要な概念や使用されている技術を表しています。本研究は、lncRNAが人間の複雑な疾患に重要な役割を果たしていることを示唆しており、既存のlncRNA-疾患関連のデータベースが限定されているため、計算手法を用いた予測の必要性を強調しています。この計算アプローチにより、lncRNAの疾患における基盤となるメカニズムの探求や、新しい疾患治療の開発が促進されることが期待されます。

AMPGLDA: Predicting LncRNA-Disease Associations Based on Adaptive Meta-Path Generation and Multi-Layer Perceptron
Yao, D., Zhang, X., Zhan, X. 2024-06-03 http://biorxiv.org/cgi/content/short/2024.06.02.596998v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 30: 文脈として与えられた最新論文の内容を詳しく説明してください。

与えられた文脈に基づいて、最新の論文の内容を詳しく説明します。

この論文では、組換え遺伝子工学の実験において、次世代シーケンシング(NGS)を用いて、多様なライブラリ内のバーコード付きまたは変異した遺伝子の濃度を測定する方法について述べています。実験を設計し解釈する際に、シーケンシングの深さ(depth)は重要なパラメーターであります。サービスプロバイダーは、RNAシーケンシングや全ゲノムシーケンシングなどの実験タイプに応じて、NGSの深さを決定するための確立されたガイドラインに従っています。しかし、バーコード濃度を測定するためのガイドラインはまだ一般的な合意に達していません。

この問題に対処するために、著者たちはバーコード付きライブラリからのNGSデータセットの分析と、ライブラリ準備におけるPCR増幅を考慮に入れた数学モデルを組み合わせています。複数のデータセットでの実証を通じて、NGSのカウントにおけるノイズはシーケンシングの深さが増すにつれて増加し、したがってある限界を超えると、より深いシーケンシングがバーコード濃度の測定精度を向上させないことを示しています。

論文では、増幅ステップ前のバーコード付きDNAの初期量の約10倍が最適なシーケンシングの深さであるという経験則を提案しています。これは、バーコード濃度を正確に測定するために不必要なシーケンシングの深さを避け、コストと労力を節約するための指針となります。

Optimal sequencing depth for measuring the concentrations of molecular barcodes
Ocari, T., Zin, E. A., Tekinsoy, M., Van Meter, T., Cammarota, C., Dalkara, D., Nemoto, T., Ferrari, U. 2024-06-03 http://biorxiv.org/cgi/content/short/2024.06.02.596943v1

この記事が気に入ったらサポートをしてみませんか?