見出し画像

Recent BioRxiv on Bioinformatics: July 11, 2024

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 1: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
酵素の機能注釈は生物学における基本的な課題であり、多数の計算ツールが開発されています。正確な酵素機能の予測は、酵素の活性や特異性についての重要な洞察を提供する配列情報や構造情報に大きく依存しています。しかし、研究が不十分なタンパク質や未知の機能を持つタンパク質、または複数の活性を持つタンパク質については、これらのツールの多くが酵素委員会(EC)ナンバーなどの機能注釈を正確に予測することはできません。同時に、ECナンバーに基づいて分類された酵素種間の機能的階層情報は十分に調査されていません。

新規性:
これらの課題に対処するため、我々はEnzHierと名付けられた機械学習アルゴリズムを提案します。このアルゴリズムは、最先端のツールよりも高い精度と信頼性を持って酵素にECナンバーを割り当てることができます。EnzHierは、トリプレットロスを最適化することで酵素の機能階層を巧みに学習し、研究不足の酵素の注釈を自信を持って行い、2つ以上のECナンバーを持つ混乱を招く酵素を特定することができます。

方法:
EnzHierは、配列情報と構造情報の両方を組み込むことで、その予測能力を高めています。私たちは、その優れたパフォーマンスを実験的に実証しました。

結論として、このツールは未特定の酵素の機能を予測するために広く使用されることが期待され、薬剤設計・発見や医療診断など多くの分野を進歓することに寄与するでしょう。

Predicting Enzyme Functions Using Contrastive Learning with Hierarchical Enzyme Structure Information
Duan, H., Li, Z., Wu, Y., Chen, W., Xia, L. C. 2024-07-10 http://biorxiv.org/cgi/content/short/2024.07.07.602424v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 2: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
ヒトゲノムの完全な配列決定の後、ダークゲノムの理解は優先的な課題となっています。sORFs(short open reading frames)は、ダークゲノムの中で広く未探索の要素の一群であり、マイクロプロテインに翻訳される可能性があります。コーディングされているsORFsと調節sORFsの確定数はまだわかっていませんが、ヒトゲノムの約1-2%を占めると推定されています。これは標準的なコーディング遺伝子の範囲のオーダーに相当します。いくつかのsORFsについては臨床的な関連性がすでに示されていますが、潜在的なsORFsの大部分についてはその生物学的機能は不明です。大規模なゲノムデータを使用して疾患関連性を予測する際の主な制限は、sORFsの遺伝的変異に対する集団レベルの制約メトリクスがまだ利用できないことです。

新規性:
この研究では、最近リリースされたgnomAD 4.0データセットを使用し、コンセンサスセットのsORFsとそのゲノム近傍の制約を分析しました。これにより、sORFsがどの程度の制約を受けているかを明らかにし、標準的なコーディング遺伝子と同等に高い制約を持つsORFsのサブセットをgencodeデータセット内で特定しました。

方法:
gnomAD 4.0データセットを用いて、sORFsとそれらのゲノム近傍の制約を分析しました。このデータセットは、多くの個体のゲノム情報を集約したもので、遺伝的変異の集団レベルでの頻度や分布を知ることができます。sORFsが埋め込まれているゲノムコンテキストの制約度を評価し、gencodeデータセットを使用して、高度に制約されたsORFsのサブセットを同定しました。これらのsORFsは、高度に制約された標準的なコーディング遺伝子と比較しても同等の制約を受けていることが示されました。

Mutational Constraint Analysis Workflow for Overlapping Short Open Reading Frames and Genomic Neighbours
Danner, M., Begemann, M., Kraft, F., Elbracht, M., Kurth, I., Krause, J. 2024-07-10 http://biorxiv.org/cgi/content/short/2024.07.07.602395v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 3: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
細胞間コミュニケーション(CCC:cell-cell communication)は、生物学的プロセスにおいて重要な役割を果たしています。特に、細胞外小胞(EVs:extracellular vesicles)によって放出されるマイクロRNA(miRNA)は、遺伝子の発現を抑制することで、細胞間の情報伝達において中心的な役割を担っています。シングルセルRNAシークエンシング(scRNA-seq)技術の進歩により、EV由来のmiRNAが媒介するCCCを解明することが可能になりました。しかし、このようなCCCを推測するための計算手法の不足が、大きな課題となっています。

新規性:
この論文では、miRTalkというフレームワークを初めて提案しています。miRTalkは、確率モデルを用いてEV由来のmiRNA媒介CCCを推測するものであり、EV由来のmiRNAとターゲットとの関連を含むキュレーションされたデータベースmiRTalkDBを備えています。これは、scRNA-seqデータを用いてEV由来のmiRNA媒介CCCを推測する初めてのアプローチであり、生物学的プロセスにおけるCCCのダイナミクスについての貴重な洞察を提供します。

方法:
miRTalkは、確率モデルに基づいて開発されたフレームワークであり、シミュレーションデータセットおよび実世界のデータセットに対するベンチマークテストを通じて、その精度と堅牢性が実証されています。さらに、miRTalkを用いて、3つの疾患シナリオにおけるCCCメカニズムを深く解明することに成功しました。これにより、miRTalkはscRNA-seqデータを用いたEV由来のmiRNA媒介CCCの推測において、先駆的な手法として位置付けられています。

まとめると、miRTalkはEV由来のmiRNAが媒介するCCCを推測するための新しいフレームワークであり、scRNA-seqデータを用いて生物学的プロセスの背後にあるCCCダイナミクスを理解するための貴重なツールを提供します。

Extracellular vesicle-derived miRNA-mediated cell-cell communication inference for single-cell transcriptomic data with miRTalk
Shao, X., Li, C., Qian, J., Yang, H., Yang, X., Liao, J., Xu, X., Fan, X. 2024-07-10 http://biorxiv.org/cgi/content/short/2024.07.07.602386v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 4: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
本研究では、内因性無秩序タンパク質(Intrinsically Disordered Proteins, IDPs)におけるミスセンス変異による大きな構造変化を迅速に同定するための手法を開発しています。IDPsは、その構造が一定せず、多くの場合、病気の発生に関連していることが知られています。ミスセンス変異は、タンパク質のアミノ酸配列における単一のアミノ酸の置換を指し、これがタンパク質の構造や機能に大きな影響を与えることがあります。従来の方法では、これらの変異が引き起こす構造的変化を理解するためには、多大な時間とリソースが必要でした。

新規性:
本研究の新規性は、ブラウニアンダイナミクス(Brownian Dynamics, BD)シミュレーションとディープラーニング(Deep Learning, DL)戦略の組み合わせにより、IDPsのミスセンス変異による構造変化を迅速かつ正確に予測する点にあります。特に、DLアルゴリズムの訓練セットを生成するために、実験的に検証された粗視化モデル(HPSモデル)に基づいてシミュレーションを行い、多層パーセプトロンアーキテクチャを用いてIDPsのジレーション半径を高精度で予測する手法を開発しました。

方法:
まず、DisProtデータベースから取得した30~400アミノ酸長の2000のランダムなIDPsを、HPS2モデルを用いてシミュレーションしました。このモデルは、異なる電荷-疎水性比を持つ様々なIDPsの実験的ジレーション半径を再現するパラメーターで構築されています。シミュレーション結果から得られたジレーション半径をDLアルゴリズムの訓練セットとして使用し、33の既知のIDPsに対するジレーション半径を95%の精度で予測することに成功しました。

その後、特定のIDPのミスセンス変異のすべての置換について、ジレーション半径を予測するためにニューラルネットワークを使用しました。このアプローチは、変異によって野生型のIDP構造と比較してジレーション半径に顕著な変化を引き起こすアミノ酸および変異が起こりやすい領域を特定するのに成功しました。予測された変異体のサブセットに対してBDシミュレーションを実行することで、予測を検証しました。

さらに、SHAP(SHapley Additive exPlanations)分析を使用して、入力特徴の相対的な重要性とニューラルネットワークの予測可能性への寄与を決定しました。この手法により、潜在的に有害な変異の検索空間を1万分の1に削減することができました。

結論:
本研究の結果は、IDP変異に関連する疾患の理解と潜在的な治療介入の開発において重要な意味を持ちます。また、無秩序タンパク質における変異の影響をより効率的かつ正確に予測するためのさらなる研究を促進するものと信じられています。

Accelerated Missense Mutation Identification in Intrinsically Disordered Proteins using Deep Learning
Bhattacharya, A., Seth, S. 2024-07-10 http://biorxiv.org/cgi/content/short/2024.07.07.602404v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 5: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
ヒトパピローマウイルス(HPV)関連の頭頸部扁平上皮癌(HNSCC)には、異なる分子サブタイプが存在します。これらは「IMU(免疫が強い)」と「KRT(高度に角化している)」として知られており、それぞれが独自の発癌メカニズム、臨床成績、最適な治療戦略を有していることが示されています。しかし、新たに発見されるHPV+ HNSCC腫瘍をこれらのサブタイプに分類する標準化された方法は存在していません。

新規性:
本研究では、IMU/KRTパラダイムを使用してHPV+ HNSCC腫瘍を信頼性高くサブタイプ分類するための機械学習ベースの分類ツールおよびウェブツールを導入しました。これにより、HPV+ HNSCCのサブタイプの重要性が強調されます。

方法:
データソースとして、ミシガン大学病院からの67個のHNSCC FFPEブロックにRNAシーケンシング(RNA-seq)を実施しました。これに公開データセット3つを組み合わせ、合計229個のHPV+ HNSCC RNA-seqサンプルを使用しました。参加者は全員、RNA発現に基づきHPV+と判断されました。5つのアルゴリズムと3つの異なる入力訓練遺伝子セットを用いたアンサンブル機械学習アプローチを開発し、最終的なサブタイプは多数決によって決定されました。厳密さと再現性を確保するために、いくつかの追加ステップが踏まれました。

研究選定:
分類器は、ミシガン大学(UM; n=18)とTCGA-HNC(n=66)の2つのコホートからの84個のサブタイプラベル付きHPV+ RNA-seqサンプルを使用して訓練およびテストされました。分類器の堅牢性は、HPV Virome Consortiumからの83個のサンプルとUMからの追加62個のサンプルという2つの独立したコホートで検証されました。39個の臨床人口統計学的および分子変数のうち24個がサブタイプと有意に関連していることが明らかにされました。

結果:
分類器はテストセットで100%の精度を達成しました。2つの追加のコホートでの検証は、サブタイプの既知の特徴による成功した分離を示しました。サブタイプと39個の分子および臨床人口統計学的変数との関係を調査した結果、IMUは上皮間葉転換(p=2.25x10^-04)、様々な免疫細胞タイプ、放射線耐性の低さ(p=0.0050)と関連していること、KRTはより高度に角化している(p=2.53x10^-08)こと、そしてIMUよりも女性である可能性が高い(p=0.0082)ことが判明しました。

結論と関連性:
本研究は、バルクRNA-seqデータに基づいてHPV+ HNSCC腫瘍をIMUまたはKRTとして信頼性高くサブタイプ分類する分類器を提供し、さらに、HPV+ HNSCCサブタイプの理解を深めます。

Tumor Subtype Classification Tool for HPV-associated Head and Neck Cancers
Li, S., Grab, B. F., Qin, T., Soppe, S., Lopez, E., Patil, S., D'Silva, N. J., Rozek, L. S., Sartor, M. A. 2024-07-10 http://biorxiv.org/cgi/content/short/2024.07.05.601906v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 6: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
タンパク質の側鎖の正確な予測は、タンパク質の折りたたみ、タンパク質間相互作用の理解、およびde novo(新規)タンパク質設計を促進するために必要です。タンパク質の機能と構造は、その側鎖の立体配置に大きく依存しているため、これを予測することは生物学的および医学的応用において極めて重要です。

新規性:
本研究で開発されたFlowPackerは、タンパク質の配列とバックボーンに基づいて側鎖の立体配置を予測するための新しいモデルです。従来の手法と比較して、FlowPackerは実行時間が短く、ほとんどのメトリクスにおいて最先端のベースラインを上回る性能を示しています。このモデルは、torsional flow matchingとequivariant graph attentionという新しいアプローチを採用しています。

方法:
FlowPackerは、側鎖の立体配置を予測するために、torsional flow matching(ねじれ流れマッチング)とequivariant graph attention(同変グラフアテンション)という二つの主要な技術を用いています。Torsional flow matchingでは、タンパク質のバックボーンに沿ったねじれ角の流れをマッチングすることで、側鎖の配置を予測します。Equivariant graph attentionは、タンパク質の構造をグラフとして表現し、ノード間の関係を学習することで、側鎖の相対的な位置をより正確に予測することができます。

さらに、FlowPackerは欠けている側鎖座標の補完(inpainting)や多量体ターゲットに対する予測、抗体-抗原複合体のテストセットにおいても高い性能を発揮することが示されています。これにより、タンパク質設計やタンパク質工学の分野での応用が期待されます。

最後に、論文ではコードが近いうちに公開されると述べており、研究コミュニティがこのモデルを利用してさらなる研究を行うことができるようになります。これは、科学的透明性を高めるとともに、他の研究者がモデルを評価し、改良する機会を提供します。

FlowPacker: Protein side-chain packing with torsional flow matching
Lee, J. S., Kim, P. M. 2024-07-10 http://biorxiv.org/cgi/content/short/2024.07.05.602280v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 7: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
細菌の表現型、例えば毒性、宿主特異性、抗菌薬耐性などに関連する遺伝的変異を同定することは、これらの特性に関わるメカニズムをより良く理解するために大きな可能性を持っています。大規模な細菌ゲノムのコレクションの利用可能性が高まったことで、これらの目的のための一般的なアプローチとしてゲノムワイド関連研究(GWAS)が用いられるようになりました。

新規性:
しかし、データの前処理と後処理に複数のソフトウェアツールを使用する必要があるため、これらの方法の適用は経験豊富なバイオインフォマティシャンに限られていました。この問題に対処するために、我々は組み立てられたゲノムとアノテーションのセットから、複数の表現型を対象とした細菌GWASを実行するためのパイプラインを開発しました。

方法:
このパイプラインは、ユニティグ、遺伝子の存在/不在、希少変異(例:遺伝子負荷テスト)、遺伝子クラスター特有のk-mer、およびすべてのユニティグを合わせた5つの遺伝的変異のセットを使用して関連性分析を実行します。関連性の閾値を超えたすべての変異はさらに注釈付けされ、過剰に表現された生物学的プロセスや経路を特定します。結果は、系統樹の生成や抗菌薬耐性および毒性関連遺伝子の存在を予測することによってさらに拡張することができます。我々は、E. coliの毒性に関する既に報告されているデータセットにmicroGWASパイプラインをテストし、因果変異を成功裏に同定し、関連性の結果についてさらなる解釈を提供しました。

このmicroGWASパイプラインは、細菌GWASを実行するための最先端ツールを統合し、シングルでユーザーフレンドリーかつ再現可能なパイプラインにまとめ上げ、これらの分析の民主化を可能にします。このパイプラインは、そのドキュメントと共に、以下のURLでアクセスできます: https://github.com/microbial-pangenomes-lab/microGWAS。

microGWAS: a computational pipeline to perform large scale bacterial genome-wide association studies
Burgaya, J., Damaris, B. F., Fiebig, J., Galardini, M. 2024-07-10 http://biorxiv.org/cgi/content/short/2024.07.08.602456v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 8: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)が人間の呼吸器系でどのように排出されるかを理解することは非常に重要ですが、技術的な限界のためにこれを理解することは依然として困難です。

新規性:
本研究では、公開されている人間のメタゲノムデータとSARS-CoV-2を統合し、単一細胞データを参照として、SARS-CoV-2の排出モードを体系的に解析する新しいアルゴリズム「RedeCoronaVS」を開発しました。これにより、SARS-CoV-2の排出モードをより詳細に理解することが可能となりました。

方法:
RedeCoronaVSアルゴリズムを使用して、SARS-CoV-2がどのようにして排出されるかを、単一細胞データを基に解析しました。入院後24時間以内の非常に初期の感染段階で、SARS-CoV-2の粒子が主要な排出モードであることを特定しました。入院後最初の1週間以内には、宿主細胞内のSARS-CoV-2レプリコンがウイルス粒子と共に排出を支配するようになります。その1週間後には、軽度または中等度の症状を持つ患者ではウイルスの断片が主要な排出モードとなりますが、重症症状を持つ一部の患者では引き続きレプリコンが支配的です。さらに、上皮細胞だけでなく、好中球、マクロファージ、プラズマ細胞内のSARS-CoV-2レプリコンも重要な役割を果たしており、サンプリングの時間と病気の重症度と関連していることが示されました。

以上の内容から、SARS-CoV-2の排出モードについて時間経過と症状の重さによって変化する複雑なパターンがあることが明らかになり、これはウイルスの伝播や感染症管理において重要な示唆を与えるものです。また、新たなアルゴリズムの開発は、将来の研究や治療戦略の策定において有用なツールとなる可能性があります。

SARS-CoV-2 shedding dynamics in human respiratory tract
Jin, X., Ren, L., Ren, X., Wang, J. 2024-07-09 http://biorxiv.org/cgi/content/short/2024.07.09.602697v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 9: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
人間の腸内には多種多様な微生物が存在し、これらの微生物群集(マイクロバイオーム)は健康や病気に影響を与えることが知られています。しかし、これまでの研究では、グローバルな参照データベースを使用して微生物の多様性を解析してきたため、特定の集団に特有の微生物種が見過ごされる可能性がありました。そのため、集団特有の微生物多様性を明らかにし、病気との関連を探るためには、その集団に特化したメタゲノムデータの解析が必要です。

新規性:
本研究では、エストニア人集団(EstMB-deepコホート)から採取した1,878個の便サンプルを用いて、集団特有のメタゲノムアセンブルゲノム(MAGs)の参照データベースを構築しました。これにより、グローバルな参照データベースであるUnified Human Gastrointestinal Genome (UHGG) に含まれていない新種や集団特有の種を含む多様な微生物種を発見することができました。また、これらの微生物が33の一般的な疾患とどのように関連しているかを分析し、新たな疾患と微生物種との関連性を明らかにしました。

方法:
研究では、深層メタゲノミクスデータを用いて、新規の参照ゲノムを構築するために、デノボアセンブリを実施しました。具体的には、84,762個のMAGsをアセンブルし、2,257種の微生物を同定しました。そのうち353種は潜在的な新種であり、607種はUHGGデータベースには存在しない可能性のある集団特有の種でした。さらに、これらの微生物種が33の疾患とどのように関連しているかを統計的に分析し、15の疾患に対して44の有意な関連性を検出しました。これらの関連性は、特に新種の微生物において、人間の健康や病気に対するマイクロバイオームの影響を理解する上で重要な新規の洞察を提供しています。

結論:
この研究は、集団特有のメタゲノムデータを用いたデノボアセンブリによって、マイクロバイオームの新種の発見や、疾患との関連性の解明において、新しい知見をもたらすことを示しています。また、集団特有の微生物多様性を明らかにすることで、グローバルなデータベースでは見落とされがちな微生物種の発見につながり、個々の集団に適した医療への応用が期待されます。

Metagenome-assembled genomes of Estonian Microbiome cohort reveal novel species and their links with prevalent diseases
Pantiukh, K., Aasmets, O., Krigul, K. L., Org, E. 2024-07-09 http://biorxiv.org/cgi/content/short/2024.07.06.602324v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 10: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
タンパク質配列中のアミノ酸置換は一般的に無害ですが、これらの変化の一部は疾患を引き起こす可能性があります。遺伝的変異の影響を正確に予測することは、健康問題に関連するミスセンス変異を持つ患者の診断を加速するために臨床医にとって重要です。遺伝子変異の病原性を予測するための数多くの計算ツールが異なる方法論に基づいて開発されています。近年、多くのアプローチは機械学習に基づいています。これらの多様な計算ツールのパフォーマンスの評価は、将来のユーザーや特に臨床医に指針を提供するために重要です。

新規性:
この研究では、65のツールに関する大規模な研究が行われました。臨床および機能的な文脈の変異体が使用され、ClinVarデータベースおよび文献資料からのデータが組み込まれています。特に、AlphaMissenseは頻繁に非常に良好なパフォーマンスを示し、既存のツールの中で最良のオプションであることが示されました。さらに、予想された通り、メタ予測器は高品質で平均的に良好なパフォーマンスを示しました。進化情報を使用するツールは機能的変異体に対して最高のパフォーマンスを示しました。

方法:
この研究では、ClinVarデータベースおよび文献情報源から得られた変異体を使用して、65の計算ツールのパフォーマンスを比較しました。分析により、特定の変異体を予測する難易度にいくつかの変動がある一方で、他の変異体は常にうまく分類されることが明らかにされました。ClinVarデータベースからの変異体の大部分は予測が容易であるのに対し、他のデータソースからの変異体はより予測が難しいことが示されました。

結論として、変異体の予測可能性は、容易、中程度、難しいの3つの異なるクラスに分類できることが示されました。これらの違いにつながるパラメーターを分析し、クラスが構造的および機能的情報に関連していることを示しました。

Assessment of variant effect predictors unveils variants difficulty as a critical performance indicator
Radjasandirane, R., Diharce, J., Gelly, J.-C., de Bervern, A. G. 2024-07-09 http://biorxiv.org/cgi/content/short/2024.07.08.602580v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 11: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
自然言語処理(NLP)分野での大規模な事前学習済み言語モデルの成功は、ゲノミクスやシングルセル生物学の分野においてもその採用を促進しています。急速に成長しているシングルセルトランスクリプトームデータを使用して事前学習モデルを開発することは、細胞の複雑な言語を解き明かすのに役立ちます。しかし、現在のシングルセル事前学習モデルは、広範な遺伝子発現データから遺伝子と細胞の表現を学ぶことに主に焦点を当てており、それらが特定する遺伝子発現パターンと細胞タイプの生物学的意義を完全に理解することには失敗しています。これにより、解釈可能性と転移性が限られています。

新規性:
提案されているscKEPLM(knowledge-enhanced single-cell pre-training language model)は、生物学的知識グラフをシングルセルトランスクリプトームの事前学習プロセスに統合することで、この問題に取り組んでいます。scKEPLMは、4100万以上のシングルセルRNAシーケンスと890万以上の遺伝子関係をカバーしています。

方法:
scKEPLMは、シングルセルトランスクリプトームシーケンスと遺伝的知識の並行事前学習を通じて、ガウスクロスアテンションメカニズムを組み合わせることで、細胞のセマンティクスを遺伝情報と正確に整合させ、シングルセルトランスクリプトームのより正確で包括的な表現を学習します。知識強化の導入により、scKEPLMによる細胞内の重要遺伝子の識別が改善され、細胞機能と病態メカニズムの理解が大きく豊かになりました。

結果:
scKEPLMモデルは、遺伝子アノテーション、細胞アノテーション、薬物反応予測など、12以上の下流タスクで最先端のパフォーマンスを達成し、強力な一般化能力と転移性を示しています。モデルの解釈可能性のさらなる探求は、様々な生理的または病理的条件下での細胞内の遺伝子発現パターンの変動に適応できることを示しています。

scKEPLM: Knowledge enhanced large-scale pre-trained language model for single-cell transcriptomics
Li, Y., Qiao, G., Wang, G. 2024-07-09 http://biorxiv.org/cgi/content/short/2024.07.09.602633v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 12: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
プロカリオートにおいて、RNA-seqおよびその5'エンリッチメント法は、転写開始点(TSSs)を塩基精度で同定することを可能にし、遺伝子発現分析を改善しました。実験データからTSSsを同定し、近接するアノテーションされた遺伝子に基づいて分類するために計算手法が利用されています。分類できないTSSs(オーファンTSSs)や、既知の遺伝子の逆鎖に見つかるが直接的な転写と関連しないTSSs(アンチセンスTSSs)も存在します。

新規性:
ここでは、TSS-Capturという新しいパイプラインを紹介します。このパイプラインは、実験的に確認されたが未分類のTSSsから出発してゲノム領域を特徴づけるために計算アプローチを使用します。TSS-Capturは、未分類のシグナルを分析し、プロカリオートゲノムのアノテーションツールを補完し、細菌のトランスクリプトームの理解を深めます。

方法:
TSS-Capturは、実験的なTSSデータを分析して、抽出されたトランスクリプトをコーディングまたは非コーディング遺伝子に分類し、各推定トランスクリプトの転写終了点を予測します。非コーディング遺伝子の場合、二次構造が計算されます。さらに、プロモーター領域が分析され、エンリッチされたモチーフが同定されます。インタラクティブなレポートにより、データのシームレスな探索が可能です。TSS-Capturは、Campylobacter jejuniのデータセットで検証され、Streptomyces coelicolorにおけるラベル付けされていない非コーディングRNAが特徴づけられました。コマンドライン越しの使用に加えて、TSS-Capturはウェブアプリケーションとしても利用可能であり、ユーザーのアクセシビリティと探索能力を高めています。

TSS-Captur: A User-Friendly Characterization Pipeline for Transcribed but Unclassified RNA transcripts
Witte Paz, M. A., Vogel, T., Nieselt, K. 2024-07-09 http://biorxiv.org/cgi/content/short/2024.07.05.602221v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 13: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

RNAウイルスは、公衆衛生や農業に大きな影響を及ぼす可能性があり、その系統的多様性は非常に広範囲にわたります。しかし、メタゲノミクスデータからのウイルス発見のための現在のバイオインフォマティクスツールは、しばしば偽陽性のウイルス結果を生み出し、ウイルスの多様性を過大評価し、ウイルス配列の誤分類を行います。さらに、現在のツールはウイルスと宿主の関連性を決定することにしばしば失敗し、新たに検出されたウイルスによる潜在的な脅威の調査を妨げます。これらの問題に対処するために、私たちはメタゲノミクスデータからのRNAウイルスの発見と特徴付けを専門とするソフトウェアツール、VirIDを開発しました。

背景としては、RNAウイルスの発見と特性評価において、既存のバイオインフォマティクスツールには上記のような問題点があり、これに対する解決策が必要であるという点が挙げられます。

新規性としては、VirIDは包括的なRNA依存性RNAポリメラーゼ(RdRP)データベースを基盤として、RNAウイルス発見、系統分析、系統に基づくウイルス特性評価を含むワークフローを強化することで、これらの問題に対処するという点です。

方法としては、まずシミュレーションデータセットに対するベンチマークテストを行い、VirIDがウイルスのプロファイリングとウイルスの豊富さの推定に高い精度を持つことを示しました。実際のサンプルに対する評価では、VirIDはすべてのタイプのRNAウイルスを識別するだけでなく、ウイルスの遺伝的多様性の正確な推定とウイルスの分類を行い、人間、動物、植物との関連性に関する包括的な洞察を提供しました。

したがって、VirIDはウイルス発見のための堅牢なツールを提供し、基礎的なウイルス学研究、病原体監視、感染症流行の早期警告システムにおいて貴重なリソースとなります。

VirID: Beyond Virus Discovery - An Integrated Platform for Comprehensive RNA Virus Characterization
Yang, Z., Shan, Y., Liu, X., Chen, G., Pan, Y., Gou, Q., Zou, J., Chang, Z., Zeng, Q., Yang, C., Kong, J., Sun, Y., Li, S., Zhang, X., Wu, W., Li, C., Peng, H., Holmes, E. C., Guo, D., Shi, M. 2024-07-09 http://biorxiv.org/cgi/content/short/2024.07.05.602175v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 14: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
シングルセルRNAシーケンス(scRNA-seq)は、細胞内のトランスクリプトームの変異を解析するために広く使用されています。特に、3'末端シングルセルRNAシーキューイングは、mRNAのポリアデニル化サイト(PAS)の分析を含む、cDNAの読み出しにおいて、主にリード2のデータが利用されてきました。しかし、シーケンシングノイズが高いにも関わらず、リード1のcDNAもPASの正確な検出において非常に有益な情報を提供することが分かっています。

新規性:
本研究では、リード1を使用してPASを同定し、リード2を利用してその発現量を定量化する新しい計算手法であるscTailを開発しました。この手法により、代替的なPASの使用(PAU)を効果的に検出することが可能になります。他の手法と比較した際に、scTailはPASをより感度良く、精密に検出することができます。

方法:
scTailは、リード1の情報を利用してPASを同定し、リード2の情報を用いてその発現量を定量化します。これにより、PAUの検出が可能となります。さらに、scTailとBRIE2を組み合わせることで、人間の腸内細胞タイプ、食道扁平上皮細胞癌の病状、マウス前肢の組織形成の時間点といった様々な生物学的プロセスにおける差異的な代替PASの使用を発見することができました。

結論:
scTailはリード1とリード2の両方のデータを利用することで、PASの規制に関する重要な洞察を明らかにすることができる新しい手法です。これにより、細胞型、疾患状態、発生時期など、様々な生物学的プロセスにおけるPAUの差異を発見し、理解を深めることができます。

scTail: precise polyadenylation site detection and its alternative usage analysis from reads 1 preserved 3' scRNA-seq data
Hou, R., Huang, Y. 2024-07-09 http://biorxiv.org/cgi/content/short/2024.07.05.602174v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 15: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
転写終結領域(ターミネータ)はDNA上で転写が終了する領域です。バクテリアのターミネータを予測するために複数の計算ツールが存在しますが、これらは特定のバクテリアやターミネータのタイプ(内在性または因子依存性)に特化しています。RNA-seq技術を用いた公開研究から得られた22種のバクテリアの約41,000のターミネータ(内在性および因子依存性)を集め、それらはGC含量が28%から71%の範囲にわたっています。

新規性:
この研究では、BacTermFinderという新しいツールを開発しました。これは異なる表現を入力として受け取る畳み込みニューラルネットワーク(CNN)のアンサンブルを使用しています。BacTermFinderは、内在性および因子依存性の両方のタイプのターミネータを識別し、古細菌のターミネータに対しても一般化する能力があります。また、CNNのサリエンシーマップを視覚化することで、種ごとのターミネータモチーフに関する洞察を得ることができます。

方法:
BacTermFinderの開発には、異なる表現のターミネータ配列を入力とするCNNのアンサンブルを使用しました。訓練には使用されなかった5種のバクテリアと2種の古細菌のターミネータに対するBacTermFinderの性能を評価しました。その性能は他の4つのバクテリアターミネータ予測ツールと比較され、平均リコール(再現率)において他のアプローチを上回り、偽陽性の数を増加させることなく優れていることが示されました。BacTermFinderは公開されており、https://github.com/BioinformaticsLabAtMUN/BacTermFinder で利用可能です。

総じて、BacTermFinderは既存のツールに比べて優れた性能を持ち、様々な種のバクテリアや古細菌のターミネータを識別できる新しいツールです。CNNを用いたアプローチとサリエンシーマップの視覚化により、ターミネータのモチーフに関する新たな理解を深めることができるでしょう。

BacTermFinder: A Comprehensive and General Bacterial Terminator Finder using a CNN Ensemble
Taheri Ghahfarokhi, S. M. A., Pena-Castillo, L. 2024-07-08 http://biorxiv.org/cgi/content/short/2024.07.05.602086v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 16: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
がんは複雑なシステムであり、病気内の一般的な因果関係を理解することに重点が置かれています。この文脈では、生物学的細胞の特徴や成分における対称性と対称性の破れが、がん研究のアプローチとして検討されてきました。しかし、がんのような複雑なシステムを支配する物理法則の理解が不足しているため、物理的観点からの対称性ベースのアプローチを直接解釈することには限界があり得ます。

新規性:
本研究では、フラクタル幾何学とDNAウォーク表現を用いて、野生型および変異を持つオンコジーン、腫瘍抑制遺伝子、および未分類遺伝子のDNAヌクレオチドコーディングシーケンスの幾何学的特徴、すなわち自己相似性と不均一性を調査しました。変異が促す自己相似性と不均一性の特徴は、フラクタル次元とラクナリティ係数によって定量化されました。さらに、分析されたシーケンスの幾何学的な整序性と無秩序性は、フラクタル測度の組み合わせから解釈されました。

方法:
フラクタル幾何学とDNAウォークの手法を用いて、DNAヌクレオチドのコーディングシーケンスの自己相似性と異質性を調べました。フラクタル次元とラクナリティ係数を測定することで、これらの特徴を定量化しました。また、2次元の多フラクタル解析を行い、変異によって誘発される遺伝子シーケンスの自己相似性/複雑さと不均一性のスケーリングに単一の指数が存在することを明らかにしました。

結果:
研究結果は、融合変異の場合に特有のフラクタル幾何学的特徴を示しました。また、特定のがんタイプに対応する明示的な観察と関連して、観察されたフラクタル特徴を幾何学的な類似物として解釈する可能性を浮き彫りにしました。さらに、2次元の多フラクタル解析は、変異による遺伝子シーケンスの自己相似性/複雑さと異質性のスケーリングに単一の指数が存在することを強調しました。

結論:
このアプローチは、遺伝子シーケンスにおける変異による幾何学的特徴を同定し、がんに関する翻訳研究におけるDNAウォークとフラクタル解析の可能性を示しました。フラクタルパラメーターを調査することで、ヌクレオチドシーケンスにおける独特の幾何学的特徴を捉えることができ、がんの分子的複雑さを理解する上での寄与が示唆されました。

DNA walk of specific fused oncogenes exhibit distinct fractal geometric characteristics in nucleotide patterns
Das, A., Sehgal, M., Singh, A., Goyal, R., Prabhakar, M., Fricke, J., Mambetsariev, I., Kulkarni, P., Jolly, M. K., Salgia, R. 2024-07-08 http://biorxiv.org/cgi/content/short/2024.07.05.602166v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 17: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
サブセルラー・スペーシャル・トランスクリプトミクス(SST)は、組織内の細胞下レベルでの遺伝子発現を調査するための革新的な技術です。特定の組織の空間構造を理解するためには、測定されたトランスクリプトを個々の細胞に帰属させるセルセグメンテーションが非常に重要です。しかし、SSTデータセットのための既存のセルセグメンテーション方法は、SST技術の特性が異なるため、細胞境界を正確に区別することに課題があります。

新規性:
この研究では、様々なプラットフォームから得られたSSTデータに特化して設計された統一的なアプローチであるユニファイド・セル・セグメンテーション(UCS)を提案します。これには10X Xenium、NanoString CosMx、MERSCOPE、Stereo-seqなどが含まれます。UCSは、核染色からの核セグメンテーションとトランスクリプトデータを統合することにより、ディープラーニング技術を活用して高精度なセルセグメンテーションを達成します。

方法:
UCSは、個々の細胞へのトランスクリプト割り当てをより正確に行うだけでなく、大規模なSSTデータ分析のための計算上の利点も提供します。UCSの分析出力は、細胞内遺伝子分類や欠損細胞検出など、多様な下流解析をサポートします。UCSを使用することで、研究者は細胞レベルと細胞下レベルの両方で遺伝子発現パターンを特徴づける能力を獲得し、組織の構造と機能についてより深い理解を得ることができます。

UCS: a unified approach to cell segmentation for subcellular spatial transcriptomics
Chen, Y., Xu, X., Wan, X., Xiao, J., Yang, C. 2024-07-08 http://biorxiv.org/cgi/content/short/2024.07.08.601384v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 18: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

この最新の研究では、単一細胞シーケンシングの急速な発展が、個々の細胞の異質性を詳細に解明する機会を提供しています。しかし、現在の方法論では細胞の異質性の起源を正確に解読したり、細胞の運命決定の状態を特定することには限界があります。

背景として、細胞の運命決定の瞬間を理解することは、生物学的な多様性と疾病の原因を解明する上で極めて重要です。特に、血液幹細胞(HSCs)の分化過程における運命決定は、多くの研究が行われていますが、個々の細胞レベルでの運命決定のダイナミクスを明確に理解することは依然として課題です。

新規性として、この研究では「Single-cell Reinforcement Learning(scRL)」という新しいアプローチを導入しています。これは、強化学習のフレームワークを単一細胞データ分析に統合し、アクター・クリティックアーキテクチャの助けを借りています。scRLは、運命決定の強度が系統分化の最大ポテンシャルや実際の遺伝子発現よりも先行することを明らかにし、細胞の運命をより早い段階で予測し、操作することを可能にします。

方法として、scRLは、細胞の運命決定を評価する際の優れた性能を、いくつかの異なるパターンの単一細胞データセットで確認しています。scRLを使用することで、血液幹細胞の分化における骨髄系運命決定におけるDapp1の異なる役割を明らかにし、放射線暴露後に発生する赤血球系運命決定の優先順位を明らかにしています。

この研究により、scRLは細胞の運命決定の研究において新たな地平を開き、細胞の運命をより早期に予測し、操作するための強力なツールとなる可能性を示しています。

Reinforcement learning guides single-cell sequencing in decoding lineage and cell fate decisions
Fu, Z., Wang, S., Sun, K., Xu, B., Ye, X., Wen, Z., Shen, M., Chen, M., Chen, F., Xu, Y., Chen, S., Wang, J. 2024-07-08 http://biorxiv.org/cgi/content/short/2024.07.04.602019v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 19: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
ヘリカーゼはウイルスの生存と増殖に必須な酵素であり、抗ウイルス薬の開発において有望な標的とされています。しかし、ヘリカーゼを標的とした薬剤はまだ十分に開発されておらず、未開拓の領域とされています。このような背景から、ヘリカーゼ阻害剤の開発を促進するために、既存の化学遺伝学データを集約し、新たなデータベースを作成する必要がありました。

新規性:
この研究で開発されたのは、ヘリカーゼ阻害剤に特化したデータベースである「Heli-SMACC(Helicase-targeting SMAll Molecule Compound Collection)」です。ChEMBLデータベースから得られた全てのヘリカーゼに関する化学遺伝学データを集め、厳密なキュレーションを行い、関連する注釈を加えて豊かにしました。これにより、ウイルス、ヒト、細菌のヘリカーゼに関する20,432件の生物活性エントリを含むデータベースが構築されました。

方法:
構築されたHeli-SMACCデータベースから、ウイルスヘリカーゼ活性が有望と思われる30の化合物を選択し、SARS-CoV-2 NSP13 ATPaseアッセイでのテストを行いました。その結果、12の化合物がATPaseの阻害を示し、一貫した用量反応曲線を示しました。これにより、これらの化合物がヘリカーゼ阻害剤としての潜在的な効果を持つ可能性が示唆されました。

Heli-SMACCデータベースは、ウイルス学者や医薬化学者が新規ヘリカーゼ阻害剤の開発に取り組む際の参照資料として機能することを目的としており、一般に公開されています(https://smacc.mml.unc.edu)。このデータベースを活用することで、効果的な抗ウイルス薬の開発を加速することが期待されます。

Heli-SMACC: Helicase-targeting SMAll Molecule Compound Collection
Martin, H.-J., Hossain, M. A., Wellnitz, J., Kelestemur, E., Hochuli, J., Perveen, S., Arrowsmith, C., Willson, T. M., Muratov, E., Tropsha, A. 2024-07-08 http://biorxiv.org/cgi/content/short/2024.07.04.602122v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 20: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
イネいもち病は、Magnaporthe oryzae(イネいもち病菌)によって引き起こされる重大な農業疾患であり、世界的に経済損失をもたらしています。遺伝学的およびゲノム学的研究により、病原性に関わる重要な遺伝子や経路が特定されており、特にAvrPik変異体やMAXタンパク質のようなエフェクタータンパク質が注目されています。これらのタンパク質はイネ第11染色体上の特定のPikアレルと相互作用し、宿主の免疫応答に影響を与えます。

新規性:
本研究は、抗真菌特性を持つとされる35種類の植物由来メタボライトに焦点を当て、これらがM. oryzaeに対する殺菌剤としての潜在性を評価しました。特に、HecogeninとCucurbitacin Eが、それぞれMAX40タンパク質とAPIKL2Aタンパク質に対して高い結合能力を示すことが分子ドッキング解析により同定されました。これらのタンパク質は菌の毒性や免疫回避機能に不可欠です。

方法:
研究では、分子ドッキング解析を用いて、候補化合物のイネいもち病菌のエフェクタータンパク質への結合能力を評価しました。HecogeninとCucurbitacin EがMAX40タンパク質とAPIKL2Aタンパク質に対して高い結合能力を持つことを発見し、分子動力学シミュレーションによりこれらの相互作用が強固で安定であることをさらに検証しました。さらに、リピンスキーの法則(Lipinski's rule of five)の基準や毒性予測を含む追加評価が行われ、これらの化合物が農業利用に適していることを示しました。

これらの知見は、HecogeninとCucurbitacin Eがイネいもち病に対する新規殺菌戦略を開発するうえでの有望な候補であることを示しており、作物保護と農業持続可能性の向上に寄与する可能性があります。

Exploring Effector Protein Dynamics and Natural Fungicidal Potential in Rice Blast Pathogen Magnaporthe oryzae
Ferdausi, J., Robin, T. B., Nasrin, S., Ahmed, I., Hossain, T., Hasan, M. M., Soaeb, M. H., Tamim, M. A., Yeasmin, N. J., Habiba, U., Ahmed, N., Rani, N. A., Bhuyian, M. S., Vakare, S. N., Moin, A. T., Patil, R. B., Hossain, M. S. 2024-07-08 http://biorxiv.org/cgi/content/short/2024.07.04.602162v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 21: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
新型コロナウイルス(SARS-CoV-2)は、世界中で感染を広げ続けています。このウイルスの変異株を特徴づける研究の多くは、非同義変異(タンパク質のアミノ酸配列に変化をもたらす変異)に焦点を当てています。しかし、同義変異(タンパク質のアミノ酸配列に変化をもたらさない変異)も変異株間で蓄積していることがあります。

新規性:
この論文では、同義変異がウイルスのゲノムRNAの二次構造や安定性に与える影響について予測し、特徴づけを行います。同義変異がRNAの二次構造に与える影響は一般に無視できるか、または軽微であることが多いという点に注目しています。これは、タンパク質を変更する変異にかかる選択圧が同義変異には適用されないためです。この研究は、コーディング領域内を含むRNA構造の重要性と、ウイルスの適応能力への影響を強調しています。

方法:
論文では、6つの懸念される変異株(Variants of Concern)の変異内容を特徴づけ、これらの変異がゲノムRNAの二次構造および安定性に与える影響について予測を行っています。RNAの二次構造への影響を評価するために、おそらく生物情報学的手法や実験的手法を用いて、同義変異の存在下でのRNAの二次構造の変化を分析していると考えられます。また、RNA構造の変化がウイルスの適応能力に与える影響についても検討しています。

結果として、同義変異はRNA二次構造に大きな影響を与えるものではなく、ウイルスの適応においてRNA構造が重要な役割を果たしていることが強調されています。この結果は、ウイルスの進化と適応の研究において、タンパク質の変化だけでなく、RNA構造の変化も考慮する必要があることを示唆しています。

Structural impact of synonymous mutations in six SARS-CoV-2 Variants of Concern
Ziesel, A., Jabbari, H. 2024-07-08 http://biorxiv.org/cgi/content/short/2024.07.06.602340v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 22: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
最尤法(Maximum Likelihood, ML)に基づく系統推定は、複雑な最適化問題の一つです。与えられたアラインメントされた入力配列から、系統樹のトポロジー、枝の長さ、進化的パラメーターを決定し、系統推定の尤度関数を最大化することが目的です。しかし、入力配列は確率的および系統的なノイズの影響を受けやすいため、最適化を極限まで推し進めることには慎重さが求められます。過剰な最適化は、ノイズの多い入力データに対するモデルの過適合(overfitting)のリスクを伴います。

新規性:
この論文では、RAxML-NGにおいて、過剰で計算集約型の最適化を避けるための4つの統計的早期停止基準を提案、実装、評価しています。これらの一般的な基準は、他の系統推定ツールにシームレスに統合することができ、系統樹の精度を低下させることなく過剰な最適化を回避します。

方法:

  1. 最初の2つの基準は、入力データ固有のサンプリングノイズを定量化し、停止閾値を導出します。

  2. 3番目の基準は、Kishino-Hasegawa (KH) テストを使用して、RAxML-NGの主要な最適化ステップの前後で中間系統樹間の差異の統計的な有意性を評価します。改善が無意味である場合に早期に最適化を終了します。

  3. 4番目の方法は、KHテストにおいて複数検定補正を利用します。

  4. これらの早期停止基準は、早期停止なしで推定された系統樹と統計的に同等であることを示しています。

  5. RAxML-NGの標準的な系統樹探索ヒューリスティックを必要に応じて単純化することで、実データセットとシミュレーションデータセットの平均推定時間は、標準的なRAxML-NG v.1.2に比べてそれぞれ約3.5倍、約1.8倍速くなります。

これらの4つの停止基準はRAxML-NGに実装されており、GNU GPLの下でオープンソースコードとして https://github.com/togkousa/raxml-ng で利用可能です。

Much Ado About Nothing: Accelerating Maximum Likelihood Phylogenetic Inference via Early Stopping to evade (Over-)optimization
Togkousidis, A., Stamatakis, A., Gascuel, O. 2024-07-08 http://biorxiv.org/cgi/content/short/2024.07.04.602058v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 23: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
アゾール耐性カンジダ感染症の出現は大きな懸念事項です。耐性獲得の主要なメカニズムの一つは、アゾール薬の主要な標的であるステロール14α-デメチラーゼにおけるアミノ酸置換を通じています。多くの耐性置換が知られていますが、そのような置換のパターンは明らかではありません。

新規性:
我々は耐性置換がアゾール結合部位で不釣り合いに発生するという仮説を立てました。文献から2,222件のアゾール耐性置換例を収集し、広範な計算機による配列解析を実施しました。

方法:
合計で7種のカンジダのステロール14α-デメチラーゼにおいて、133箇所で169の既知の置換があり、C. albicansだけで97箇所で120の置換がありました。全体のインスタンスの75%を占めるのはわずか10箇所と18の置換(例えばY132F/H、K143R、D116E、G464Sなど)でした。既知のホットスポット領域内にあるサイトは約48%に過ぎず、既知のアゾール相互作用残基の約33%にのみ既知の耐性置換が存在し、そのほとんどはいくつかのインスタンスしかありませんでした。アゾール耐性置換に関する文献データは、Y132F/HやK143Rなどのいくつかの置換が1000件以上も好んで探求され報告されており、アゾール感受性のカンジダ分離株における「耐性」置換の多数の報告もあるため、非常にバイアスがかかっているように見えます。我々の研究はアゾール耐性に関して興味深い視点を提供しています。

Azole resistance: Patterns of amino acid substitutions in Candida sterol 14α-demethylase
Rao, R. S. P., Pinto, L., Shastry, R. P., Dakal, T. C., Suravajhala, P., Sashindran, V., Ghate, S. 2024-07-08 http://biorxiv.org/cgi/content/short/2024.07.04.602050v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 24: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
Ca2+イメージング手法は、脳内の細胞活動を研究するために広く利用されています。この手法は、高コントラストの光学顕微鏡と蛍光Ca2+センサーを用いて、ニューロン内の局所的なCa2+変動を含む、さまざまなスケールでの動的プロセスを詳細に分析することができます。特に、樹状突起の幹部やスパインといった細胞内コンパートメント内のCa2+変動を明らかにすることが可能です。

新規性:
しかしながら、形態の変動性があり、信号対雑音比が低いという特徴を持つミニチュアシナプスカルシウムトランジェント(mSCTs)の分析は依然として困難です。従来の閾値ベースの方法では、これら小さく動的なイベントの検出とセグメンテーションに苦労しています。ディープラーニング(DL)アプローチは有望な解決策を提供しますが、大量のアノテートされたデータセットが必要という制限がありました。ポジティブアンラベルド(PU)学習は、ラベルなしインスタンスを活用してデータセットのサイズを増やし、パフォーマンスを向上させることでこの制限に対処します。このアプローチは、前景ピクセルのごく一部に関連する、希少で小さなmSCTsの場合に特に有用です。PU学習は、トレーニングデータセットの実質的なサイズを大幅に増加させ、モデルのパフォーマンスを改善します。

方法:
本研究では、mSCTsの検出とセグメンテーションのためのPU学習ベースの戦略を提示しています。小さな体積構造のセグメンテーションにおいて確立されている2つの3Dディープラーニングモデル、StarDist-3Dと3D U-Netのパフォーマンスを評価しています。PU学習を統合することで、3D U-Netのパフォーマンスを向上させ、従来の方法よりも大きな改善を実証しています。この作業は、Ca2+イメージング分析におけるPU学習の応用を先駆けており、mSCT検出とセグメンテーションのための堅牢なフレームワークを提供しています。また、この定量分析パイプラインを使用して、後続のmSCT特徴分析を行う方法も示しています。私たちは、化学的長期増強(cLTP)刺激を適用した培養ラット海馬ニューロンにおけるmSCTの形態的および動態的変化を特徴づけています。データ駆動型アプローチにより、cLTP誘発刺激が新たな活動的樹状突起領域の出現を引き起こし、mSCTサブタイプに異なる影響を与えることが示されています。

Quantitative Analysis of Miniature Synaptic Calcium Transients Using Positive Unlabeled Deep Learning
Beaupre, F., Bilodeau, A., Wiesner, T., Leclerc, G., Lemieux, M., Nadeau, G., Castonguay, K., Fan, B., Labrecque, S., Hlozek, R., De Koninck, P., Gagne, C., Lavoie-Cardinal, F. 2024-07-08 http://biorxiv.org/cgi/content/short/2024.07.04.602047v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 25: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
第三世代シーケンシングプラットフォームであるOxford Nanopore Technology(ONT)を用いることで、長いアンプリコンのシーケンシングを通じて微生物コミュニティを特徴づけることが可能になりました。これにより、Illuminaのような短読み取りシーケンシングプラットフォームと比較して、より高い分類学的解像度を理論的に実現できます。しかし、ONTの高いエラー率は、サンプル内のコミュニティメンバーを正確に同定する上で問題となっています。

新規性:
本論文では、CONCOMPRAという新しいツールを紹介し、検証しています。CONCOMPRAは、コンセンサス配列を作成し、それにマッピングすることで、コミュニティ内の密接に関連する菌株を検出することができます。既存のツールと比較して、全長の16S rRNA遺伝子シーケンシングを用いた細菌コミュニティのプロファイリングにおいて、CONCOMPRAが優れた性能を発揮することを示しています。また、CONCOMPRAはシーケンスデータベースに依存せずにコミュニティをプロファイリングするため、参照枠組みが不十分に開発されているシステムやアンプリコンに適用可能です。

方法:
CONCOMPRAはGitHub上で公開されており、長いアンプリコンのOxford Nanoporeシーケンシングデータの処理において、キメラの検出と除去が不可欠なステップであることを強調しています。検証テストでは、長いPCR製品の増幅がキメラ副産物を生産し得ることが示されており、これはアルファ多様性を増加させ、コミュニティ構造を歪める可能性があります。従って、CONCOMPRAはキメラ検出機能を備えており、これにより正確なコミュニティプロファイリングが可能になります。

まとめると、CONCOMPRAは参照フリーのツールであり、長いアンプリコンのOxford Nanoporeシーケンシングデータに対して、既存のツールよりも高い精度で性能を発揮します。特に、キメラ検出と除去は長いアンプリコンデータ処理の重要なステップであることが強調されています。

Breaking free from references: a consensus-based approach for community profiling with long amplicon nanopore data
Stock, W., Rousseau, C., Dierickx, G., D'hondt, S., Martinez, L. A., Dittami, S. M., van der Loos, L., De Clerck, O. 2024-07-07 http://biorxiv.org/cgi/content/short/2024.07.04.602031v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 26: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
空間トランスクリプトミクスの急速な発展は、空間的に変動する遺伝子(Spatially Variable Genes, SVGs)を同定することの重要性を強調しています。空間トランスクリプトミクスデータ分析における基本的なタスクの一つとして、SVGsの同定は広範囲にわたって研究されてきました。しかしながら、包括的なベンチマークの不足は、実際のデータセットを用いた様々なアルゴリズムの有効性を検証することを困難にしています。

新規性:
この論文は、合成されたデータセットと実世界のデータセットの分析を通じて、SVGsを同定するためのアルゴリズムを評価するベンチマークフレームワークを提案しています。このフレームワークは、最適なアルゴリズムとそれに対応する適用シナリオを特定することを目的としています。

方法:
提案されたフレームワークは、医学および生命科学の研究者が自分たちの研究に適したアルゴリズムを選択するのを支援するとともに、バイオインフォマティクス科学者が空間トランスクリプトミクス研究において、より強力で効率的な計算方法を開発するのを援助します。このフレームワークは、多数の研究にまたがって散在する様々なアルゴリズムの有効性を検証するための包括的な基準を提供することで、この分野の研究の進歩に貢献することを意図しています。

Benchmarking algorithms for spatially variable gene identification in spatial transcriptomics
Chen, X., Ran, Q., Tang, J., Chen, Z., Huang, S., Shi, X., Xi, R. 2024-07-07 http://biorxiv.org/cgi/content/short/2024.07.04.602147v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 27: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
遺伝子の共発現は生物学的機能を理解する上で重要な洞察を与えますが、大規模データセットにおける局所的な遺伝子共発現を探索するためのツールは不足していました。遺伝子の共発現は、特定の生物学的プロセスや病態において、相互に関連する遺伝子が同時に活性化される現象を指し、これを解析することで、細胞や組織の機能的特性を理解する手がかりを得ることができます。

新規性:
本研究では、GeneSurferというインタラクティブなインターフェースを提案しました。このツールは、3D空間領域における局所的なトランスクリプトーム全体の遺伝子共発現パターンを探索するために設計されています。GeneSurferは、空間的な局所共発現に基づくトランスクリプトーム全体の遺伝子フィルタリングと遺伝子クラスタリング、遺伝子クラスターの平均発現のマルチスライス3Dレンダリング、共発現遺伝子セットのオンザフライでのGene Ontology項目注釈付けなど、いくつかの重要な機能を提供します。

方法:
GeneSurferは、トランスクリプトーム的に類似した細胞内での空間的局所共発現に基づいて遺伝子をフィルタリングし、クラスタリングします。また、遺伝子クラスターの平均発現を3Dで視覚化し、共発現遺伝子セットに対してGene Ontology項目をリアルタイムで注釈付けすることができます。さらに、各探索段階で空間領域における個々の遺伝子や遺伝子共発現を調査するための複数のリンクされたビューを提供します。

Allen Brain Cell Atlasからの空間トランスクリプトミクスデータと単一細胞RNAシークエンスデータを用いて、GeneSurferの有用性を実証しました。GeneSurferは、局所的なトランスクリプトーム全体の共発現を効果的に特定し、注釈付けを行い、生物学的な洞察を提供するとともに、仮説の生成と検証を促進します。

GeneSurfer Enables Transcriptome-wide Exploration and Functional Annotation of Gene Co-expression Modules in 3D Spatial Transcriptomics Data
Li, C., Thijssen, J., Kroes, T., van der Burg, X., van der Weerd, L., Höllt, T., Lelieveldt, B. 2024-07-07 http://biorxiv.org/cgi/content/short/2024.07.05.602230v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 28: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
シーケンスベースの空間的トランスクリプトーム解析(ST)の現在の課題は、低存在量の細胞サブポピュレーションの空間的分布を正確に解決し、複雑な組織マイクロ環境内での細胞状態のコンテキスト依存の変動を検出することです。これにより、複雑な生体の組織内での細胞の挙動や相互作用を理解する上で重要な情報が得られます。

新規性:
本研究では、UCASpatialという超解像度STデコンボリューションアルゴリズムを導入しています。このアルゴリズムは、細胞同一性を示す遺伝子の寄与をエントロピーに基づく重み付けを通じて活用することで、細胞サブポピュレーションを空間的位置にマッピングする解像度を向上させます。

方法:
UCASpatialは、in silico(コンピュータ上のシミュレーション)および実際のSTデータセットを使用して、低存在量の細胞サブポピュレーションを識別する堅牢性と精度を向上させることを実証しています。また、トランスクリプション的に異質な細胞サブポピュレーションを区別する能力も改善しています。

応用事例として、UCASpatialをマウスの創傷治癒に適用することで、創傷治癒に関与する複数の細胞サブポピュレーションの既知の時空間ダイナミクスを再現し、創傷中心における異なる細胞コミュニティ内に埋め込まれたマクロファージサブポピュレーションの空間的分離を明らかにしました。また、人間の大腸がん(CRC)では、個々のがんクローンのゲノム変異を腫瘍免疫マイクロ環境(TIME)の多細胞特性にリンクし、同一腫瘍内のがん細胞とTIMEの共進化を明らかにしました。さらに、がん細胞における染色体20qのコピー数増加(chr20q-gain)が、免疫療法への耐性を示すT細胞排除型TIMEを形成し、内因性レトロウイルスのサイレンシングとI型インターフェロン応答の障害と関連していることを示しています。

まとめると、UCASpatialはSTにおける超解像度細胞風景を解読し、複雑でダイナミックなマイクロ環境における細胞間メカニズムを探究するための多用途ツールとして提示されています。

Ultra-resolution Deconvolution of Spatial Transcriptomics Unveils Spatiotemporal Cellular Dynamics in Complex Microenvironments
Xu, Y., Huang, Z., Zhang, Y., Wang, Z., Guo, P., Zhang, F., Gong, W., Liang, G., Mei, B., Dong, L., Chang, R., Gong, M., Xia, Y., Ni, H., Yang, J., Gao, Y., Liu, Z., Shen, L., Li, J., Xu, M. M., Han, D. 2024-07-07 http://biorxiv.org/cgi/content/short/2024.07.05.602200v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 29: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
空間オミクス技術は、高空間分解能によるタンパク質やRNAの精密な検出を可能にします。空間オミクス実験をデザインする際には、「何を」測定するか、「どこに」視野(FOV)を配置するかを慎重に考慮する必要があります。現在のFOVサンプリング戦略は、密集してサンプリングされたFOVをつなぎ合わせることが多いですが、これは時間がかかり、リソースを大量に消費し、時には不可能です。

新規性:
FOVサンプリング戦略を最適化するために、我々はSOFisherという強化学習に基づくフレームワークを開発しました。これは、以前にサンプリングされたFOVのシーケンスから得られた知識を活用して、次のFOV位置の選択を導くことで、関心領域をより効率的に捉えることを目的としています。

方法:
SOFisherの性能は、実際の空間データセットに基づいた包括的なシミュレーションを使用して厳格に評価されました。その結果、SOFisherは様々な指標を通じて従来のアプローチを一貫して上回ることが明らかになりました。SOFisherの堅牢性と汎用性は、クロスドメインの一般化テストおよび異なるFOVサイズへの適応性を通じてさらに検証されました。実際のアルツハイマー病(AD)のデータセットにおいて、SOFisherは神経原線維変化やアミロイドベータプラークを含むFOVの選択を成功させました。これは、単一および二重ターゲットの組織ランドマークシナリオの両方で行われました。注目すべきは、限られた組織領域においてSOFisherに導かれた空間シングルオミクスの実験設計が、広範囲な空間マルチオミクス実験を通じて以前に得られたAD関連の細胞状態、サブタイプ、遺伝子プログラムに関する洞察をもたらしたことです。

SOFisherは、空間生物学の実験設計を革命的に変える可能性を秘めています。

SOFisher: Reinforcement Learning-Guided Experiment Designs for Spatial Omics
Li, Z., Wu, W., Cui, Y., Jian, S., Yuan, Z. 2024-07-07 http://biorxiv.org/cgi/content/short/2024.07.05.602236v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 30: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
T細胞の免疫機能研究においては、単一細胞レベルでのトランスクリプトームとT細胞受容体(TCR)の特徴を統合的に解析することが非常に重要です。T細胞は、その受容体の多様性と遺伝子発現プロファイルを通じて、免疫応答における特異的な役割を果たします。したがって、これらの特徴を同時に解析することで、T細胞の機能や抗原特異性をより深く理解することができます。

新規性:
本研究では、MIST(Multi-Insight for T cell)と呼ばれる深層学習フレームワークを導入しています。MISTは、遺伝子発現、TCR、そして両者を統合した共有潜在空間という三つの潜在空間を特徴としています。このフレームワークは、T細胞のトランスクリプトームとTCRデータをベクトル化し、統合することで、細胞の機能や抗原特異性を容易かつ正確に解決する能力を持っています。これにより、従来の研究では報告されていなかった、肺がん浸潤CD8+ T細胞内のCXCL13+サブセットの異質性や、抗PD-1療法に関連するその機能的移行についての新たな洞察を提供しています。

方法:
MISTを使用して、抗原特異的T細胞や肺がん免疫療法に関連するT細胞の解析を行いました。このプロセスでは、T細胞の遺伝子発現データとTCR配列データを統合し、深層学習を用いてそれぞれの細胞の特徴を抽出しました。特に、肺がん患者におけるCD8+ T細胞のCXCL13+サブセットを分析し、それらが抗PD-1療法とどのように関連しているかを特定しました。これにより、MISTは抗原特異性や細胞機能に関する解釈可能性と柔軟性を実証しています。

MISTのソースコードはオープンソースとしてGitHubで公開されており、研究コミュニティによる利用や改善が期待されています。このツールは、T細胞研究における新しい洞察の獲得や、免疫療法のためのバイオマーカーの同定に貢献する可能性があります。

MIST: an interpretable and flexible deep learning framework for single-T cell transcriptome and receptor analysis
Lai, W., Li, Y., Luo, O. J. 2024-07-07 http://biorxiv.org/cgi/content/short/2024.07.05.602192v1

この記事が気に入ったらサポートをしてみませんか?