見出し画像

Recent BioRxiv on Bioinformatics: June 11, 2024

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 1: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
ランダムフォレストモデルは、特徴が相互作用的、非線形、または非加算的な方法でターゲットに影響を与える場合に特に有用であり、ゲノムデータ分析に広く使用されています。計算速度の面で効率的なランダムフォレストメソッドのいくつかはPythonで実装されていますが、多くの生物学者は追加の統計分析や可視化を行うための統一されたプラットフォームとしてRを使用しています。

新規性:
ここで紹介するRパッケージであるpyRforestは、Pythonのscikit-learnの`RandomForestClassifier`アルゴリズムをR環境に統合します。pyRforestはPythonの効率的なメモリ管理と並列化を継承しており、RNA-seqなどの大規模ゲノムデータセットにおける分類タスクに最適化されています。さらに、バイオマーカー同定のための新しいランクベースの順列法も提供しており、個々の特徴に対するp値を推定し、視覚化することができます。これにより、研究者は効果のある統計的な証拠が強い特徴のサブセットを同定することができます。

方法:
pyRforestには、SHapley ADditive Explanations (SHAP) 値の計算と可視化のための方法も含まれています。また、遺伝子オントロジーやパスウェイの濃縮のための包括的な下流分析をサポートしています。pyRforestは、ランダムフォレストモデルの実装と解釈を改善し、Pythonの強みとRを融合させることにより、ゲノムデータ分析におけるその有効性を高めています。

pyRforestは以下のURLからダウンロードすることができます: https://www.github.com/tkolisnik/pyRforest
関連するビネットはこちらで確認できます: https://github.com/tkolisnik/pyRforest/blob/main/vignettes/pyRforest-vignette.pdf。

pyRforest: A comprehensive R package for genomic data analysis featuring scikit-learn Random Forests in R
Kolisnik, T., Keshavarz-Rahaghi, F., Purcell, R. V., Smith, A. N. H., Silander, O. K. 2024-06-10 http://biorxiv.org/cgi/content/short/2024.06.09.598161v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 2: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
遺伝子の分布表現は、データ駆動型のゲノミクス研究において中心的な役割を果たしています。これはゲノムデータの複雑さを理解するための構造化された方法を提供し、様々なデータ分析タスクの基礎を築いています。現在の遺伝子表現学習方法は、異種のトランスクリプトームコーパス上でのコストがかかる事前学習を必要としており、これはアプローチが困難であり、過度に一般化する傾向があります。特に、空間トランスクリプトミクス(ST)においては、スポットの埋め込みを学習する方法が多数存在する一方で、空間的な遺伝子プロファイルから遺伝子の埋め込みを生成する方法には顕著な欠如があります。

新規性:
この問題に対応するために、我々はSpaCEXを提示します。これは、STデータから空間的なゲノミクス「コンテキスト」を利用して遺伝子の埋め込みを生成する、コスト効率の良い自己教師あり学習モデルの先駆者です。ここでいう「コンテキスト」とは、空間的に共発現している遺伝子群を指します。SpaCEXによって生成された遺伝子埋め込み(SGE)は、コンテキスト認識、豊かな意味論、およびクロスサンプルの技術的アーティファクトに対するロバスト性を特徴としています。

方法:
SpaCEXは、実データ解析を通じて、SpaCEXが特定したゲノミクスコンテキストの生物学的関連性を明らかにし、SGEの機能的および関係的意味論を検証しています。さらに、我々はSGEに基づく計算方法のスイートを開発しました。これには、疾患関連遺伝子や遺伝子間相互作用の同定、指定された空間的発現パターンを持つ遺伝子の特定、FISHベースのSTのトランスクリプトームカバレッジの向上、空間的に変動する遺伝子の検出、および空間的クラスタリングの改善など、重要なダウンストリーム目標の範囲が含まれています。実データによる広範な結果は、これらの方法の優れた性能を示し、SGEが様々な分析タスクを容易にする可能性を確認しています。

Learning context-aware, distributed gene representations in spatial transcriptomics with SpaCEX
Sun, X., Xu, Y., Li, W., Huang, M., Wang, Z., Chen, J., Wu, H. 2024-06-10 http://biorxiv.org/cgi/content/short/2024.06.07.598026v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 3: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
新しい薬物や化学製品の開発において、特定の化学物質が生物学的システムにどのような影響を与えるかを特定することは、非常に重要なステップです。これまで、研究者たちは化合物の画像ベースの形態学的プロファイルを利用して、既知の化合物プロファイルライブラリとのマッチングにより、化合物の作用機序を推定してきました。

新規性:
本研究では、形態学的プロファイルに基づいて生成された遺伝子表現の変化を示すデータを追加情報として取り入れることで、分類性能が大幅に向上することを実証しました。これは、ライブラリ内の注釈付き化合物の既知のターゲットとして機能する遺伝子を選択し、その遺伝子の発現レベルを人工的に増減させた細胞の形態学的プロファイルを用いて遺伝子の表現を生成するものです。

方法:
研究では、遺伝子と化合物のペアを「真」または「偽」として分類するトランスフォーマーモデルを訓練しました。各ペアは遺伝子と化合物の潜在的な相互作用を表しています。モデルは、新たな未知の化合物に対して、最もターゲットとなり得る遺伝子のランク付けされたリストを生成します。しかしながら、訓練データセットのサイズが限られているため、これまでに遭遇した遺伝子をターゲットとする化合物に対してのみ高い性能を示しており、直接的な化合物プロファイルや遺伝子プロファイルとのマッチングよりも改善が見られる一方で、新規化合物の遺伝子ターゲットを予測する能力には限界があります。より大きなデータセットによって予測能力が向上し、新しい化合物の遺伝子ターゲットを予測し、その後実験的に検証することが可能になるかもしれません。

Cell morphological representations of genes enhance prediction of drug targets
Iyer, N. S., Michael, D. J., Chi, S.-Y. G., Arevalo, J., Chandrasekaran, S. N., Carpenter, A. E., Rajpurkar, P., Singh, S. 2024-06-10 http://biorxiv.org/cgi/content/short/2024.06.08.598076v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 4: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
大腸がんは世界中でがん死の主要な原因の一つです。この研究では、Gene Expression Omnibusデータベースからの異なる発現を示すmiRNAの分析を通じて、大腸がんにおいて差異的に発現しているmicroRNAであるmiR-135bを同定しました。

新規性:
miR-135bに関連する標的遺伝子を特定し、その下にある生物学的プロセスを包括的に理解するために、経路と機能の濃縮分析を実施しました。さらに、Dicerの切断部位での小分子標的に向けた、de novoの三次元モデルを開発しました。これは、miRNAとmRNAの標的相互作用および転写後の遺伝子沈黙に関与するRNA誘導サイレンシング複合体(RISC)へのガイドmiRNAのローディングに先立って、pre-miRNAの末端ループ領域に結合して切断し、二本鎖のmiRNA複合体を生成するDicerの機能に基づいています。

方法:
分子ドッキングシミュレーションは、ChemDivのmiRNA標的小分子ライブラリー(約20,000化合物)を用いて開始されました。最高得点の化合物の商業的アナログは、SwissSimilarityを使用してZINCライブラリー内で検索されました。これらのアナログはDicerの切断部位にドッキングされ、最適化されたドッキングスコアが得られました。その後、これらの最高得点の分子は全原子分子動力学シミュレーションにかけられ、シミュレーション後の分析がmiRNAと選択されたヒットリガンド間の動的な相互作用を評価するために実施されました。

この研究の新規性は、miR-135bの特定とそれに関連する生物学的プロセスの解明、およびDicerの切断部位を標的とする小分子の三次元モデルの開発にあります。このモデルを用いた分子ドッキングと動力学シミュレーションは、大腸がん治療に向けた新しい治療薬の開発に寄与することが期待されます。

Targeting miRNA for Colorectal Cancer: In Silico Identification and Physics-based De Novo Modeling of Oncogenic miR-135b for Small Molecule RNA Therapy
Demir, B., Oktay, L., Durdagi, S. 2024-06-10 http://biorxiv.org/cgi/content/short/2024.06.08.598084v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 5: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
近年、単一細胞解析やバルク解析において、マルチオミクスデータへの依存度が高まっています。これに伴い、クラスタリング、可視化、特徴選択を行うための堅牢な非監視分析手法が求められています。マルチオミクスデータセットに対して、主成分分析(PCA)のような単一オミクス技術と同様に、グローバルなサンプル埋め込みを導出するために、共同次元削減手法が適用されます。複数の共変量分析(MCIA)は、ブロックレベルとグローバルレベルの埋め込み間の共分散を最大化する共同次元削減の方法です。

新規性:
現在のMCIAの実装は、単一細胞研究から生じる大規模なデータセットに最適化されておらず、新しいデータの埋め込み機能に関しても不足しています。本研究では、nipalsMCIAというMCIAの新しい実装を紹介しています。この方法は、非線形反復部分最小二乗法(NIPALS)の拡張を用いて目的関数を解き、単一細胞マルチオミクスデータに対する以前の実装よりも大幅な速度向上を示しています。また、説明される分散を計算するための固有分解への依存を排除し、新しいデータのアウトオブサンプル埋め込みを可能にします。

方法:
nipalsMCIAは、プリプロセッシングとパラメータオプションの多様性、単一オミクスおよびグローバル埋め込み因子の解析の容易さをユーザーに提供します。BioConductorパッケージとして利用可能であり、詳細なドキュメンテーションとアプリケーションのビニエットが含まれています。サプリメンタリーマテリアルはオンラインで利用可能です。

nipalsMCIAは、https://bioconductor.org/packages/release/bioc/html/nipalsMCIA.html で入手可能で、詳細なドキュメンテーションと適用例が提供されています。

nipalsMCIA: Flexible Multi-Block Dimensionality Reduction in R via Nonlinear Iterative Partial Least Squares
Mattessich, M., Reyna, J., Aron, E., Ay, F., Kilmer, M., Kleinstein, S. H., Konstorum, A. 2024-06-10 http://biorxiv.org/cgi/content/short/2024.06.07.597819v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 6: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
抗体薬物の開発においては、抗体が標的抗原とどのように相互作用するかが、その効力を決定する重要な要素です。抗体と抗原の結合親和性は、抗体が抗原を中和する能力の指標であり、この結合の強度が抗体の成功を示します。理論的には、結合親和性が高ければ高いほど、抗体が標的抗原に対して成功する可能性が高まります。分子ドッキングや分子動力学などの技術が結合親和性の定量化に利用されていますが、これらの技術の計算複雑性のため、大きな抗体/抗原のシミュレーションは困難を伴います。ディープラーニングに基づく結合親和性の予測が進歩しているものの、これらのアプローチは抗体-抗原構造の品質に大きく依存しており、タンパク質の変異に伴う進化の詳細を捉える重要性を見落としがちです。さらに、既存のデータセットの多くは一つの抗原変異に関連する抗体-抗原ペアのみを含んでおり、包括的なデータ駆動アプローチを開発するには不適切です。

新規性:
この問題を克服するために、我々はまず、タンパク質の配列と構造の両方を含む、最大かつ最も一般化された抗体-抗原結合親和性予測のためのデータセットを作成しました。その後、原子レベルの詳細と進化の詳細の両方を考慮して結合親和性を予測する構造ベースのモデルと配列ベースのモデルを含むディープジオメトリックニューラルネットワークを提案します。

方法:
提案されたフレームワークは、構造ベースのモデルと配列ベースのモデルを組み合わせており、タンパク質の結合親和性を予測する際に、原子レベルの情報と進化に関する情報の両方を考慮しています。このフレームワークは、最先端モデルと比較して平均絶対誤差で10%の改善を示し、予測と目標値との間に強い相関を示しました。

我々は、科学と社会のために、抗体-抗原結合親和性予測フレームワークの開発を支援するために、データセットとコードを公開しています。公開されたリンクはhttps://drug-discovery-entc.github.io/p2pxml/です。

Deep Geometric Framework to Predict Antibody-Antigen Binding Affinity
Bandara, N. S., Premathilaka, D., Chandanayake, S., Hettiarachchi, S., Varenthirarajah, V., Munasinghe, A., Madhawa, K., Charles, S. 2024-06-10 http://biorxiv.org/cgi/content/short/2024.06.09.598103v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 7: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
蛍光シグナルを用いた顕微鏡撮影において、ノイズは画像品質に大きく影響し、正確な神経活動の解析を困難にします。特に、一過性の局所的な蛍光シグナルを記録する際には、ノイズの除去が重要です。従来のデノイジング手法は録画の頻度やセンサーの動態に依存することが多く、また高度なハードウェアを要求することがありました。これにより、平均的な研究室ではカスタマイズされたデノイジングツールの開発が難しい状況にありました。

新規性:
我々が開発した「Neuroimage Denoiser」は、U-Netベースの新しいモデルであり、顕微鏡記録からノイズを効果的に除去することができます。このモデルは録画の頻度や使用されるセンサーの動態に依存しないデノイジングプロセスを実現します。また、デノイジングとトレーニングが容易であり、最小限のハードウェア要件で利用できるため、平均的な研究室でも実験設定に特化したカスタムバージョンを作成することが可能です。

方法:
「Neuroimage Denoiser」は、深層学習に基づいたU-Netアーキテクチャを採用しています。U-Netは、畳み込み層とデコンボリューション層を組み合わせた構造を持ち、画像の詳細を保ちながらノイズを除去することができるため、顕微鏡画像のデノイジングに適しています。このモデルは、既存の顕微鏡画像をトレーニングデータとして使用し、ノイズが存在する画像とノイズが除去された画像のペアを学習することで、ノイズを効果的に除去することを学びます。

結果として、「Neuroimage Denoiser」は機能顕微鏡記録の品質を大幅に向上させ、より正確で信頼性の高い神経活動の解析を促進します。これにより、神経科学分野の研究において、より詳細な洞察を提供することが期待されます。

Neuroimage Denoiser for removing noise from transient fluorescent signals in functional imaging.
Weissbach, S., Milkovits, J., Borghi, M., Amaral, C., El Khallouqi, A., Gerber, S., Heine, M. 2024-06-10 http://biorxiv.org/cgi/content/short/2024.06.08.598061v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 8: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

与えられた文脈に基づき、最新論文の内容を以下のように分けて詳しく説明します。

背景:
この研究では、単一細胞レベルでの確率分布を推定する方法を提案しています。特に、外部バルクRNAシークエンスサンプルの細胞組成を、高解像度(単一細胞または近傍レベル)で定量化するための細胞の微細な分解(fine-scale cellular deconvolution)に応用されています。バルクRNAシークエンスデータから、どのような種類の細胞がどれだけ含まれているかを特定することは、生物学的な理解を深める上で重要です。

新規性:
従来のアプローチでは、細胞タイプレベルでの遺伝子発現プロファイルを計算する必要がありましたが、この方法はそれに比べてはるかに高い解像度を実現しています。また、最近の高解像度細胞分解法と比較しても、計算効率において桁違いの高速化を達成しています。これは、細胞の種類をより詳細に区別し、細胞間の微妙な違いを捉えることが可能になることを意味します。

方法:
提案された方法は、計算効率の良い凸最適化問題に基づいており、密度推定のための一般化クロスエントロピー法の応用です。この最適化問題を解くことによって、細胞の確率分布を推定することができます。また、この方法はPythonパッケージ「quipcell」として実装されており、GitHubの指定されたURLからアクセスして利用することができます。

総じて、この研究は、細胞の分解能を大幅に向上させるとともに、計算効率も大幅に改善する新しい手法を提案しており、細胞の研究における新たな可能性を開いています。

Fine-scale cellular deconvolution via generalized maximum entropy on canonical correlation features
Kamm, J. 2024-06-10 http://biorxiv.org/cgi/content/short/2024.06.07.598010v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 9: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
グリコミクスデータは、相対的な存在量によって示される全体の一部として計測される糖鎖から成る組成データであり、エイチソン単体(Aitchison simplex)によって定義されています。このタイプのデータに従来の統計分析を適用すると、他の構造物の存在量が急激に増加する際に、糖鎖の「減少」という誤解を招く結果や、差異のある存在量に対して25%以上の偽陽性率をもたらすなど、誤解を招く結論に繋がります。

新規性:
我々の研究では、グリコミクスデータの比較分析に特化した組成データ分析の枠組みを導入しています。この枠組みは、データの依存関係を考慮しており、センターログ比(CLR)変換と加算ログ比(ALR)変換を用い、スケールの不確実性/情報を取り入れたモデルによって拡張されています。これにより、最も堅牢で感度の高いグリコミクスデータ分析パイプラインが導入されました。

方法:
公開されている多数の比較グリコミクスデータセットに適用することにより、このモデルが偽陽性率を制御し、新たな生物学的発見をもたらすことを示しています。さらに、この枠組みを用いて比較グリコミクスデータを分析する新たな手法を提示しています。アルファ多様性(alpha-diversity)とベータ多様性(beta-diversity)は、生物学的サンプル内およびサンプル間の糖鎖分布の探索を可能にし、クロスクラス糖鎖相関は複雑で以前に検出されなかった相互依存性を明らかにします。

これらの新しいアプローチは、健康と病気における糖鎖の役割を理解する上で重要なグリコームの変動について、より深い洞察を提供しています。

Ratios in Disguise, Truths Arise: Glycomics Meets Compositional Data Analysis
Bennett, A. R., Lundstrom, J., Chatterjee, S., Thaysen-Andersen, M., Bojar, D. 2024-06-10 http://biorxiv.org/cgi/content/short/2024.06.09.598163v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 10: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
空間トランスクリプトミクス(ST)技術は、遺伝子発現プロファイルとそれらの相対的な位置を同時に測定することで、細胞の分子的特徴に関するより豊かな洞察を提供します。しかし、各スライスは限られた生物学的変異を含むことしかできず、異なるスライス間にはほぼ常に無視できないバッチ効果が存在するため、バッチ効果と位置を考慮して多数のスライスを統合することは単純ではありません。

新規性:
我々は、バッチ効果を減少させ、複数のSTスライスを通じて共通の生物学的パターンを抽出し、同時に空間ドメインを識別する階層的な隠れマルコフ確率場モデルSTADIAを提案します。これにより、異なるスライス間でのデータ統合の問題に対処し、共通の組織構造を捉えつつ、スライス固有の生物学的シグナルを保存することが可能になります。

方法:
STADIAは、異なる種(ヒトとマウス)、様々な臓器(脳、皮膚、肝臓)、そして多様なプラットフォーム(10x Visium、ST、Slice-seqV2)からの五つのデータセットを使用してその有効性を実証しました。STADIAは、複数のスライスを通じて共通の組織構造を捉えることができ、スライス固有の生物学的シグナルを保持します。さらに、バッチ混合と空間ドメイン識別のバランスの観点から、他の三つの競合する方法(PRECAST、fastMNN、Harmony)よりも優れていることが示されました。

STADIAは、バッチ効果を考慮しながら複数のスライスからのデータを統合し、空間的なドメインを識別することができるモデルであり、空間トランスクリプトミクスデータの解析において新たなアプローチを提供します。これにより、異なるスライスや実験から得られるデータを統合し、より包括的な生物学的理解を得ることが可能になると期待されます。

Statistical batch-aware embedded integration, dimension reduction and alignment for spatial transcriptomics
Li, Y., Zhang, S. 2024-06-10 http://biorxiv.org/cgi/content/short/2024.06.10.598190v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 11: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
新しい医薬品の開発において、副作用(Adverse drug reactions, ADRs)は大きな問題です。ADRsは開発の後期段階や市場に出た後に特定されることがあり、候補分子に多大な資源を投じた後に失敗や中止に至ることがあります。そのため、早期にADRsを予測することは、将来の失敗を避けることでコストを削減するのに役立ちます。しかし、承認される薬の数が少ないため、ADRsに関する歴史的データポイントは限られており、伝統的な化学情報学の方法では予測が困難です。興味深いことに、承認された各薬剤は何百ものADRsで注釈されており、これはADRs予測をマルチタスクやメタラーニングの問題として捉えるための道を開きます。

新規性:
この研究では、メタラーニングアプローチをADRs予測に適用し、公開されているSide Effect Resource (SIDER)を使用して条件付きニューラルプロセス(Conditional Neural Processes, CNPs)を適用しました。これにより、ラベルの欠落がある疎なデータセットで訓練された場合でも、単一タスクのベースラインに対して競争力があることが示唆されました。また、その予測がよく校正されていることがわかりました。

方法:
研究では、異なる生理システムに関連するADRsについて、そのパフォーマンスを評価し、臓器クラスを横断して良好な予測を確認しました。CNPsは、特定の条件下でのデータ点に基づいて、新しいサンプルの予測を行う学習方法です。SIDERデータベースを使用して、複数のADRsに対する予測タスクを同時に学習することで、データが限られた臨床的エンドポイントにおいても有効な戦略であることを示しました。

結論として、この研究はメタラーニング戦略がデータが限られた臨床的エンドポイント、特にADRsに有益である可能性を示唆しています。これは、伝統的な方法では困難であった問題に対して、新しいアプローチを提供するものです。

Calibrated prediction of scarce adverse drug reaction labels with conditional neural processes
Garcia-Ortegon, M., Seal, S., Singh, S., Bender, A., Bacallado, S. 2024-06-10 http://biorxiv.org/cgi/content/short/2024.06.07.598036v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 12: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
バイオインフォマティクス、特にゲノミクスやプロテオミクスにおいて、正確なシークエンス長のプロファイリングは非常に重要です。既存のツールであるSeqKitやTrinityツールキットなどは基本的なシークエンス統計を提供していますが、包括的な分析やプロットオプションを提供するには不十分な場合があります。例えば、SeqKitはシークエンス分析に非常に完全で高速なツールであり、有用なメトリクス(例えば、シークエンス数、平均、最小、最大長さ)を提供しますが、与えられた長さに対してより短い、またはより長い(一方のみ、同時にはない)シークエンスの範囲を返すことができます。同様に、Trinityのユーティリティパールベースのスクリプトは詳細なコンティグ長分布(例えば、N50、中央値、平均長さ)を提供しますが、シークエンスの総数を包含しておらず、データのグラフィカルな表現を提供していません。

新規性:
これらの背景を踏まえ、キーシークエンス分析タスクが複数のツールに分散していることを考慮して、我々はSeqLengthPlotという使いやすいPythonベースのスクリプトを導入しました。これはシークエンス長プロファイリングにおける既存のバイオインフォマティクスツールのギャップを埋めるものです。SeqLengthPlotは、ユーザーが定義したシークエンス長に基づき、入力されたFASTA(核酸およびタンパク質)ファイルから自動的にシークエンスをフィルタリングし、二つの異なるファイルに取り出すこと、ならびに対応するシークエンスの包括的な統計サマリーとプロットまたは動的な視覚化を生成します。

方法:
SeqLengthPlotはPython言語で書かれたスクリプトであり、FASTAファイルを入力として受け取ります。ユーザーはシークエンスの長さを調整することができ、この基準に基づいてシークエンスが二つの異なるファイルに分けられます。統計サマリーには、シークエンスの数、平均、最小、最大長さなどの基本的なメトリクスが含まれています。さらに、SeqLengthPlotはデータのグラフィカルな表現を生成する機能を有しており、これによってシークエンスデータをより直感的に理解することが可能になります。動的な視覚化により、異なるシークエンス長の分布を詳細に把握することができます。

SeqLengthPlot: An easy-to-use Python-based Tool for Visualizing and Retrieving Sequence Lengths from fasta files with a Tunable Splitting Point
Dominguez-Perez, D., Agüero-Chapin, G., Leone, S., Modica, M. V. 2024-06-09 http://biorxiv.org/cgi/content/short/2024.06.07.597948v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 13: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

与えられた文脈に基づいて、最新論文の内容を詳しく説明します。

背景:
バイオマーカーは、疾患の診断や予後の判断に役立つ分子マーカーであり、臨床サンプルから見つけることができます。高スループット技術を用いて、正常細胞と病気の細胞の遺伝子発現を比較することで、これらのシグネチャー分子を探索することができます。がん-精巣抗原(CTAs)は、通常の条件下では精巣に限定的に発現し、様々な腫瘍で異常発現するため、がんバイオマーカーの有望な候補です。CTAsは通常、トランスクリプトミクス(遺伝子発現解析)によって同定されますが、異なる組織におけるそのタンパク質レベルの包括的な特性評価はまだ必要です。

新規性:
質量分析に基づくプロテオミクスは、多くの細胞タイプの特性評価を可能にし、大量のデータを生成します。計算ツールを用いることで、複数のデータセットを比較し、これらはトランスクリプトミクスレベルで得られた知見を裏付けることができます。本研究では、健康な組織と腫瘍組織のプロテオミクスレイヤーにおけるCTAsタンパク質の豊富さを探索する計算メタアナリシスを行っています。

方法:
組み合わされたデータセットは、トランスクリプトミクスレベルで以前に記述された241の既知のCTAsを含む、17,200のユニークなタンパク質の発現パターンを提示します。これらは、腫瘍組織で有意に豊富なタンパク質(22タンパク質)、腫瘍組織に特有のタンパク質(42タンパク質)、または健康な組織で豊富なタンパク質(32タンパク質)としてさらにランク付けされました。この分析は、腫瘍プロテオームの特性評価とそれに続くバイオマーカー候補や治療標的の同定の可能性を示しています。

この論文は、タンパク質のレベルでのCTAsの包括的な特性評価と、健康および腫瘍組織におけるその発現パターンの分析を通じて、新たながんバイオマーカーや治療標的の同定に寄与する可能性を示しています。

Detecting predicted cancer-testis antigens in proteomics datasets of healthy and tumoral samples
Machado, K. C. T., Fiuza, T. D. S., De Souza, S. J., De Souza, G. A. 2024-06-09 http://biorxiv.org/cgi/content/short/2024.06.08.597624v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 14: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
遺伝子の機能的な多様性は、そのアイソフォームの多様性によって高められることが知られています。遺伝子の転写における代替スプライシングや代替転写などの過程がトランスクリプトームの多様化に寄与しているにも関わらず、これらの過程がプロテオームの多様性にどのように影響しているのかについての理解はまだ初歩的な段階にあります。

新規性:
この研究では、「Exon Nomenclature and Annotation of Transcripts」という革新的な枠組みを提示しています。この枠組みはエクソンの位置を中心に据え、エンティティごとのタンパク質配列とスプライスサイトの変動を追跡・評価しながら統合することを特徴としています。このアプローチにより、エクソンの特徴が追跡可能になり、アイソフォームの多様性に関する体系的な分析が容易になります。

方法:
このフレームワークによって得られたアノテーションは、エクソンの特徴を追跡可能にし、CDS領域におけるエクソンの組み込みが多様性の調節においてどのような役割を果たしているのかを明らかにするのに役立ちます。この研究で生成された全てのデータは、www.iscbglab.in/enactdb/ で公開されており、関連するアルゴリズム手順については方法セクションで説明されています。

研究の結果と事例研究は、CDS領域における系統的なエクソンの組み込みが、多様性の調節において重要な役割を果たしていることを明らかにしています。これにより、遺伝子の機能的なレパートリーを拡張するための新しい手法としての可能性が示されています。

Exon Nomenclature and Classification of Transcripts (ENACT): Systematic framework to annotate exon attributes
Verma, P., Thakur, D., Pandit, S. B. 2024-06-09 http://biorxiv.org/cgi/content/short/2024.06.07.597685v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 15: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

与えられた文脈に基づいて、最新論文の内容を背景、新規性、方法という観点から詳しく説明いたします。

背景:
多くの生物医学研究プロジェクトは、仮説生成を促進し、多様なユースケースに役立つ大規模なデータセットを生み出します。これらのデータセットは、研究コミュニティにとって有用なリソースとなり得ます。しかし、複数のリソースやバイオインフォマティクスツールからのデータをまたいで複雑なクエリを実行することは、現在容易ではありません。そこで、生物医学デジタルオブジェクトの発見可能性、アクセシビリティ、相互運用性、再利用性(FAIR)を支援するインフラストラクチャの開発と、データからの知識を最大限に抽出することが求められています。

新規性:
本論文では、Playbook Workflow Builder(PWB)と呼ばれるウェブベースのプラットフォームを紹介しています。PWBは、ユーザーが入力データセット、意味的にアノテートされたAPIエンドポイント、およびエコシステムによって提供されるデータ可視化ツールの増え続けるネットワークを活用して、ワークフローを対話式に構築できるようにするものです。また、技術的な専門知識を必要とせずに、貢献されたビルディングブロックからワークフローを構築できるユーザーフレンドリーなウェブベースのユーザーインターフェース(UI)を提供しています。

方法:
PWBを用いることで、GTEx、LINCS、メタボロミクス、GlyGen、ExRNA Communication Consortium(ERCC)Common Fund(CF)Data Coordination Centers(DCCs)からのデータを使用して、個々のがん患者に対する新規ターゲットをふるい分けるなど、複数のリソースから知識を引き出す意味のある仮説を生成する能力を示すいくつかのユースケースを提示しています。PWBで作成されたワークフローは、異なる入力を使用して類似のユースケースに取り組むために公開および再利用することができます。ワークフローの各ステップの出力は、テキスト記述、インタラクティブなダウンロード可能な図表を含むレポートで提供されます。

PWBプラットフォームは、以下のURLから利用可能です: https://playbook-workflow-builder.cloud/。

Playbook Workflow Builder: Interactive Construction of Bioinformatics Workflows from a Network of Microservices
Clarke, D. J. B., Evangelista, J. E., Xie, Z., Marino, G. B., Maurya, M. R., Srinivasan, S., Yu, K., Petrosyan, V., Roth, M. E., Milinkov, M., King, C. H., Vora, J. K., Keeney, J., Nemarich, C., Khan, W., Lachmann, A., Ahmed, N., Jenkins, S. L., Agris, A., Pan, J., Ramachandran, S., Fahy, E., Esquivel, E., Mihajlovic, A., Jevtic, B., Milinovic, V., Kim, S., McNeely, P., Wang, T., Wenger, E., Brown, M. A., Sickler, A., Zhu, Y., Blood, P. D., Taylor, D. M., Resnick, A. C., Mazumder, R., Milosavljevic, A., Subramaniam, S., Ma'ayan, A. 2024-06-09 http://biorxiv.org/cgi/content/short/2024.06.08.598037v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 16: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
RNAウイルスは宿主内で大きく異質な集団を形成しています。ウイルス集団の構造と多様性は、病気の進行や治療結果に影響を与えます。次世代シーケンシング技術により、ウイルス集団の詳細な分析が可能となりましたが、エラーを含むリードからの多様性の推定は困難です。

新規性:
本研究では、VILOCA(Virus Local Haplotype Caller)という新しい手法を提案しています。この手法は短いリードと長いリードの両方に適用可能なウイルスシーケンシングデータから変異を呼び出し、ローカルハプロタイプを再構築することができます。ローカルハプロタイプとは、入力リードの長さにおおよそ等しいゲノム領域を指します。VILOCAは、ディリクレ過程混合モデルを使用してリードを未観測のハプロタイプの周囲にクラスタリングし、シーケンシングリードの品質スコアを活用してローカルハプロタイプを回復します。

方法:
VILOCAの性能は、変異呼び出しとハプロタイプ再構築の精度の観点から、シミュレートされたデータと実験的なIllumina、PacBio、Oxford Nanoporeデータで評価されました。シミュレーションと実験的なIlluminaデータにおいて、VILOCAは既存の手法と同等かそれ以上の性能を示しました。シミュレーションされた長いリードデータにおいて、VILOCAは平均で82%の真実の変異を完璧な精度で回復することができました。これは、次点の手法が64%のリコールと90%の精度しか達成していないことと比較しています。

まとめ:
VILOCAは特に長いリードのシーケンシングデータにおいて、変異およびハプロタイプ呼び出しの精度を大幅に改善することを提供します。したがって、宿主内の異質なウイルス集団の包括的な特徴付けを容易にします。

VILOCA: Sequencing quality-aware haplotype reconstruction and mutation calling for short- and long-read data
Fuhrmann, L., Langer, B., Topolsky, I., Beerenwinkel, N. 2024-06-09 http://biorxiv.org/cgi/content/short/2024.06.06.597712v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 17: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
近年、培養不能な微生物を回収するためのメタゲノムデータの解析は、微生物ゲノム学を革命的に拡張し、参照ゲノムカタログを急速に拡大しています。この中心には、メタゲノミックシーケンシングデータから微生物ゲノムを大規模に参照独立で回復させることを可能にするデノボアセンブリとゲノムビニングの計算手法があります。これらのタスクに固有の計算上の課題を解決するためのバイオインフォマティクス手法が進歩しているにもかかわらず、計算資源の限界はこれらの技術の完全な潜在能力を引き出すための重要な障壁であり続けています。その結果、利用可能なメタゲノムツールの効果的な利用のために、使用されるパラメーターの微調整を含む戦略を考案する必要性が強調されています。利用可能なメタゲノムアセンブリツールのほとんどは、kというパラメーターに依存するde Bruijnグラフフレームワークに基づいているため、効率的な計算のために適切なk-merのサブセットを選択することがバイオインフォマティクスで一般的なアプローチとなっています。

新規性:
この研究では、計算効率と高・低複雑性メタゲノムアセンブリの品質とのバランスを最適化するために、k-merの削減セットを提案しています。このk-merセットをMEGAHITで使用することで、デフォルトセットに比べてメタゲノムアセンブリの時間を半分に削減し、それに伴う計算コストも大幅に削減します。さらに、将来このセットを採用する大規模ゲノムビニング研究においても、回収されたゲノムの総数の増加、および削減されたk-merベースのメタゲノムアセンブリから回収された高・中品質ゲノムの割合の向上という約束をもたらすと観察されました。

方法:
提案されたk-merの削減セットは、計算効率とアセンブリ品質のバランスを取るように最適化されています。MEGAHITという既存のメタゲノムアセンブリツールを使用して、このk-merセットを活用し、メタゲノムアセンブリのプロセスを改善します。アセンブリ時間を半分に削済み、計算コストを軽減する一方で、回収されるゲノムの数と品質を向上させることができるという研究結果が得られました。これにより、大規模なゲノムビニング研究における効率と品質の向上が期待されます。

Efficient De Novo Assembly and Recovery of Microbial Genomes from Complex Metagenomes Using a Reduced Set of k-mers
Rehman, M. U., Ali, A., Qayyum, H. 2024-06-09 http://biorxiv.org/cgi/content/short/2024.06.08.598064v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 18: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
タンパク質の進化を予測し理解する試みは、理論的および実験的な両面における制約により妨げられてきました。既存の進化の理論モデルは記述的であり、予測的ではないため、最終的な修正を研究者が手作業で行う必要があります。タンパク質の進化のシーケンス空間を探るための既存の実験技術、例えば指向性進化は、資源を大量に消費し特殊なスキルを要求します。

新規性:
我々は、Successor Sequence Predictor(SSP)を革新的な解決策として提示します。Successor Sequence Predictorは、実験室でのタンパク質進化を模倣するインシリコ(計算機上でのシミュレーション)方法であり、タンパク質の進化史を再構築し、その歴史に観察されたトレンドに基づいて将来のアミノ酸置換を提案します。このアプローチは、熱安定性、活性、溶解性などの望ましい特性を改善する変異を予測することで、特殊なタンパク質を強化します。

方法:
Successor Sequence Predictorは、慎重に選ばれた物理化学的記述子を使用して、タンパク質の進化の歴史を再構築し、将来のアミノ酸置換を提案することで、実験室ベースのタンパク質進化を模倣します。このツールは、実際に有用なタンパク質を開発するための一般的なタンパク質エンジニアリングツールとして使用することができます。Successor Sequence Predictorのコードは提供されており、ユーザーフレンドリーなウェブサーバー(https://loschmidt.chemi.muni.cz/fireprotasr/)を通じて変異の設計が可能です。

Anticipating Protein Evolution with Successor Sequence Predictor
Khan, R. T., Kohout, P., Musil, M., Rosinska, M., Damborsky, J., Mazurenka, S., Bednar, D. 2024-06-09 http://biorxiv.org/cgi/content/short/2024.06.08.598054v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 19: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
タンパク質間相互作用(PPI)の新規発見は、タンパク質の機能理解や生物システムの性質の解明に不可欠です。特に、全プロテオームにわたるPPIの探索は、生物学的な理解を大きく進展させる可能性があります。しかし、このような大規模スクリーニングを行うには、膨大な計算資源が必要とされるため、効率的な方法の開発が求められています。

新規性:
本論文では、AlphaFastPPiという新しいパイプラインを紹介しています。このパイプラインは、AlphaFold-MultimerとAlphaPulldownを基盤としており、他の方法と比較して資源消費を削減し、効率性を向上させることができます。具体的には、必要なモデルの最小数を5つから1つに減らすことで、リソース消費を抑えつつ、良好な精度を維持しています。これにより、PPI予測のためのより持続可能なアプローチを提供しています。

方法:
AlphaFastPPiは、AlphaFold-Multimerの予測能力を活用しつつ、計算効率を改善するための最適化を行っています。具体的には、モデル生成の回数を削減することで、計算リソースの消費を減らしています。このパイプラインの最適化が精度に影響を与えないことを実証しており、迅速かつ効率的、かつ環境に優しいPPI予測ソリューションを提供しています。また、AlphaFastPPiのコードはオープンソースとして提供されており、https://github.com/MIDIfactory/AlphaFastPPi から自由にアクセスして利用することができます。

このように、AlphaFastPPiは計算資源の制約が大きいタンパク質間相互作用予測の課題に対して、効率的かつ精度を損なわないソリューションを提供することで、生物学的研究における新たな可能性を開くと期待されています。

AlphaFastPPi: a fast AlphaFold-Multimer-based pipeline for high-throughput screening
Bellinzona, G., Sassera, D., Bonvin, A. M. J. J. 2024-06-09 http://biorxiv.org/cgi/content/short/2024.06.07.597882v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 20: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
疾患遺伝子の細胞タイプ特異的な作用は、病気の遺伝的アーキテクチャに複雑性をもたらし、病機構の理解を困難にしています。シングルセルオミクスは、細胞レベルでの遺伝子の機能的役割を明らかにし、病気の進行に重要な細胞タイプを特定しています。しばしば、遺伝子の病気への影響は、単なる発現レベルの変化ではなく、特定の細胞タイプ内での変更されたネットワークを通じて生じます。

新規性:
この文脈では、HCNetlas(ヒト細胞ネットワークアトラス)という新しいリソースが開発されています。これは、さまざまな健康な組織細胞の細胞タイプ特異的遺伝子ネットワーク(CGN)をカタログ化するものです。さらに、疾患遺伝子の細胞タイプ特異的な機能を調査するために、3つのネットワーク分析方法が考案されました。これらの方法は、HCNetlasのCGNと疾患に影響を受けた組織サンプルから得られたCGNを比較することを含んでいます。

方法:
上記の3つのネットワーク分析方法は、疾患に関連する遺伝子がどの細胞タイプで作用するかをリンクするために、HCNetlasのCGNを疾患に影響を受けた組織サンプルから得られたCGNと比較します。例えば、全身性エリテマトーデスの遺伝子は主に骨髄系細胞で機能し、アルツハイマー病の遺伝子は主に抑制性および興奮性ニューロンで役割を果たし、多くの肺癌遺伝子は免疫細胞で役割を果たしていることが示されています。

これらの発見は、HCNetlasが疾患関連遺伝子を作用する細胞タイプにリンクする可能性を示唆しており、複雑な人間の疾患に対する細胞タイプ解決の診断と治療戦略の開発を促進する可能性があります。

HCNetlas: Human cell network atlas enabling cell type-resolved disease genetics
Yu, J., Cha, J., Koh, G., Lee, I. 2024-06-09 http://biorxiv.org/cgi/content/short/2024.06.07.597878v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 21: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
タンパク質配列のアラインメント(整列)においては、アミノ酸の置換可能性スコアが用いられます。これは、特定のアミノ酸ペアにおけるアミノ酸の発見確率と、任意のペアにおけるそのアミノ酸の周辺確率を組み合わせたものです。しかし、アラインメント中の位置におけるアミノ酸の発見確率は、シーケンス自体のアミノ酸にも条件付けられています。コンテンツ依存の補正は、タンパク質アラインメントモデルを過剰パラメータ化してしまいます。

新規性:
本論文では、周辺確率を使用せず、ペア内のアミノ酸の発見確率のみをスコアリングする、(不)類似性測定に基づくアプローチを提案しています。不類似性スコアリング行列は、アラインメントされたシーケンスの集合にメトリック空間を与えます。これにより、新しいヒューリスティックスを開発することができました。

方法:
提案されたアラインメントアルゴリズムは、ガイドツリーを使用せず、すべてのシーケンスを均一に扱います。これにより、明示的な進化ベースのモデリングの仮定を用いずに行われるアラインメントが、タンパク質の進化に関する仮説(例えば、分子系統学)の検証に利用されるべきだと提案しています。

まとめると、この研究は従来のアラインメントモデルの問題点を指摘し、新たな(不)類似性に基づくスコアリング手法を導入することで、タンパク質の進化に関する研究における新しい視点とツールを提供しています。

Alignment of multiple protein sequences without using amino acid frequencies.
Shirokov, R., Shelyekhova, V. 2024-06-09 http://biorxiv.org/cgi/content/short/2024.06.05.597668v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 22: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

この最新の論文は、生物学研究における重要な関心事であるタンパク質言語モデルの最適なトレーニング方法を探求しています。この分野では最適な実践方法に関する指針が限られており、多くのモデルは性能向上が頭打ちになるまで大規模な計算リソースを使ってトレーニングされています。これまでの焦点はモデルサイズの拡大に主に置かれていましたが、パフォーマンスと計算予算のバランスを取る効率的な計算フロンティアを最適化することにはあまり注目されていませんでした。

背景:
この研究は、939百万ものタンパク質配列という膨大なデータセットを基盤に行われています。研究者たちは、モデルサイズ、トレーニングトークン数、目的との関連を調査するために、35万から107億のパラメータを持つ300以上のモデルを5兆から200兆のユニークトークンでトレーニングしました。

新規性:
研究ではまず、一般的に使用されるUnirefデータベースを繰り返し使用することで発生する因果関係言語モデル(CLM)の減少収益効果と、マスク言語モデル(MLM)の過学習効果を観察しました。これに対処するため、トレーニングセットにメタゲノミクスタンパク質配列を含めることで多様性を増し、パフォーマンスの頭打ちや過学習の効果を避けました。次に、タンパク質配列データの特定の特性に合わせて調整されたTransformer上でのCLMとMLMのスケーリング法則を得ました。さらに、推定される効果的に転送されたトークンに基づくスケーリング行動を通じて、CLMからMLMへの転移スケーリング現象を観察し、転移の有効性をさらに実証しました。最後に、スケーリング法則を検証するために、タンパク質生成や構造・機能関連タスクなどの下流タスクにおいて、ESM-2やPROGEN2の大規模バージョンを、同等またはそれ以下の事前トレーニング計算予算で比較しました。

方法:
研究者たちは、様々なサイズのモデルを異なる数のトレーニングトークンでトレーニングし、モデルサイズとトレーニングトークン数、目的との関係を分析しました。また、データセットにメタゲノミクスタンパク質配列を含めることで、モデルの多様性を高め、既存のデータベースに依存することによる問題を克服しました。さらに、Transformerベースのモデルを用いて、タンパク質配列データに特化したスケーリング法則を確立しました。そして、これらの法則を用いて、異なるモデル間での転移学習の効果を評価しました。最終的には、これらのスケーリング法則を用いて、実際のタンパク質関連タスクにおけるモデルの性能を検証しました。

Training Compute-Optimal Protein Language Models
Cheng, X., Chen, B., Li, P., Gong, J., Tang, J., Song, L. 2024-06-09 http://biorxiv.org/cgi/content/short/2024.06.06.597716v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 23: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
シングルセル技術の急速な進歩により、多様なオミクスデータを迅速かつコスト効率よく取得することが可能になりました。これにより、生物学者は細胞集団、疾患状態、発生系統の複雑さを解明することができるようになりました。さらに、マルチモーダルシングルセルオミクス技術の出現により、生物システム内の相互作用を研究する新たな道が開かれました。しかし、シングルセルオミクスデータは高次元でノイズが多く、スパース(疎)な特徴を持っており、これらのデータの解析は大きな課題です。そのため、次元削減(DR)技術はこのようなデータを解析する上で重要な役割を果たします。

新規性:
多くのDR方法が開発されていますが、それぞれに限界があります。例えば、PCAのような線形方法は、細胞の種類や状態間の多様で複雑な関係を効果的に捉えることに苦戦します。これに対応するため、非線形技術が導入されましたが、これらは高次元設定でのスケーラビリティの問題に直面したり、単一のオミクスデータに限定されたり、主に視覚化に焦点を当てているため、下流のタスクに役立つ情報を含む埋め込みを生成することが主な目的ではありませんでした。そこで、変数間の非線形関係を定量化する機能的依存性尺度として、DCOL(Dissimilarity based on Conditional Ordered List)相関を正式に導入しました。

方法:
この尺度に基づき、シングルオミクスデータおよびマルチオミクスデータの次元削減と統合のためのDCOL-PCAとDCOL-CCAを提案します。シミュレーション研究では、私たちの方法は他の8つのDR方法と4つのjDR(joint dimension reduction)方法を上回り、様々な設定において安定した性能を示しました。最も挑戦的なシナリオでも、重要な因子を効果的に抽出することができました。また、実際のデータセットでこれらの方法を検証し、オミクスデータ内外の複雑なシグナルを検出し、データの重要な情報と潜在構造を保持する低次元の埋め込みを生成する能力を示しました。

Fast and Tuning-free Nonlinear Data Embedding and Integration based on DCOL
Liu, S., Yu, T. 2024-06-09 http://biorxiv.org/cgi/content/short/2024.06.06.597744v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 24: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
進化の重要なメカニズムの一つに、染色体、DNAの大きな塊、遺伝子、タンパク質ドメイン、短いモチーフなどのレベルで起こる重複(duplication)があります。タンパク質の進化を理解する上で、重複の研究は中心的な役割を果たしますが、内部リピート間の類似性が長期的な分岐によって低下するため、反復的な配列パターンの検出はしばしば困難です。最も感度の高い配列ベースのリピート検出方法であるHHrepIDは、ホモロジー信号を強化し、非常に古い重複の検出を容易にするために、複数配列アラインメント(MSAs)の構築に依存しています。しかし、このようなアラインメントベースのアプローチは遅く、大規模なスキャンを実行する能力に制限があります。

新規性:
最近のタンパク質表現学習の進歩により、タンパク質言語モデルから抽出されたシーケンス埋め込みを利用する手法が、MSAsに対する強力でずっと高速な代替手段として導入されました。タンパク質シーケンス表現は、私たちが最近開発したpLM-BLASTなどのソフトウェアによって例証されるように、ホモロジー検出に効果的であることが示されています。この研究では、シーケンス埋め込みにエンコードされたリピートを特定するために、pLM-BLASTに基づいて構築されたパイプラインpLM-Repeatを実装しました。pLM-Repeatは、リピートの存在を検出する際のHHrepIDと同等の感度を達成し、さらに多くのリピートユニットを予測し、著しく優れた実行時間を提供します。さらに、よく特徴づけられたリピートフォールドに類似したパターンを持つドメインの検出のために、ニューラルネットワークDeepRepeatをトレーニングして、高速なフィルタリングをサポートしました。

方法:
私たちは、新たに開発されたツールを使用して、AFDB90v4データベースをスキャンし、新規で未記述のリピートタンパク質のコレクションを同定しました。これにより、タンパク質の構造と機能の研究において、これまでにない新しいリピートタンパク質の発見が可能となりました。

Exploiting protein language model sequence representations for repeat detection
Qiu, K., Dunin-Horkawicz, S., Lupas, A. N. 2024-06-09 http://biorxiv.org/cgi/content/short/2024.06.07.596093v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 25: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
神経変性疾患は、アルツハイマー病、パーキンソン病、ハンチントン病、筋萎縮性側索硬化症(ALS)、多発性硬化症、HIV関連神経認知障害など、個人、その家族、介護者、そして医療システムに大きな影響を与えています。現在、これらの疾患を治療するための確立された治療法はありませんが、世界中の研究者たちは病気の進行を遅らせ、症状を和らげ、患者の全体的な健康を改善する可能性を持つ新しい治療法の開発に取り組んでいます。

新規性:
この研究では、AGATHAと呼ばれるAIに基づく文献マイニングツールを導入しています。これは、PubMedのような大規模な科学文献データベースを自動的に分析することを可能にするものです。AGATHAを用いて、FDA承認済みの薬剤と関心のある健康状態との間に隠された関連性を明らかにし、薬の再利用(リパーパシング)に適応させることが、この努力の最終的な目標です。

方法:
研究チームは、PubMedからの論文の抄録を多次元空間に変換し、各遺伝子と健康状態を特定の指標で表現することで、AGATHAが計算したパラメータを使用して作成された仮想空間内で科学用語の明確なクラスターを明らかにしました。部分最小二乗判別分析(PLS-DA)を用いて、特定のクラスに適合するサンプル(122の疾患と20,889の遺伝子)を分類し予測しました。上級統計を用いて、各疾患クラスに特有の遺伝子リストを抽出するための識別モデルを構築しました。本研究では、神経変性疾患の結果として発生する認知症治療のために再利用可能な薬剤に焦点を当てており、他の疾患クラスで統計的に高いランクを持つ認知症関連遺伝子を特定しました。さらに、複数の健康状態に共通する遺伝子を検出するメカニズムも報告しています。これらの遺伝子セットは、生物学的経路における存在に基づいて分類され、薬の再利用に利用可能な候補と生物学的プロセスの選択に役立ちます。

AI-based mining of biomedical literature: Applications for drug repurposing for the treatment of dementia
Sikirzhytskaya, A., Tyagin, I., Sutton, S. S., Wyatt, M. D., Safro, I., Shtutman, M. 2024-06-09 http://biorxiv.org/cgi/content/short/2024.06.06.597745v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 26: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
空間分解能トランスクリプトミクス(Spatially-resolved Transcriptomics, SRT)は、細胞の位置情報を保持しながらRNA配列を読み取る技術です。これにより、組織のミクロな構造と遺伝子発現のパターンを理解することができます。しかし、SRTデータの信頼性と正確性を保証するためには、品質管理(Quality Control, QC)が不可欠です。従来のQCアプローチは、単一核RNAシークエンシング(single-nucleus RNA sequencing, snRNA-seq)から採用されていますが、SRTデータの空間的な生物学を考慮していないため、適切ではありません。また、SRT固有の組織学的アーティファクトを識別する方法も存在していません。

新規性:
SpotSweeperは、SRTデータのための空間認識QC方法を提供します。これは、個々のスポットの品質をその局所的な近傍と比較して評価し、生物学的な異質性によるバイアスを最小限に抑えることができます。さらに、マルチスケール手法を使用して地域的なアーティファクトを検出します。これにより、従来のQCアプローチが持つ問題を解決し、SRTデータの品質管理を改善する新しい手法を提供します。

方法:
SpotSweeperは、各スポットが局所的な近傍とどれだけ異なるかを評価することで、個々のスポットの品質を判断します。局所的な外れ値や地域的なアーティファクトを識別するために、複数のスケールでの分析が行われます。公開データを使用してSpotSweeperをテストし、Visiumバーコード/スポットの一貫したセットが系統的に低品質であることを特定しました。また、SpotSweeperが2種類の地域的アーティファクトを正確に識別し、空間ドメインのダウンストリームクラスタリングとマーカー遺伝子検出の改善に寄与することを実証しました。

SpotSweeper: spatially-aware quality control for spatial transcriptomics
Totty, M. S., Hicks, S. C., Guo, B. 2024-06-09 http://biorxiv.org/cgi/content/short/2024.06.06.597765v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 27: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
RNAの3D構造予測は、生物学的研究において重要な課題ですが、完全に解決されているわけではありません。現在のアプローチでは、しばしば二次構造や多重配列アラインメントが特徴として利用され、予測を導くために使用されています。しかし、これらの方法はまだ改善の余地があります。

新規性:
この論文では、生の配列データからRNAのトーショナル角(torsional angles)と疑似トーショナル角(pseudo-torsional angles)を直接予測する新しいアプローチを提案しています。この方法は、様々な領域で成功している言語モデルの応用に着想を得ており、RNAに適応させたものです。RNA-TorsionBERTと呼ばれる言語ベースのモデルを開発し、これは配列のみからRNAのトーショナル角と疑似トーショナル角を予測するために、より良い連続的相互作用を取り入れています。

方法:
研究チームは広範なベンチマークテストを通じて、RNA-TorsionBERTが平均絶対誤差(MAE)を7.4改善することを示しました。これは現在の最先端技術と比較しての結果です。さらに、予測モデルを使用して、RNA-Torsion-Aと呼ばれるトーション角依存のスコアリング関数を推測しました。これは、真の参照角をモデルの予測で置き換えるものであり、RNAのバックボーンのトーション角と疑似トーショナル角の値に関して、近似ネイティブ予測構造の品質を正確に評価することができます。

結論:
この研究は、言語モデルがRNAの3D構造予測を進展させる可能性を持つことを示唆する有望な結果を提示しています。ソースコードはEvryRNAプラットフォームで自由に利用可能です:https://evryrna.ibisc.univ-evry.fr/evryrna/RNA-TorsionBERT。

RNA-TorsionBERT: leveraging language models for RNA 3D torsion angles prediction
Bernard, C., Postic, G., Ghannay, S., Tahi, F. 2024-06-09 http://biorxiv.org/cgi/content/short/2024.06.06.597803v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 28: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

この最新の研究では、天然テルペノイドの作用機序を明らかにすることが挑戦的であると述べられています。特に、チモール、カルバクロール、チモール酢酸エステルなどは広く研究されていますが、新たにブロモ化されたチモール、すなわちブロモチモール(4-ブロモ-2-イソプロピル-5-メチルフェノール)に関しては、さらなる研究が必要であるとされています。

背景として、これらの天然テルペノイドは、新しい抗真菌剤の開発において有効性が高いことが示されています。チモール、カルバクロール、チモール酢酸エステルは従来から研究されているものの、ブロモチモールはまだ十分に解析されておらず、その抗真菌効果について評価する必要があります。

新規性としては、ブロモチモールの抗真菌効果が評価され、その作用機序についても、in silico(計算機上のシミュレーション)で慎重に調査されています。これは、これらの化合物の作用機序に関して、詳細なin silicoの特徴付けが初めて行われたことを意味します。

方法としては、実際の生物(in vivo)実験と、密度汎関数理論(Density Functional Theory, DFT)を用いて決定されたヘプタン中の分配係数(LogP)、および中性脂質二重層の存在下での最小バイアスアプローチに基づく分子動力学(Molecular Dynamics, MD)シミュレーションが用いられています。これらの実験により、ブロモチモールが細胞膜に挿入し、チモールやカルバクロール、チモール酢酸エステルと同様の作用をすることが示唆されました。

さらに、ヒドロキシ基を持つモノテルペノイドは膜厚の収縮を引き起こし、チモールのみが挿入した葉状体の膜密度に影響を与えることが明らかにされました。チモール、カルバクロール、ブロモチモールは脂質の極性頭部と相互作用し、膜内の静電不均衡を引き起こし、これがその生物学的活性を正当化するものとされています。

以上の内容から、これらの化合物の作用機序について一貫性があり、明確な描写が提供されていることがこの研究の重要な貢献となっています。

New insight in cyclic monoterpenoids mechanism of action: an in silico approach
Pezzola, S., Bocchinfuso, G., Galloni, P., Venanzi, M., Sabuzi, F., Conte, V. 2024-06-09 http://biorxiv.org/cgi/content/short/2024.06.05.597591v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 29: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
がん治療における標的単独療法は、薬剤耐性が本来的に存在するか、または獲得されるためにしばしば失敗します。複数の標的に同時に作用する薬剤の組み合わせは、薬剤の有効性を高め、耐性を減少させる相乗的な相互作用を生み出す可能性があります。オミクスデータの統合に基づく計算モデルが相乗的な組み合わせを特定するために使用されてきましたが、薬剤の相乗効果を予測することは依然として課題です。

新規性:
本研究では、DIPxというアルゴリズムを導入しました。これは、生物学的に動機づけられた腫瘍特異的および薬剤特異的なパスウェイ活性化スコア(PAS)に基づいて、薬剤の相乗効果を個別化して予測するためのものです。DIPxは、既存の薬剤組み合わせにおける予測と、トレーニングセットに含まれていない新規の組み合わせに対する予測の両方で検証され、その有効性を示しています。

方法:
DIPxは、AstraZeneca-Sanger (AZS) DREAM Challengeデータセットを使用して訓練および検証されました。2つの別々のテストセットを使用しました。テストセット1はトレーニングセットに既に存在する組み合わせを含み、テストセット2はトレーニングセットに含まれていない組み合わせを含んでおり、モデルが新規の組み合わせを扱う能力を示しています。テストセット1における予測された薬剤相乗効果と観察された相乗効果のスピアマン相関係数は0.50(95% CI: 0.47--0.53)であり、テストセット2では0.26(95% CI: 0.22--0.30)でした。これは、チャレンジで最も性能が良かった方法のそれぞれ0.38(95% CI: 0.34--0.42)および0.18(95% CI: 0.16--0.20)と比較しています。また、薬剤の標的間の高い機能的相互作用が高い相乗効果と関連していること、そしてこの機能的相互作用情報がPASによって捉えられていることを示しました。さらに、PASを使用して、組み合わせた薬剤の相乗効果を媒介する活性化パスウェイに関する潜在的な生物学的説明を提供する方法を示しました。

要約:
DIPxは、薬剤の相乗効果の個別化予測および組み合わせた薬剤の効果に関連する活性化パスウェイの探索に有用なツールであることが示されました。

Pathway activation model for personalized prediction of drug synergy
Trac, Q. T., Huang, Y., Erkers, T., Östling, P., Bohlin, A., Osterroos, A., Vesterlund, M., Jafari, R., Siavelis, I., Backvall, H., Kiviluoto, S., Orre, L., Rantalainen, M., Lehtiö, J., Lehmann, S., Kallioniemi, O., Pawitan, Y., Vu, T. N. 2024-06-08 http://biorxiv.org/cgi/content/short/2024.06.05.597583v1

下記の文章は論文アブストラクトをもとに Retrieval-Augmented Language Modeling (RALM) により生成された文章であり、正確性は保証しません。

Question 30: 文脈として与えられた最新論文の内容を、背景、新規性、方法などに分けて、詳しく説明してください。

背景:
抗体は免疫応答において重要な役割を果たしており、様々なイソタイプが特定のエフェクター機能を担っています。これらのイソタイプに関する構造情報は、抗原結合特性の物理化学的特徴や、治療用抗体としての最適な安定性や開発可能性をエンジニアリングする上で不可欠です。抗体構造に対するインシリコの突然変異スキャニングプロファイルは、抗体の安定性と機能を高めるための候補変異を特定するのに役立ちます。しかし、抗体構造データベースは多数存在するものの、イソタイプの明確で一貫した注釈、3D抗体構造の種カバレッジ、および深い突然変異プロファイルを提供する公開データリソースは現在不足しています。

新規性:
この問題に対処するため、VCAb (V and C region bearing antibody) ウェブツールが設立されました。このツールは、これらの注釈を明確にし、抗体エンジニアリングを促進するためにアクセスしやすく、簡単に相談できるリソースを提供することを目的としています。VCAbは、異なる種からのV領域とC領域を含む6,948の実験的に決定された抗体構造に関するデータを現在提供しています。さらに、VCAbは、V領域とC領域の番号付けスキームが適用された種とイソタイプの注釈を提供し、インタラクティブに問い合わせたり一括でダウンロードすることができます。

方法:
VCAb構造には、複数のインシリコ突然変異スキャニング方法が適用され、抗体の安定性に対する突然変異の影響を照会するためのアクセスしやすいインターフェースが提供されています。これらの機能はR shinyアプリケーションに実装されており、対話型のデータ照会を可能にしています。VCAbはhttps://fraternalilab.cs.ucl.ac.uk/VCAb/で自由にアクセスできます。VCAbデータベースを生成し、オンラインR shinyアプリケーションを利用可能にするソースコードはhttps://github.com/Fraternalilab/VCAbで利用でき、ユーザーはローカルのVCAbインスタンスを設定することができます。

VCAb: A web-tool for structure-guided antibody engineering
Guo, D., Ng, J. C., Dunn-Walters, D., Fraternali, F. 2024-06-07 http://biorxiv.org/cgi/content/short/2024.06.05.597540v1

この記事が気に入ったらサポートをしてみませんか?