見出し画像

Recent BioRxiv on Bioinformatics: August 05, 2024

Topological embedding and directional feature importance in ensemble classifiers for multi-class classification
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この論文の主な目的は、がんの種類に応じたタンパク質の発現レベルの違いを明らかにし、特定のがんの診断や治療に有用なバイオマーカーを同定することでした。特に、LAVASET多クラス分類モデルを用いて、がんの診断におけるタンパク質の重要性を評価し、それに基づいてがんの種類を正確に分類する方法を開発することが目的です。
2. この論文は、どのようなデータを用いましたか?:
この研究では、公開されているTCGA(The Cancer Genome Atlas)のデータを使用しました。このデータセットには、多くのがん種の遺伝子発現データやタンパク質発現データが含まれており、これを利用してがんの分類やバイオマーカーの同定が行われました。
3. この論文で、どのような未解決問題が解決できましたか?:
この論文では、特定のタンパク質が特定のがんの診断においてどのように重要であるかを定量化する新しい手法(CLIFI)を開発し、それを用いて複数のがんタイプにおけるタンパク質の重要性を評価することができました。これにより、がんの診断や治療に有用な新たなバイオマーカーの同定が進み、がんの種類に応じたより精密な治療戦略の開発に寄与することができました。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
この研究では多くの進展が見られましたが、まだ解決すべき問題がいくつか残されています。例えば、CLIFI手法のさらなる検証と改善、異なるデータセットでの手法の適用可能性の評価、さらには多様ながん種に対するバイオマーカーの同定とその臨床応用への橋渡しなどが挙げられます。また、がんの予後予測や治療応答の予測に関する研究も必要とされています。
title:
Topological embedding and directional feature importance in ensemble classifiers for multi-class classification
creator:
Rocha Liedl, E., Yassin, S. M., Kasapi, M., Posma, J. M.
date:
2024-08-04
link:
http://biorxiv.org/cgi/content/short/2024.08.01.605982v1

SeuratExtend: Streamlining Single-Cell RNA-Seq Analysis Through an Integrated and Intuitive Framework
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この論文の目的は、scRNA-Seqデータの解析におけるツール間の環境競合を解決し、RとPythonの両方のエコシステムの解析能力を活用できるようにすることでした。具体的には、異なるプログラミング言語間でのデータ形式の変換の問題、複数の解析ツールを一つの環境で扱う際の環境設定の複雑さを解決することを目指しています。
2. この論文は、どのようなデータを用いましたか?:
この論文では、scRNA-Seq(シングルセルRNAシーケンシング)データを用いています。具体的なデータセットの詳細は記載されていませんが、一般的にシングルセルの遺伝子発現データが分析対象とされています。
3. この論文で、どのような未解決問題が解決できましたか?:
この論文では、PythonツールとR環境の統合を容易にするためのSeuratExtendというフレームワークを提供し、異なるプログラミング言語やツール間でのデータ変換の問題を解決しました。これにより、ユーザーはPythonの解析ツールをRの環境内で直接利用できるようになり、環境競合やデータ形式の問題を解決できました。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
将来的には、さらに多くのPythonツールや他のプログラミング言語のツールをSeuratExtendフレームワークに統合すること、また、より効率的なデータ変換メカニズムの開発や、さらにユーザーフレンドリーな環境設定の自動化を進めることが挙げられます。これにより、さらに多様な解析ツールをシームレスに統合し、シングルセル解析の可能性を広げることが期待されます。
title:
SeuratExtend: Streamlining Single-Cell RNA-Seq Analysis Through an Integrated and Intuitive Framework
creator:
Hua, Y., Weng, L., Zhao, F., Rambow, F.
date:
2024-08-04
link:
http://biorxiv.org/cgi/content/short/2024.08.01.606144v1

An Evolutionary Statistics Toolkit for Simplified Sequence Analysis on Web with Client-Side Processing
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この論文の目的は、ホミノイド種の遺伝的配列を比較することによって、進化的な歴史を探ることでした。具体的には、異なるホミノイド種間での遺伝的配列の進化的中立性や選択圧の検証を行うことを目指しています。また、生物情報学のツールを用いてこれらの配列を解析し、遺伝的多様性や進化生物学の研究に対する理解を深めることが目標です。
2. この論文は、どのようなデータを用いましたか?:
この研究では、全六種のホミノイド(人間、ゴリラ、チンパンジー、ボノボ、オランウータン、ギボン)のゲノム配列を用いました。具体的には、それぞれの種から選ばれた特定の遺伝子のトランスクリプト配列を使用し、これらをClustal Omegaを用いて配列アライメントを生成し、分析を行いました。
3. この論文で、どのような未解決問題が解決できましたか?:
この研究により、ホミノイド種間での遺伝的配列の進化的中立性を示唆するデータが得られました。TajimaのD値が0.2616とわずかに正の値を示し、これは遺伝的配列が進化的に中立である可能性が高いことを示しています。また、配列の多様性に関しても、Shannonのエントロピー計算を通じて、種間で大きな差異がないことが示されました。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
今後の課題としては、さらに多くのホミノイド種のデータを取り入れることで、より広範な進化的分析を行うことが挙げられます。また、進化的中立性の検証だけでなく、選択圧の存在を示す強いシグナルを探るための分析も必要です。さらに、遺伝的配列の機能的な意味を解明するための実験的アプローチも必要とされています。
title:
An Evolutionary Statistics Toolkit for Simplified Sequence Analysis on Web with Client-Side Processing
creator:
Karagol, A., Karagol, T.
date:
2024-08-04
link:
http://biorxiv.org/cgi/content/short/2024.08.01.606148v1

A map of integrated cis-regulatory elements enhances gene regulatory analysis in maize
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この論文の主な目的は、トウモロコシにおける乾燥ストレス応答に関連する遺伝子の発現変動を解明し、それに影響を与える遺伝子調節ネットワーク(GRN)を明らかにすることでした。特に、乾燥条件下での遺伝子の調節機構とその遺伝子発現の変化を詳細に理解することが目標であり、これにより作物の耐乾性向上に寄与することを目指しています。
2. この論文は、どのようなデータを用いましたか?:
この研究では、トウモロコシのRNA-シークデータセットを使用しました。具体的には、乾燥条件下でのトウモロコシの葉と茎のサンプルから得られた遺伝子発現データを分析しています。これには、複数の研究から収集された434サンプルのFASTQファイルが含まれ、これらはnf-core/rnaseqパイプラインを用いて処理されました。
3. この論文で、どのような未解決問題が解決できましたか?:
この研究により、乾燥ストレスに応答するトウモロコシの遺伝子の中で、どの遺伝子が上方または下方に調節されるかを特定することができました。さらに、これらの遺伝子に対する遺伝子調節ネットワーク(GRN)の構造を解析し、特定の転写因子がどのようにこれらの遺伝子の発現を制御しているかを明らかにしました。これにより、乾燥ストレス応答における遺伝子の動態とその調節機構がより詳細に理解されました。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
今後の課題としては、この研究で特定された遺伝子調節ネットワークの機能的検証が挙げられます。具体的には、特定された転写因子や調節遺伝子が実際に植物の耐乾性にどのように影響を与えるかを実験的に確認する必要があります。また、他の環境ストレス条件下での遺伝子の挙動も同様に解析し、より広範なストレス応答メカニズムの理解を深めることも重要です。
title:
A map of integrated cis-regulatory elements enhances gene regulatory analysis in maize
creator:
Manosalva Perez, N., Staut, J., Matres Ferrando, A., Dissanayake, I., Vandepoele, K.
date:
2024-08-03
link:
http://biorxiv.org/cgi/content/short/2024.08.01.606127v1

MOSTPLAS: A Self-correction Multi-label Learning Model for Plasmid Host Range Prediction
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この論文の目的は、プラスミドの宿主範囲予測において、完全な宿主ラベルのアノテーションが欠けている問題を解決することでした。特に、多宿主プラスミドの予測において、従来の学習ベースのツールが直面している課題を克服するために、多ラベル学習モデルを提案しています。
2. この論文は、どのようなデータを用いましたか?:
この研究では、NCBI RefSeqデータベースからダウンロードされた完全なプラスミド配列を使用しました。選択されたプラスミド配列は、バクテリアの宿主に属するものに限定され、特定の属が10シーケンス未満のものは除外されました。これにより、合計で41,074の完全プラスミド配列が得られました。
3. この論文で、どのような未解決問題が解決できましたか?:
この研究は、多ラベル学習モデルを用いて、複数の宿主ラベルを持つ可能性のあるプラスミドの宿主範囲を予測することに成功しました。特に、擬似ラベル生成アルゴリズムと自己修正非対称損失を導入することで、学習過程での負のラベルの過剰な影響を抑え、より正確な予測を実現しました。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
将来的な課題としては、プラスミドの宿主範囲予測におけるデータセットのさらなる拡張や、他の微生物にも適用可能なモデルの一般化、さらには多宿主プラスミドの機能的特性や進化的背景を考慮した予測モデルの開発が挙げられます。これにより、プラスミドの生物学的特性やその生態系内での役割をより深く理解することが可能になるでしょう。
title:
MOSTPLAS: A Self-correction Multi-label Learning Model for Plasmid Host Range Prediction
creator:
Zou, W., Ji, Y., Guan, J., Sun, Y.
date:
2024-08-03
link:
http://biorxiv.org/cgi/content/short/2024.07.31.606102v1

Bootstrap Evaluation of Association Matrices (BEAM) for Integrating Multiple Omics Profiles with Multiple Outcomes
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この論文の主な目的は、遺伝子特徴セットに基づく関連推定行列(AEM)を用いて、単一特徴分析から得られた回帰係数を多変量関連推定空間に投影し、その結果の有意性をブートストラップ法を用いて評価する新しい方法を提案することにあります。これにより、オミックスデータとアウトカムデータの関連性をより正確に評価することができます。
2. この論文は、どのようなデータを用いましたか?:
論文では、遺伝子特徴セットに関連するオミックスデータ(ゲノム、エピジェノム、トランスクリプトームなどのデータ)とアウトカムデータを用いました。具体的には、これらのデータを統合して、各ブートストラップサンプルに対して関連推定行列(AEM)を構築し、多変量関連推定空間に投影する手法を用いています。
3. この論文で、どのような未解決問題が解決できましたか?:
この研究により、単一のオミックスデータだけでなく、複数のオミックスデータを統合した分析においても、遺伝子特徴とアウトカムとの間の関連性を定量的に評価することが可能になりました。また、ブートストラップ法を用いることで、観測された関連性の統計的有意性を確かめることができ、偽陽性率を抑えながらも、より信頼性の高い結果を導出することが可能になりました。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
今後の課題としては、さらに多様なオミックスデータタイプを統合する方法の開発、大規模データセットへの適用能力の向上、そして異なる疾患や条件におけるこの手法の有効性を確認するための広範な検証が必要です。また、計算効率の向上や、より複雑なデータ構造を扱えるモデルの開発も求められています。
title:
Bootstrap Evaluation of Association Matrices (BEAM) for Integrating Multiple Omics Profiles with Multiple Outcomes
creator:
Seffernick, A. E., Cao, X., Cheng, C., Yang, W., Autry, R. J., Yang, J. J., Pui, C.-H., Teachey, D. T., Lamba, J. K., Mullighan, C. G., Pounds, S. B.
date:
2024-08-03
link:
http://biorxiv.org/cgi/content/short/2024.07.31.605805v1

Thermodynamic modeling of Csr/Rsm- RNA interactions capture novel, direct binding interactions across the Pseudomonas aeruginosa transcriptome
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この論文の目的は、Pseudomonas aeruginosaにおける転写因子とその結合特異性を包括的に理解し、病原性およびバイオフィルム形成におけるその役割を明らかにすることでした。特に、転写因子がどのようにして遺伝子発現を調節し、病原性にどのように寄与しているかを解明することが目標でした。
2. この論文は、どのようなデータを用いましたか?:
この研究では、Pseudomonas aeruginosaのPA14株のトランスクリプトームからモデル化されたシーケンス、エネルギー予測を用いて生成されたPWM、RNA共免疫沈降シーケンシングのDEseq2解析、およびプロテオミクスデータセットのDEseq2要約など、複数のデータセットが使用されました。これらのデータを利用して、転写因子の結合特異性とその翻訳率の予測が行われました。
3. この論文で、どのような未解決問題が解決できましたか?:
この研究により、Pseudomonas aeruginosaの転写因子の結合特異性とそのターゲット遺伝子に関する包括的な情報が得られ、病原性やバイオフィルム形成におけるその役割がより明確になりました。また、転写因子がどのようにして遺伝子発現を調節するかのメカニズムについての理解が深まり、新たな病原性調節因子の同定につながりました。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
今後の課題としては、この研究で同定された転写因子のターゲット遺伝子の機能解析を進め、それらが具体的にどのような生理的、病理的プロセスに関与しているのかを明らかにすることが挙げられます。また、病原性におけるこれらの因子の相互作用やネットワークを解析することで、新たな治療標的の開発につながる可能性があります。
title:
Thermodynamic modeling of Csr/Rsm- RNA interactions capture novel, direct binding interactions across the Pseudomonas aeruginosa transcriptome
creator:
Lukasiewicz, A. J., Leistra, A. N., Hoefner, L., Monzon, E., Gode, C. J., Zorn, B. T., Janssen, K. H., Yahr, T. L., Wolfgang, M. C., Contreras, L. M.
date:
2024-08-02
link:
http://biorxiv.org/cgi/content/short/2024.08.01.606018v1

Assessing the ability of ChatGPT to extract natural product bioactivity and biosynthesis data from publications
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この研究の主な目的は、自然産物に関するデータを効率的に収集し、それを機械学習や人工知能モデルに活用する方法を改善することでした。具体的には、ChatGPTを用いて、自然産物の新規性、生物活性、生合成遺伝子クラスター(BGC)の記述やアクセッション番号を文献から抽出する能力を評価し、その精度を向上させることが目的です。
2. この論文は、どのようなデータを用いましたか?:
この研究では、さまざまな研究室のメンバーがそれぞれの研究で集めた論文を基に構築されたベンチマークデータセットを使用しました。これらの論文は、MIBiGデータベースやウェブ検索を通じて同定され、すべてが査読付きのジャーナルまたはプレプリントサーバーからのもので、著者によって手動で注釈がつけられています。
3. この論文で、どのような未解決問題が解決できましたか?:
ChatGPTは自然産物の新規性の記述、生物活性の記述、生合成遺伝子クラスターの存在の確認において高い精度(94%から98%)を達成しました。これにより、自然産物に関連するデータの自動抽出が可能であることが示され、機械学習や人工知能モデルの開発に貢献するデータセットの構築が進められました。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
ChatGPTのアクセッション番号の抽出精度はまだ完全ではなく、特に生合成遺伝子クラスターや生産者のゲノムのアクセッション番号の抽出において誤りが見られました(精度は65%から74%)。これらの誤りを減らすために、プロンプト戦略の改善が必要であり、さらなる技術的な進歩が求められています。また、文献からのデータの完全自動抽出に向けて、さらなる研究が必要です。
title:
Assessing the ability of ChatGPT to extract natural product bioactivity and biosynthesis data from publications
creator:
Kalmer, T. L., Ancajas, C. M. F., Cheng, Z., Oyedele, A. S., Davis, H. L., Walker, A.
date:
2024-08-02
link:
http://biorxiv.org/cgi/content/short/2024.08.01.606186v1

Genome-Wide Analysis of TCP Family Genes and Their Constitutive Expression Pattern Analysis in the Melon (Cucumis melo)
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この研究の主な目的は、メロンにおけるCmTCP遺伝子群の発現パターンとタンパク質の構造を解明し、それらが植物の成長と発達にどのように関与しているかを明らかにすることでした。特に、異なる組織や発達段階での遺伝子の発現と、タンパク質間の相互作用ネットワークを詳細に分析することで、これらの遺伝子の機能的役割を理解することが目標でした。
2. この論文は、どのようなデータを用いましたか?:
この研究では、Melonet-DBから取得したRNA発現データ(FPKM)を用いて、メロンの異なる組織と発達段階でのCmTCP遺伝子の発現パターンを分析しました。また、Swiss Modelを使用してタンパク質のホモロジーモデリングを行い、CmTCPタンパク質の予測された構造を生成しました。さらに、String-dbを用いてタンパク質間の相互作用ネットワークを予測しました。
3. この論文で、どのような未解決問題が解決できましたか?:
この研究により、CmTCP遺伝子群がメロンの植物体の異なる組織と発達段階でどのように発現するかの詳細なパターンが明らかになりました。また、タンパク質の構造予測と相互作用ネットワークの分析を通じて、これらの遺伝子が植物の成長と発達においてどのような役割を果たしているかの手がかりを得ることができました。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
今後の研究では、CmTCP遺伝子群の個々の遺伝子が具体的にどのような生物学的プロセスに関与しているのか、その機能的な役割をさらに詳細に解析する必要があります。また、遺伝子発現データとタンパク質の構造データを統合することで、これらの遺伝子の機能的な重要性をより深く理解するための実験的検証が求められます。
title:
Genome-Wide Analysis of TCP Family Genes and Their Constitutive Expression Pattern Analysis in the Melon (Cucumis melo)
creator:
Jone, M. J. H., Siddique, M. N. A., Biswas, M. K., Hossain, M. R.
date:
2024-08-02
link:
http://biorxiv.org/cgi/content/short/2024.07.30.605410v1

Single-cell differential expression analysis between conditions within nested settings
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この論文の目的は、階層的に構造化された単一細胞データセット、特にアトラスデータの中で、遺伝子発現の差異を分析するための方法を評価し、最適な手法を提供することでした。階層的ブートストラッピング法など、新しい手法を単一細胞生物学に適応させ、その性能を他の現行方法と比較することにより、より複雑なシナリオでの単一細胞データの解析を改善することを目指しています。
2. この論文は、どのようなデータを用いましたか?:
この研究では、シミュレーションデータと実験データの両方を使用しました。シミュレーションデータは、SplatterとSplatPopを使用して生成され、異なる条件下での遺伝子の平均発現量や特定の遺伝子発現の条件特異的な発現を生成しました。実験データとしては、Reactomeパスウェイの遺伝子を基準として使用し、これにより方法の性能を評価しました。
3. この論文で、どのような未解決問題が解決できましたか?:
この論文では、階層的ブートストラッピングという方法が単一細胞生物学に成功裏に適応され、階層的に構造化されたデータに対して高い性能を示すことが確認されました。また、異なるシナリオ(バランスの取れたアトラス、バランスの取れていないアトラス、異なる細胞数を持つデータセット)での各手法の性能を評価することで、特定の状況に最適な手法を選択するためのガイドラインを提供することができました。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
バッチ数が増加するにつれて方法の性能が連続的に低下するか、またはこれまで最良の性能を示していない方法が大規模なバッチ数でより良く機能するかをさらに探求する必要があります。また、実際の単一細胞データセットは、シミュレーションで使用されたものよりもはるかに多くの細胞を含むため、スケーラビリティの限界に達している方法の改善も必要です。さらに、シミュレーションデータの特性により特定の方法が有利になる可能性があるため、異なるデータ特性に基づいて方法を評価することも重要です。
title:
Single-cell differential expression analysis between conditions within nested settings
creator:
Hafner, L., Sturm, G., List, M.
date:
2024-08-02
link:
http://biorxiv.org/cgi/content/short/2024.08.01.606200v1

CoMPHI: A Novel Composite Machine Learning Approach Utilizing Multiple FeatureRepresentation to Predict Hosts of Bacteriophages
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この論文の主な目的は、抗菌耐性(AMR)というグローバルな健康脅威に対処するための代替治療法としてファージ療法の可能性を探ることでした。具体的には、バクテリオファージ(ファージ)の宿主を予測するための新しい機械学習アプローチ「CoMPHI」を開発し、その効果を評価することで、ファージ療法の適用範囲と効果を拡大することを目指していました。
2. この論文は、どのようなデータを用いましたか?:
論文では、ファージとその宿主の核酸(ヌクレオチド)特徴とタンパク質特徴を用いた複合モデルを構築しています。これには、ファージと宿主の両方から得られる特徴を組み合わせたものであり、これによりファージ-宿主間の相互作用をより正確に予測することができるように設計されています。
3. この論文で、どのような未解決問題が解決できましたか?:
この研究は、ファージと宿主の間の相互作用を予測するための新しい複合機械学習モデル「CoMPHI」を提案し、実装しました。アブレーション研究を通じて、核酸とタンパク質の特徴が予測精度に与える影響を評価し、特に核酸特徴が高い寄与をしていることを明らかにしました。これにより、ファージ療法の標的となるバクテリアをより正確に特定し、治療の適用可能性を広げることができると期待されます。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
ファージと宿主の相互作用のさらなる理解を深めるためには、異なる種類のファージや宿主に関するデータをさらに収集し、分析する必要があります。また、ファージ療法の臨床応用に向けて、ファージの安全性や効果を評価するための追加的な研究が必要です。さらに、抗菌耐性の増加に対抗するための新たな治療戦略として、ファージ療法以外のアプローチも探求することが求められます。
title:
CoMPHI: A Novel Composite Machine Learning Approach Utilizing Multiple FeatureRepresentation to Predict Hosts of Bacteriophages
creator:
Bodaka, S., Malgonde, O.
date:
2024-08-02
link:
http://biorxiv.org/cgi/content/short/2024.07.29.604684v1

FourierMIL: Fourier filtering-based multiple instance learning for whole slide image analysis
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この論文の目的は、全スライド画像(Whole Slide Images, WSIs)を用いたヒストパソロジー分析において、微細ながん領域の検出と分類の精度を向上させることです。特に、画像の周波数領域においてグローバルな依存関係と微細な詳細を捉える方法の開発が目標であり、これによってより正確な診断支援が可能になることを期待しています。
2. この論文は、どのようなデータを用いましたか?:
論文では、ヒストパソロジーの全スライド画像(WSIs)を使用しています。これらの画像は、がん診断のための組織のスライスを含んでおり、特にリンパ節転移の検出に焦点を当てて分析が行われています。画像は、ResNet50を用いて特徴ベクトルに変換され、その後、さまざまなモデルによる処理が行われています。
3. この論文で、どのような未解決問題が解決できましたか?:
この論文では、FourierMILという手法を用いて、ヒストパソロジー画像の周波数領域での詳細な分析を可能にし、微細ながん領域の検出において低い偽陽性率を実現することに成功しました。また、APFF(All-Pass Frequency Filtering)を導入することで、画像の全周波数成分を利用し、詳細な画像分析を行うことができるようになりました。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
将来的には、異なる染色や異なる種類の組織スライドに対するモデルの適応性と汎用性をさらに向上させる必要があります。また、大規模なデータセットに対する処理速度や効率の向上、さらに詳細な周波数成分の分析を通じて、更に精度の高い診断支援システムの開発が求められています。
title:
FourierMIL: Fourier filtering-based multiple instance learning for whole slide image analysis
creator:
Zheng, Y., Sharma, H., Betke, M., Beane, J., Kolachalama, V. B.
date:
2024-08-02
link:
http://biorxiv.org/cgi/content/short/2024.08.01.606256v1

Multiple Protein Structure Alignment at Scale with FoldMason
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この論文は、大規模なデータセットに対して高速かつ精度の高い複数タンパク質構造のアラインメントを可能にすることを目的としていました。特に、遠縁関係にあるタンパク質の比較を通じて、系統樹の再構築を助けることができるツールの開発が目標でした。
2. この論文は、どのようなデータを用いましたか?:
この論文では、FoldMasonアルゴリズムを用いて生成された複数タンパク質構造アラインメント(MSTA)のデータを使用しました。具体的には、遠縁関係にあるタンパク質の構造的なペアワイズアラインメントから生成されたデータを用いて、系統樹を再構築するための解析が行われました。
3. この論文で、どのような未解決問題が解決できましたか?:
この論文では、従来のシーケンスベースのメソッドではアラインメントが困難であった遠縁関係のタンパク質間の関係を解析する問題が解決されました。FoldMasonを使用して、これらのタンパク質のアラインメントと系統樹の再構築が可能となり、系統解析をタンパク質構造レベルで拡張することができました。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
将来的には、ProstT5プロテイン言語モデルを統合して、アミノ酸配列から直接3Di情報を予測する機能を追加することが計画されています。これにより、構造予測のための入力生成が3000倍以上高速化され、特に長いタンパク質を対象とした研究において有益となる見込みです。
title:
Multiple Protein Structure Alignment at Scale with FoldMason
creator:
Gilchrist, C. L. M., Mirdita, M., Steinegger, M.
date:
2024-08-01
link:
http://biorxiv.org/cgi/content/short/2024.08.01.606130v1

Deciphering octoploid strawberry evolution with serial LTR similarity matrices for subgenome partition
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この論文の目的は、オクトプロイドのイチゴ(Fragaria × ananassa)のゲノムの起源と進化を解明することでした。具体的には、オクトプロイドのイチゴがどのようにして現在の遺伝的多様性に至ったのか、その進化的過程を明らかにすることが目的です。
2. この論文は、どのようなデータを用いましたか?:
この研究では、F. vesca ssp. vesca、F. iinumae、およびオクトプロイドイチゴの4つのサブゲノム(Fan-Fve, Fan-Fii, Fan-CC, Fan-DD)についての参照ゲノムを用いて、生のリードデータをマッピングしました。さらに、これらのゲノムからシンテニック遺伝子を同定し、それらの遺伝的距離を計算するために使用されました。
3. この論文で、どのような未解決問題が解決できましたか?:
この研究では、オクトプロイドイチゴのサブゲノム間での遺伝的距離と関係を明らかにし、それらがどのように進化的に分化してきたかを示すことができました。また、特定のサブゲノム間での遺伝的な類似性と相違を詳細に分析することで、オクトプロイドイチゴのゲノム構造の複雑さを解き明かす手がかりを提供しました。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
将来的には、オクトプロイドイチゴのサブゲノム間で観察された遺伝的不一致の原因をさらに探求する必要があります。これには、不完全な系統分岐整理や祖先的なホモエオログ遺伝子交換が関与している可能性があり、これらの現象をさらに詳細に解析することで、オクトプロイドイチゴの進化の完全な絵を描くためのデータが得られるでしょう。また、これらの遺伝的特徴がイチゴの形質にどのように影響を与えるかを理解するための研究も必要です。
title:
Deciphering octoploid strawberry evolution with serial LTR similarity matrices for subgenome partition
creator:
Lyu, H., Ou, S., Yim, W. C., Yu, Q.
date:
2024-08-01
link:
http://biorxiv.org/cgi/content/short/2024.07.31.606053v1

IDENTIFICATION OF IMMUNE RESPONSE AND RNA NETWORK OF RHEUMATOID ARTHRITIS AND MOLECULAR DOCKING OF CELASTRUS PANICULATUS AS POTENTIAL THERAPEUTIC AGENT
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この論文の主な目的は、リウマチ性関節炎(RA)の病態生理における免疫関連遺伝子SLAMF1の役割を明らかにし、マウスのコラーゲン誘発性関節炎モデルでその役割を検証することでした。
2. この論文は、どのようなデータを用いましたか?:
この研究では、リウマチ性関節炎患者の遺伝子発現データと、マウスのコラーゲン誘発性関節炎モデルを用いた実験データが使用されました。具体的には、バイオインフォマティクス解析を通じて、SLAMF1がリウマチ性関節炎における重要な遺伝子であることを同定し、その後、マウスモデルでの実験的検証が行われました。
3. この論文で、どのような未解決問題が解決できましたか?:
この研究により、SLAMF1がリウマチ性関節炎の発症と進行において重要な役割を果たしていることが明らかになりました。SLAMF1の発現がリウマチ性関節炎の免疫応答に影響を与える可能性が示され、新たな治療標的としての可能性が示唆されました。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
今後の課題としては、SLAMF1を標的とした具体的な治療法の開発や、他の免疫関連疾患におけるSLAMF1の役割の解明が挙げられます。また、SLAMF1の機能をさらに詳細に理解するための研究が必要です。
title:
IDENTIFICATION OF IMMUNE RESPONSE AND RNA NETWORK OF RHEUMATOID ARTHRITIS AND MOLECULAR DOCKING OF CELASTRUS PANICULATUS AS POTENTIAL THERAPEUTIC AGENT
creator:
SWAMINATHAN, V.
date:
2024-08-01
link:
http://biorxiv.org/cgi/content/short/2024.07.30.605947v1

Imputing abundance of over 2500 surface proteins from single-cell transcriptomes with context-agnostic zero-shot deep ensembles
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この論文の目的は、がん転移に関連する細胞表面マーカーの同定と、転移プロセスにおける異なる細胞集団間の相互作用とその機能的役割を明らかにすることでした。特に、従来のトランスクリプトームデータでは識別できなかった特定の表面プロテインの変動を予測し、がん転移の研究に新たな洞察を提供することを目指しています。
2. この論文は、どのようなデータを用いましたか?:
この研究では、単一細胞トランスクリプトームデータを用いています。具体的には、大腸がん(CRC)の肝転移研究から得られた125,150個の細胞データを使用し、6つの異なる組織および疾患条件のデータセットを分析しています。これにより、2664種類のヒト細胞表面プロテインの豊富さを予測しています。
3. この論文で、どのような未解決問題が解決できましたか?:
SPIDERを用いることで、従来のRNA発現データでは識別できなかったがん転移に関連する複数の細胞表面マーカーを特定することができました。例えば、EPB41L3やKCTD12などの表面マーカーが、肝転移部位で低く発現していることが予測され、これらが転移プロセスにおける重要な役割を果たす可能性が示唆されました。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
この研究では、特定の細胞表面マーカーの機能的な役割や、転移プロセスにおけるこれらのマーカーの具体的なメカニズムの解明が未解決の問題として残されています。さらに、他のがんタイプや異なる臓器の転移における表面マーカーの同定も重要な未来の課題です。これにより、より広範ながん治療標的の発見や治療戦略の最適化が期待されます。
title:
Imputing abundance of over 2500 surface proteins from single-cell transcriptomes with context-agnostic zero-shot deep ensembles
creator:
Chen, R., Zhou, J., Chen, B.
date:
2024-07-31
link:
http://biorxiv.org/cgi/content/short/2024.07.31.605432v1

Modelling Protein-Glycan Interactions with HADDOCK
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この論文の主な目的は、タンパク質とグリカンの間の相互作用を理解するためのドッキング手法の精度を向上させることでした。特に、フレキシブルリファインメントモデルとリジッドボディモデルの比較を通じて、どのモデルが参照構造に最も適合するかを評価し、ドッキングプロセスを改善することを目指しています。
2. この論文は、どのようなデータを用いましたか?:
この研究では、異なる複合体(1OH4, 5VX5, 1C1L)の参照構造と比較するためのフレキシブルリファインメントモデルとリジッドボディモデルが用いられました。また、バン・デル・ワールスポテンシャルとAmbiguous Interaction Restraints(AIRs)を用いたドッキングシナリオが実施されました。
3. この論文で、どのような未解決問題が解決できましたか?:
この研究により、フレキシブルリファインメントとリジッドボディモデルのどちらが参照構造に対してより高いスコアを得るかを評価することができました。これにより、タンパク質とグリカンの相互作用を解析する際のモデル選択においてより良い判断が可能になりました。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
フレキシブルリファインメントモデルとリジッドボディモデルの両方をさらに改善する必要があります。特に、実験的データに基づく誤情報(偽陽性)を考慮に入れたAIRsのランダムな破棄の影響を詳細に分析することが挙げられます。また、異なるタイプのグリカンとの相互作用におけるモデルの汎用性と精度を高めるための研究が必要です。
title:
Modelling Protein-Glycan Interactions with HADDOCK
creator:
Ranaudo, A., Giulini, M., Pelissou Ayuso, A., Bonvin, A. M.
date:
2024-07-31
link:
http://biorxiv.org/cgi/content/short/2024.07.31.605986v1

Machine Learning Reveals Key Glycoprotein Mutations and Rapidly Assigns Lassa Virus Lineages
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この論文の主な目的は、ナイジェリア南部において最近共通祖先(MRCA)から出現した挿入の再出現に関する疑問を解明することでした。具体的には、ラッサウイルスの遺伝的多様性と地理的分布に関連する遺伝子系統の解析を通じて、ウイルスの伝播と進化のパターンを明らかにすることを目指していました。
2. この論文は、どのようなデータを用いましたか?:
この研究では、GenBankから取得した753の配列データを使用しました。これらのデータはナイジェリアおよびその他の国々からのサンプルに基づいており、各配列は国別に注釈が付けられていました。また、これらの配列は、ラッサウイルスの異なる系統に分類され、系統II、III、IV、V、およびVIIに関する情報が含まれていました。
3. この論文で、どのような未解決問題が解決できましたか?:
この研究により、ナイジェリア南部で発見された最近共通祖先から派生した特定の挿入の再出現についての理解が深まりました。また、地理的な境界が近い州間でのウイルスの分布と遺伝的変異のパターンを明らかにすることができ、ラッサウイルスの地理的および遺伝的な進化の理解を進めることができました。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
今後の研究では、ラッサウイルスの他の地域や国での遺伝的多様性とその進化のメカニズムをさらに詳細に調査する必要があります。特に、系統IとVIに関するデータが不足しているため、これらの系統についての追加的な研究が求められています。また、ウイルスの伝播をより正確に予測し、制御するためのモデルや手法の開発も重要な課題です。
title:
Machine Learning Reveals Key Glycoprotein Mutations and Rapidly Assigns Lassa Virus Lineages
creator:
Daodu, R. O., Ulrich, J.-U., Kuehnert, D.
date:
2024-07-31
link:
http://biorxiv.org/cgi/content/short/2024.07.31.605963v1

RESP2: An uncertainty aware multi-target multi-property optimization AI pipeline for antibody discovery
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この論文の目的は、抗体と抗原の配列を効率的に解析し、それらの結合親和性を予測するための新しい計算モデルを開発することでした。特に、異なる長さの配列に対しても効果的に機能する新しいカーネル手法を提案し、抗体と抗原の相互作用をより正確にモデル化することを目指していました。
2. この論文は、どのようなデータを用いましたか?:
論文では、大規模な抗体および抗原の配列データセットを使用しました。これには、実験的に測定された結合親和性データも含まれており、これを用いてモデルの訓練と検証が行われました。具体的には、異なる抗体とSARS-CoV-2のRBD(受容体結合ドメイン)との結合データが使用されたと考えられます。
3. この論文で、どのような未解決問題が解決できましたか?:
この論文では、抗体と抗原の配列の長さが異なる場合にも適用可能な新しいカーネル手法を開発することで、結合親和性の予測精度を向上させることができました。また、カーネル手法を用いて、抗体と抗原の結合部位の特定が容易になり、より効率的な抗体設計が可能になることが示されました。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
今後の課題としては、さらに異なる種類の抗体や抗原に対してもモデルの適用性を拡大することが挙げられます。また、実際の臨床応用において、モデルがどの程度の予測精度を持つかを評価することも重要です。さらに、モデルの解釈可能性を向上させることで、抗体設計のプロセスをより透明にし、科学的な洞察を深めることも必要です。
title:
RESP2: An uncertainty aware multi-target multi-property optimization AI pipeline for antibody discovery
creator:
Parkinson, J., Hard, R., Ko, Y. S., Wang, W.
date:
2024-07-31
link:
http://biorxiv.org/cgi/content/short/2024.07.30.605700v1

Extending the capabilities of deconvolution to provide cell type specific pathway analysis of bulk RNA-seq data for idiopathic pulmonary fibrosis
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この論文の主な目的は、バルクRNA-Seqデータを用いて細胞タイプの比率を推定し、特定の疾患に関連する遺伝子発現の変動をより正確に理解するためのデコンボリューション手法の能力を拡張することでした。特に、異なる細胞タイプの比率の変動が遺伝子発現分析に与える影響を補正し、疾患に関連する特異的な遺伝子発現変化を明らかにすることが目標でした。
2. この論文は、どのようなデータを用いましたか?:
この研究では、GEOから入手した二つのバルクRNA-Seqデータセット(GSE134692とGSE150910)を使用しました。これらのデータセットは、肺組織のサンプルに基づいており、制御群と特発性肺線維症(IPF)群のサンプルが含まれています。また、scRNA-Seqデータを参照データとして使用し、バルクRNA-Seqデータの細胞タイプ比率を推定するために利用されました。
3. この論文で、どのような未解決問題が解決できましたか?:
この研究は、バルクRNA-Seqデータから細胞タイプ比率を推定するためのデコンボリューション手法(MuSiCを使用)を適用し、細胞タイプごとの遺伝子発現の変動を補正することで、疾患関連の遺伝子発現変化をより正確に特定することに成功しました。また、細胞タイプ特異的な経路分析を行うことで、疾患の生物学的理解を深める新たな洞察を得ることができました。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
デコンボリューション手法による細胞タイプ比率の推定にはまだ改善の余地があり、特定の細胞タイプ(例えば、ATII細胞や基底細胞など)の比率がゼロと推定されることがあります。これは、サンプル内の細胞の実際の存在を見逃してしまう可能性があるため、より正確な細胞タイプ比率の推定方法の開発が必要です。また、デコンボリューションに基づく結果の検証として、独立した実験による確認が必要であり、この方法の潜在的な誤検出を理解するためのさらなる研究が求められています。
title:
Extending the capabilities of deconvolution to provide cell type specific pathway analysis of bulk RNA-seq data for idiopathic pulmonary fibrosis
creator:
Calvero, M.-R., Meghadri, S. H., Carleo, A., Prasse, A., DeLuca, D. S.
date:
2024-07-31
link:
http://biorxiv.org/cgi/content/short/2024.07.30.605740v1

A survey of ADP-ribosyltransferase families in the pathogenic Legionella
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この研究の主な目的は、ADP-リボシルトランスフェラーゼ(ART)の新しいファミリーを同定し、それらの構造と機能的特徴を明らかにすることでした。特に、従来のARTとは異なる、非典型的なART様ドメインを持つタンパク質を同定し、その活性部位の保存性や変異について詳細に分析することが目的でした。
2. この論文は、どのようなデータを用いましたか?:
この研究では、タンパク質の配列類似性を調べるためにHHsearchを用いた初期のスクリーニング、Pythonによるテキストマイニングスクリプトを使用してPfam、PDB、SCOP識別子を用いたフィルタリング、RPS-BLAST検証、そして文献調査が行われました。さらに、Phyre2、HHpred、CLANS分析、およびRoseTTAFoldとAlphaFoldを用いたデノボ構造モデリングと構造比較(FATCATおよびDaliサーバー)が含まれています。
3. この論文で、どのような未解決問題が解決できましたか?:
この研究により、42の潜在的なART様ドメインを持つタンパク質が新たに同定され、これらは従来のARTファミリーとは異なる26の新しいファミリーに分類されました。また、これらの新しいファミリーの中で15のファミリーには明確な活性部位のシグネチャが見つかり、一部のファミリーでは保存された置換が予測される活性部位に存在することが確認されました。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
今回の研究で新たに同定されたART様タンパク質ファミリーの具体的な生物学的機能や役割についてはまだ不明な点が多く、これらのタンパク質がどのように細胞内で機能するか、また、どのような生理的または病理的プロセスに関与しているのかを明らかにする必要があります。さらに、非保存的な活性部位を持つ擬似酵素としての機能や、これらがどのように進化的に発展してきたのかについても、今後の研究課題として残されています。
title:
A survey of ADP-ribosyltransferase families in the pathogenic Legionella
creator:
Krysinska, M., Gradowski, M., Baranowski, B., Pawlowski, K., Dudkiewicz, M.
date:
2024-07-31
link:
http://biorxiv.org/cgi/content/short/2024.07.30.605764v1

A replicable and modular benchmark for long-read transcript quantification methods
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この論文の主な目的は、異なる量子化ツールを使用して得られたRNAシーケンスデータの精度と一貫性を評価し、比較することにより、遺伝子発現の定量における方法論の選択が結果にどのように影響するかを明らかにすることでした。特に、oarfish、NanoCount、bambu、lr-kallistoなどのツールの性能をシミュレーションデータセットを使用して評価し、それぞれのツールがどの程度信頼性があるかを検証することが目的です。
2. この論文は、どのようなデータを用いましたか?:
この論文では、複数のシミュレーションデータセットを使用しました。具体的には、iq-ONTシミュレーション、iq-PacBioシミュレーション、ts-dRNAシミュレーション、ts-cDNAシミュレーションなどが用いられました。これらのデータセットは、異なるシーケンシング技術に基づいており、各量子化ツールの性能を多角的に評価するために設計されています。
3. この論文で、どのような未解決問題が解決できましたか?:
この論文により、異なる量子化ツールが提供する精度と一貫性のレベルが明らかになりました。特に、oarfishとlr-kallistoは高い相関性と一貫性を示し、特定の条件下でのNanoCountの改善された性能が確認されました。これにより、RNAシーケンスデータの解析におけるツール選択の指針が提供され、研究者がより適切なツールを選択するための情報が得られました。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
この論文では、一部のツールが特定のシミュレーション条件下でのみ優れた性能を示していることが確認されましたが、全ての可能な実験条件において最適なツールがどれであるかを明らかにするためにはさらなる研究が必要です。また、新しいシーケンシング技術やアップデートされたツールバージョンに対する評価も継続的に行う必要があります。さらに、異なる生物学的コンテキストや実験的条件におけるこれらのツールの適用性を詳細に解析することも重要な未解決の課題です。
title:
A replicable and modular benchmark for long-read transcript quantification methods
creator:
Zare Jousheghani, Z., Singh, N. P., Patro, R.
date:
2024-07-31
link:
http://biorxiv.org/cgi/content/short/2024.07.30.605821v1

Logan: Planetary-Scale Genome Assembly Surveys Life's Diversity
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この論文の主な目的は、大規模な配列データの効率的なアセンブリと検索を可能にする新しいクラウドベースのインフラストラクチャとアルゴリズムの開発でした。特に、SRA(Sequence Read Archive)のデータを扱う際の計算コストと時間を削減し、より迅速かつ正確な遺伝子配列の再構築を目指しています。
2. この論文は、どのようなデータを用いましたか?:
この研究では、NCBIのSequence Read Archive (SRA) から取得した大量の配列データを使用しました。これには、バクテリアやウイルスのゲノムデータが含まれており、これらのデータはAWS Registry of Open Dataを通じてホストされています。
3. この論文で、どのような未解決問題が解決できましたか?:
この研究により、大規模な配列データのアセンブリと検索の効率が大幅に向上しました。具体的には、新しいクラウドベースのインフラストラクチャを用いることで、データの前処理と分析のスピードが改善され、コストも削減されました。また、新しいアセンブリツールの開発により、より高品質な遺伝子配列の再構築が可能になりました。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
この論文では、特定の環境下でのデータ処理の最適化や、さらに大規模なデータセットに対するスケーラビリティの向上が今後の課題として挙げられています。また、データの品質管理やエラー訂正の精度をさらに向上させることも重要な未解決問題です。
title:
Logan: Planetary-Scale Genome Assembly Surveys Life's Diversity
creator:
Chikhi, R., Raffestin, B., Korobeynikov, A., Edgar, R. C., Babaian, A.
date:
2024-07-31
link:
http://biorxiv.org/cgi/content/short/2024.07.30.605881v1

Cell-type specific epigenetic clocks to quantify biological age at cell-type resolution
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この論文の主な目的は、異なる組織タイプや細胞タイプにおけるDNAメチル化(DNAm)パターンを解析し、病気の診断や予防に役立つバイオマーカーを特定することでした。特に、年齢関連のDNAm変化を理解し、それを利用して生物学的年齢の予測モデルを構築することが目標でした。
2. この論文は、どのようなデータを用いましたか?:
この研究では、複数の公開データセットが使用されました。これには、異なる健康状態や病気(例えば、非アルコール性脂肪肝病、自殺、統合失調症、多発性硬化症、リウマチ性関節炎など)のサンプルを含む肝臓組織、全血、一次肝細胞のデータが含まれています。これらのデータは、異なるIlluminaのプラットフォーム(例えば、EPIC、HM450k)で得られたもので、DNAmのプロファイルが詳細に分析されています。
3. この論文で、どのような未解決問題が解決できましたか?:
この研究は、特定の疾患状態におけるDNAmの変化を特定し、これを用いて生物学的年齢の予測モデルを構築することに成功しました。これにより、特定の疾患のリスク評価や進行度をモニタリングする新たな方法として、DNAmベースのバイオマーカーが有効であることが示されました。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
今後の課題としては、さらに多くの異なる疾患や健康状態におけるDNAmパターンの解析が必要です。また、異なる人種や民族、年齢層をカバーするより広範なデータセットを用いた研究が求められます。これによって、より一般化された予測モデルの開発が可能となり、個々の患者に最適な予防策や治療法を提案するための精度を高めることができます。
title:
Cell-type specific epigenetic clocks to quantify biological age at cell-type resolution
creator:
Tong, H., Guo, X., Jacques, M., Luo, Q., EYNON, N., Teschendorff, A.
date:
2024-07-31
link:
http://biorxiv.org/cgi/content/short/2024.07.30.605833v1

Genomic and transcriptomic analyses of Heteropoda venatoria reveal the expansion of P450 family for starvation resistance in spider
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この論文の目的は、クモのゲノム解析を通じて、繰り返し配列の同定、遺伝子構造の注釈付け、機能注釈の提供を行い、クモの遺伝的特性と進化の理解を深めることにありました。特に、クモの遺伝子の構造と機能に関する詳細な情報を提供し、これによりクモの生物学的特性とその進化の過程についての理解を進めることを目指していました。
2. この論文は、どのようなデータを用いましたか?:
この研究では、クモのゲノムデータに加えて、スコーピオンや他の12種のクモのゲノムデータも収集し分析しました。遺伝子の注釈付けには、転写データ(HISAT2とStringTieを使用して得られた)や、近縁種からのタンパク質データを使用して比較遺伝子注釈が行われました。また、UniProtKBデータベースを使用して機能注釈が追加され、さらにKEGGデータベースを利用して遺伝子の代謝経路などが注釈付けされました。
3. この論文で、どのような未解決問題が解決できましたか?:
この研究では、クモのゲノムから繰り返し配列の同定、遺伝子構造の注釈付け、機能的な注釈付けといった基本的なゲノム情報の提供が行われました。これにより、クモのゲノム構造や遺伝子の機能に関する基礎データが整備され、クモの生物学的特性や進化の研究に対する理解が進められました。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
今後の研究課題としては、さらに多くのクモ種のゲノムデータを解析し、種間での遺伝的多様性や進化の過程を詳細に解析することが挙げられます。また、ゲノムデータから得られる情報を基に、クモの新たな生物学的特性や機能を発見し、それらがどのように進化的に獲得されたかを明らかにすることも重要です。さらに、遺伝子の機能に関する実験的検証を行い、注釈付けされた機能の確認と詳細な機能解析を進めることも必要です。
title:
Genomic and transcriptomic analyses of Heteropoda venatoria reveal the expansion of P450 family for starvation resistance in spider
creator:
Zhang, G., Wang, Y., Jiang, H., Wang, Y.
date:
2024-07-31
link:
http://biorxiv.org/cgi/content/short/2024.07.31.605936v1

Annotation Vocabulary (Might Be) All You Need
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この論文の目的は、タンパク質のアノテーションとその配列表現を統合する新しい方法を開発し、それによってタンパク質の機能や構造に関するより深い理解を可能にすることでした。具体的には、異なるモダリティ間の翻訳を直接最小化する従来の方法に代わり、タンパク質の潜在表現とアノテーション間の内在的関係をマッチングする新しい対照的損失を設計しました。
2. この論文は、どのようなデータを用いましたか?:
論文では、特にEXP(Uniprotシーケンスと実験的に検証された非冗長アノテーション、合計70,000)とRED(UniRef90シーケンスと非冗長アノテーション、合計500,000)という二つの異なるデータセットを使用しました。これにより、タンパク質の配列とアノテーションの両方に対するモデルの学習と評価が行われました。
3. この論文で、どのような未解決問題が解決できましたか?:
この研究により、タンパク質の配列とアノテーションの関係をより効果的にモデル化する方法が提案されました。特に、新しい対照的損失を用いることで、タンパク質の潜在的な表現とそのアノテーション間の関係をより正確に捉えることができるようになりました。これは、タンパク質の機能予測や構造予測において重要な進歩を示しています。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
今後の課題としては、提案されたモデルのスケーラビリティや汎用性をさらに向上させることが挙げられます。また、異なる種類のアノテーションやより大規模なデータセットを用いた検証が必要です。さらに、タンパク質の異なる機能や条件下での挙動を予測するためのモデルの適用性を広げることも重要な研究方向です。
title:
Annotation Vocabulary (Might Be) All You Need
creator:
Hallee, L., Rafailidis, N., Horger, C., Hong, D., Gleghorn, J. P.
date:
2024-07-31
link:
http://biorxiv.org/cgi/content/short/2024.07.30.605924v1

AncFlow: An Ancestral Sequence Reconstruction Approach for Determining Novel Protein Structural
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この論文の主な目的は、タンパク質の進化的歴史を探ることと、特定のタンパク質ファミリー内での機能的発散を理解することでした。具体的には、祖先タンパク質の配列と構造を再構築し、それらがどのように進化して現在知られているタンパク質の機能に至ったかを解明することを目指しています。
2. この論文は、どのようなデータを用いましたか?:
論文では、複数のタンパク質配列を含むFASTAファイルと、これらのタンパク質の系統樹を示すNewick形式のファイルが使用されました。これらのデータを基に、祖先のタンパク質配列の再構築と、その構造予測が行われています。
3. この論文で、どのような未解決問題が解決できましたか?:
この研究により、特定のタンパク質ファミリーの進化的過程と、祖先タンパク質が現代のタンパク質にどのように進化してきたかの詳細が明らかになりました。また、祖先タンパク質の構造と機能の関連性に関する新たな洞察が得られ、タンパク質の機能的発散のメカニズムを理解する上での重要な手がかりが提供されました。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
今後の課題としては、さらに多くのタンパク質ファミリーに対して同様の分析を行い、より広範なタンパク質の進化的ダイナミクスを解明することが挙げられます。また、祖先タンパク質の機能を直接的に実験的に検証する方法を開発することも重要です。これにより、予測された機能と実際の生物学的機能との間のギャップを埋めることができるでしょう。
title:
AncFlow: An Ancestral Sequence Reconstruction Approach for Determining Novel Protein Structural
creator:
Rouzbehani, R., Kelley, S. T.
date:
2024-07-30
link:
http://biorxiv.org/cgi/content/short/2024.07.30.605920v1

Genomic and transcriptomic profiles influence on brain morphology and their interactions with pain sensitivity
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この論文の目的は、痛み感受性と脳形態の違いとの間の相関関係を解明し、特定の遺伝子発現パターンがどのようにしてこれらの差異に寄与するかを明らかにすることでした。痛み感受性に関連する脳の形態学的差異を遺伝子レベルで理解することにより、痛みの感じ方に影響を与える生物学的基盤を探ることが主な目的です。
2. この論文は、どのようなデータを用いましたか?:
この研究では、6人のドナーから得られた遺伝子発現データと脳の形態学的データ(GMD、Gray Matter Density)を用いました。PLS(Partial Least Squares)回帰分析を使用して、遺伝子発現パターンとGMDの差異との間に存在する相関を調査しました。
3. この論文で、どのような未解決問題が解決できましたか?:
この研究は、特定の遺伝子発現パターンが痛み感受性に関連する脳の形態学的差異と有意に関連していることを示しました。PLS1スコアとGMDの差異の間に正の相関が見られ、これらの遺伝子が痛みの感じ方に寄与していることが示唆されました。また、27の重要な遺伝子が同定され、これらが痛み感受性に関連するGMDの違いに大きく寄与していることが明らかになりました。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
今後の課題としては、これらの遺伝子が具体的にどのようなメカニズムで痛み感受性に影響を与えるのかをさらに詳しく解析することが挙げられます。また、より多くの個体群を対象にした研究が必要であり、得られた結果の一般化可能性を検証することも重要です。さらに、これらの遺伝子をターゲットとした新たな痛み治療法の開発も考えられます。
title:
Genomic and transcriptomic profiles influence on brain morphology and their interactions with pain sensitivity
creator:
Pan, Y., Zhang, Z., Hao, X., Huang, G., Liang, Z., Zhang, L.
date:
2024-07-30
link:
http://biorxiv.org/cgi/content/short/2024.07.30.605795v1

In silico PK predictions in Drug Discovery: Benchmarking of Strategies to Integrate Machine Learning with Empiric and Mechanistic PK modelling
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この論文の主な目的は、ラットにおける静脈内投与後のプラズマ濃度-時間プロファイルを予測するために、機械学習(ML)アプローチと異なる薬物動態(PK)モデリングアプローチを組み合わせる方法を評価することでした。特に、Pure-ML、Baseline-ML、Compartmental-ML、PBPK-MLという4つの異なるPKモデリングアプローチを用いて、それぞれのアプローチがどの程度効果的にプラズマ濃度の時間依存的な変化を予測できるかを検証することが目的です。
2. この論文は、どのようなデータを用いましたか?:
この研究では、ラットにおける静脈内投与後のプラズマ濃度-時間データを用いました。具体的には、2017年末までに登録された化合物のデータを最初のモデルのトレーニングに使用し、2018年の最初の3か月に登録された化合物のデータを予測に使用しました。このプロセスを繰り返し、合計18のモデルが訓練され、最新の化合物のデータセットに対する予測が行われました。
3. この論文で、どのような未解決問題が解決できましたか?:
この研究では、異なるPKモデリングアプローチとMLを組み合わせることにより、プラズマ濃度-時間プロファイルの予測精度を向上させる可能性が示されました。特に、Compartmental-MLとPBPK-MLアプローチは、プラズマ濃度の時間依存的な変化をより正確に予測することができ、これにより薬物の体内動態をより正確に理解し、効果的な薬物開発に寄与することが期待されます。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
この研究では、全てのPKモデリングアプローチがいくつかの化合物に対しては予測精度が低いことが示されており、特に時間が経過するにつれて予測のバイアスや誤差が増加する傾向があります。したがって、より広範囲の化合物に対して高い予測精度を達成するために、モデリングアプローチのさらなる改善や新たなアプローチの開発が必要です。また、機械学習モデルの訓練に使用する化学構造からの直接的な学習や、関連する補助的なタスクとの共同学習をさらに発展させることも、未解決の課題として残されています。
title:
In silico PK predictions in Drug Discovery: Benchmarking of Strategies to Integrate Machine Learning with Empiric and Mechanistic PK modelling
creator:
Walter, M., Aljayyoussi, G., Gerner, B., Rapp, H., Tautermann, C. S., Balazki, P., Skalic, M., Borghardt, J. M., Humbeck, L.
date:
2024-07-30
link:
http://biorxiv.org/cgi/content/short/2024.07.30.605777v1

Single cell data enables dissecting cell types present in bulk transcriptome data
1. この論文は、どのような未解決問題を解決するのが目的でしたか?:
この論文の目的は、iPSC由来の腎臓および脳オルガノイドからのバルクトランスクリプトームデータの細胞タイプ分布を解析することでした。特に、バイオプシーに基づく腎臓および脳の単一細胞RNAシークエンス(scRNA-seq)データを用いて、細胞タイプ特異的遺伝子発現プロファイルを提供し、これを用いて細胞タイプの分布を推定することが目的です。
2. この論文は、どのようなデータを用いましたか?:
この研究では、腎臓生検および発達脳からのscRNA-seqデータ、および腎臓および脳オルガノイドからのバルクトランスクリプトームデータセットを使用しました。具体的には、腎臓のscRNA-seqデータセットGSE241302とGSE202109、脳のscRNA-seqデータセットGSE104276を用いて分析を行いました。
3. この論文で、どのような未解決問題が解決できましたか?:
この研究により、腎臓および脳のオルガノイドからのバルクデータの細胞タイプ分布を正確に推定するためのパイプラインが構築されました。特に、異なる腎臓データセット間での細胞タイプの分布の違いを明らかにし、これにより平均的な健康な人間の腎臓を代表するデータセットの選定に影響を与える要因を理解することができました。
4. 将来取り組むべき未解決問題として、何が残されていますか?:
将来的には、さまざまな要因(皮質/髄質、性別、年齢、疾患など)による影響を考慮した複数の異なる参照データセットの生成が必要です。また、細胞タイプのアノテーションにおいては、既知のマーカー遺伝子に依存することなく、より正確なアノテーションを実現するための方法の改善が求められます。さらに、単一細胞クラスタリング分析の微調整を進めることで、新たな細胞サブタイプの同定が可能になる可能性があります。
title:
Single cell data enables dissecting cell types present in bulk transcriptome data
creator:
Wruck, W., Adjaye, J.
date:
2024-07-30
link:
http://biorxiv.org/cgi/content/short/2024.07.30.605755v1

この記事が気に入ったらサポートをしてみませんか?