見出し画像

Associating biological context with protein-protein interactions through text mining at PubMed scale

https://www.sciencedirect.com/science/article/abs/pii/S1532046423001958

1. 本研究の学術的背景,研究課題の核心をなす学術的「問い」は?
- 薬剤、タンパク質、遺伝子、疾患の間の既知の関係から知識を推測することは、珍しい病気を治療するために、どの既存の薬剤が再利用される可能性があるかを予測するなど、臨床的な影響を持っている。しかし、生物学的文脈に対する情報が不足している。このような文脈情報を哺乳動物学的発見をするために考慮することは欠かせない。既知の薬剤、タンパク質、遺伝子、疾患の相互作用に関する文献から抜粋された知識グラフには生物学的文脈という重要な情報が欠けている。本研究では、これらの生物学的文脈とタンパク質間の仕事を関連付ける問題を文法的、意味的、そして新しい「メタ-discourse features」と呼ばれる特徴量を用いた分類問題として取り扱い、考慮すべきバイオロジカルコンテキストを紹介する方法を開発した。

2. 本研究の目的及び学術的独自性と創造性は?
- 本研究の目的は、知識グラフから生物学的文脈を特定するにはどうすればよいかを解決することである。この研究は、文法的、意味的、そして新しい「メタ-Discourse features」と呼ばれる特徴を使用し、自動生成PubMed規模のコーパスにおいて細胞タイプとティッシュ相関性の明確な文法的キューを検索し、関連付け問題の分類器トレーニングコーパスのインサイダー・コーパスを導入する。この独自性と創造性は、生物学的文脈とタンパク質間の仕事を関連付ける研究において、バイオロジカルコンテキストを紹介することである。

3. 本研究の着想に至った経緯や,関連する国内外の研究動向と本研究の位置づけは?
- 現在、薬剤、タンパク質、遺伝子、疾患の間の関係を明らかにするため、文献検索によるデータが利用されているが、これには生物学的文脈が欠けており、それを解決するため様々なアプローチが試みられている。本研究は、自然言語処理技術を活用し、生物学的文脈に着目したバイオロジカルコンテキストの組み込みに取り組んでいる。

4. 本研究で何をどのように,どこまで明らかにした?
- 本研究では、生物学的文脈とタンパク質間の関連付け問題を解決する方法が提案され、新しい特徴量「Meta-discourse features」が導入された。また、Insider corporaと呼ばれるPubMed規模のコーパスが作成された。コーパスは、細胞種や組織の特異的な文法的手がかりを検索して抽出され、バイオ医学に関するデータの解析に用いられた。この分類器を用いて、新たな蛋白質間ネットワークを構築している。

5. 本研究の有効性はどのように検証した?
- 本研究の有効性は、分類器の正解率を用いて検証した。細胞種や組織特異的な要素が適切に識別できることが実証されている。また、最終的に得られたデータは、既存の知識グラフに取り込まれることによって、より正確な薬剤設計を可能にすることが期待されている。

この記事が気に入ったらサポートをしてみませんか?