Automatic extraction of ranked SNP-phenotype associations from text using a BERT-LSTM-based method

生物医学文献から一塩基多型(SNP)と表現型の関連性を抽出することは、BioNLPにおいて重要な課題である。近年、突然変異と疾患の関連性を抽出する手法が開発されている。しかし、SNPと表現型の関連をコンテンツから抽出する方法として、その確実性の程度を考慮したアクセス可能な方法は存在しない。本論文では、生物医学抄録からランク付けされたSNP-phenotypeの関連性を抽出するために、いくつかの機械学習法を開発し、その後、互いに比較した。また、本研究では、ランダムフォレスト、ロジスティック回帰、決定木などの浅い機械学習法と、サブツリーやローカルコンテキストなどの2つのカーネルベース法、ルールベースとディープCNN-LSTMベース、2つのBERTベース法を開発し、関連性を抽出することができた。さらに、実験の結果、カーネルベースよりも優れた関連性抽出法を実現するために、言語学者の特徴を利用することができたが、深層学習とBERTベースの方法が最も優れた性能を発揮したことが示された。しかし、使用したPubMedBERT-LSTMは、使用した手法の中で他の開発した手法を上回った。さらに、報告された関連性の強さを評価するために使用できる、抽出された関連性の確実性の程度を推定するために、同様の実験を行いました。実験の結果、提案したPubMedBERT-CNN-LSTM法は、このタスクで洗練された手法を上回った。

この記事が気に入ったらサポートをしてみませんか?