見出し画像

Evaluation of large language models for discovery of gene set function

1. 本研究の学術的背景と研究課題の核心になる「問い」は、"機能ゲノミクスの主な手法である遺伝子セット分析は、人間が作成した(そして不完全であり、生物学的文脈を理解していない)遺伝子機能のデータベースに頼っているが、それだけで適切な研究は可能なのか?"です。

2. 本研究の目的は、OpenAI's GPT-4、言語モデルを利用して、その埋め込まれた生物医学的知識から共通の遺伝子機能についての仮説を開発することにあります。その独自性と創造性は、GPT-4を用いて遺伝子セットの全体的な機能を要約する名前をラベル化する新しい手法を開発したことにより実現されています。

3. 本研究の着想は、手動で作成された遺伝子機能のデータベースの不完全性と生物学的文脈への無理解からきており、関連する国内外の研究動向との位置付けとしては、GPT-4を使ったエクサワーズ(遺伝子機能の研究)の新たな可能性を探る先駆け的な研究と言えます。

4. 本研究で明らかにしたのは、遺伝子オントロジーの名前付き遺伝子セットを基準に、GPT-4が50%のケースで非常に似た名前を生成し、残りのほとんどのケースでより一般的な概念の名前を回収したという事実です。また、'omicsデータで発見された遺伝子セットでは、GPT-4の名前は、支持文と引用文が大部分を人間がレビューで確認できる程度に、遺伝子セットのエンリッチメントよりも有益な情報を提供したということです。

5. 本研究の有効性は、GPT-4が生成した名前と人間が生成した名前を比較検証した結果から確認しました。具体的には、GPT-4が生成した名前は50%のケースで人間が生成した名前と非常に似ており、残りの大部分のケースではより一般的な概念の名前を生成することができました。

この記事が気に入ったらサポートをしてみませんか?