見出し画像

Data-efficient Sequence Design Based on Protein Language Models

2022年度研究会推薦博士論文速報
[バイオ情報学研究会]


山口 秀輝
(SyntheticGestalt(株)リサーチエンジニア)
$${^{☆1 }}$$

邦訳:タンパク質言語モデルに基づくデータ効率的な配列設計

キーワード
タンパク質工学/言語モデル/バイオインフォマティクス

【背景】機械学習を活用したタンパク質の機能改変・設計技術が発達してきた
【問題】教師データとなる実験値を得るには多大なコストを要する
【貢献】タンパク質言語モデルによるデータ効率の良い手法を提案した

 酵素や抗体という単語を目にしたことのある方は多いでしょう.これらはタンパク質の一種であり,生命活動の根幹を担う主体であるとともに,医学・生物学における実験ツールとしても重宝されています.したがって,これらの機能を望むように変えることができれば便利です.このような試みをタンパク質工学と呼びます.タンパク質はアミノ酸という20種類の構成単位が数珠状に連なった高分子であり,どの位置のアミノ酸をどのように替えれば所望の機能が得られるか探索する,つまり配列設計する試みと言えます.

 しかし,たとえば100個のアミノ酸からなるタンパク質の場合,理論上は20の100乗,つまり10の130乗程度の組合せがあり得るため,網羅的な探索は不可能です.近年では機械学習を用いた実験の効率化が盛んに研究されていますが,モデル学習に必要となる教師データの取得,つまり実験研究には多大な労力と時間,費用を要します.したがって,できるだけ少ないデータで「筋の良い」候補を生み出すことが重要です.

 そのための有力なアプローチとして,本研究では特に「タンパク質の言語モデル(protein language models; pLMs)」と呼ばれる手法に着目しました.言語モデルは,最近ではChatGPTのような言語生成AIの中核技術として利用されていることでも知られる自然言語処理技術の1つであり,大規模な文章データを用いた教師なしでの特徴獲得ができる長所があります.アミノ酸を「単語」,タンパク質を「文」とみなして学習された言語モデルであるpLMsは,各アミノ酸の物理化学的性質やタンパク質同士の進化的な関係性,もしくはその立体構造情報など,タンパク質に関する全般的な情報を教師なしで獲得できていることが明らかにされています.

 そこで本研究では,データ効率良くタンパク質配列設計を行うための機械学習手法をpLMsに基づいて2つ提案しています.1つ目は,機能改変対象となるタンパク質に特有の進化的な情報をpLMsに取り込む教師なし学習方法の提案です.天然に存在するタンパク質は長い時間を経た進化の産物であり,タンパク質の全般的な特徴に加え,固有の機能に直結する進化的特徴も考慮することがタンパク質工学においては有効です.そこで,実務的なタンパク質工学シナリオを複数想定し,その各々に対して対象タンパク質と進化的に関連の強いタンパク質群(ホモログと呼ぶ)から効率的に情報抽出するためのプロトコルを定義しました.結果として,利用できる教師データが少ない場合にタンパク質の機能予測精度を大幅に改善できることを示しました.2つ目は,pLMsを用いてタンパク質配列を生成することで,教師データをまったく使わず,機能改善された候補を推薦するアルゴリズムを提案しました.アルゴリズムの入力として機能改変対象タンパク質のホモログ群を用いることで,従来の教師ありアルゴリズムと比較しても,同等かより優れたタンパク質配列が提案できることを複数の大規模実験データを用いて確認しました.

$${^{☆1 }}$$執筆当時の所属.

(2023年5月25日受付)
(2023年8月15日note公開)

ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー
 取得年月:2023年3月
 学位種別:博士(科学)
 大学:東京大学

ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー

推薦文[メディア知能情報領域]バイオ情報学研究会
機械学習を用いたタンパク質工学の手法に関する博士論文です.実験コストを低減し,専門知識なしで高機能なタンパク質の設計を可能にします.未分類のタンパク質データから進化情報を抽出するタンパク質言語モデルを提案し,少ないデータで高度な予測を実現します.産業界や生命科学の応用が期待される研究分野です.

研究生活  私は機械学習エンジニアとして勤務する傍らで博士号を取得したいと考えていました.ある日指導教官のツイートを見かけ,研究内容に強く関心を持ったことから博士進学を決めました.通常業務と並行して研究成果を出すのは簡単ではありませんでしたが,学会発表や雑誌投稿などのマイルストンを立て,一つひとつクリアすることで研究内容を着実に発展させられるよう努力していました.社会人博士が万人に勧められるものだとは思いませんが,私はやってみて非常に良かったです.業務上身につけた技術は,研究の実装に関する部分に時間を取られることなく本質的な内容に集中するのに役立ち,逆に研究を通し身につけた専門性は通常業務にプラスの効果を発揮しました.
機械学習×生物学の分野は発展著しく,たとえば機械学習系トップ会議における要注目論文にもこの分野の研究が選出されるようにすらなってきています.境界領域ならではの面白みと意義があり,今後も多くの研究者によるイノベーションが必要とされます.読者の皆さんにも関心を持っていただけたら嬉しいです.