AlphaFold2の非専門家向け活用法第3回「予測構造を活用したタンパク質発現や構造解析」

2021年7月31日 20:05

AlphaFold2による予測構造の良し悪しの判断についての第 1回、第1.5回記事、予測構造に基づき実践的にメカニズムをいろいろ考察してみた第2回記事に続き、第3回記事ではタンパク質発現や構造解析へのAlphaFold2の活用についていくつか述べてみたいと思います。

「Cryo-EM Revolution」との違い

AlphaFold2は生命科学の多くの分野に影響を与えると思われますが、やはり直接的に大きな影響を受けるのは構造生物学でしょう。ただ、私自身が研究をする上で、より影響が大きいのではないかと思うのは数年前のクライオ電顕の各種技術革新のほうでしょうか。結晶化の必要が無いため構造解析のスピードが以前より桁違い早くなると同時に、構造解析可能なタンパク質の範囲もグッと広くなりました。この変化の影響は様々な意味で極めて大きかったです。

とはいえ、クライオ電顕の技術革新の際、つまり「電顕すげえ！」となった当初の時期は多くの構造生物学者にとってクライオ電顕は施設のアクセス的にも技術的にも容易なものではありませんでした（技術の世界的普及になんやかんやで５年くらいかかった印象）。つまり、「Cryo-EM Revolution」当初は構造解析に耐えうる電顕の数、それを使いこなせるグループの数が世界的にも限られており、数年の間の技術格差が大きく存在した感があります。「80年代のターボ全盛期のF1でホンダエンジンを積んでるチームとそれ以外のチームでいかんともし難い差があった」ようなイメージです。実際、例えば日本の様々な大学からクライオ電顕構造の論文がコンスタントに出るようになったのはここ2-3年くらいではないでしょうか。

それに対し、AlphaFold2については（開発者側としてはともかく）ユーザーとしてのアクセスがクライオ電顕の時よりずっと容易です。この点は「Cryo-EM Revolution」との違いとして重要な点でしょう。つまり電顕の時とは異なり、誰でもすぐに簡単に使えるのでさっさと上手いこと使いましょう、ということです。実際、Twitter等で様々な研究者により活用法について議論がなされており、日進月歩以上のスピード感で情報共有が進んでいます。それらの例をまじえながら、以下の話を進めたいと思います。

タンパク質の構造解析や発現精製のためのAlphaFold2の活用法

構造生物学の人にとってわかりやすい例としては自身の構造決定に役立てる方法でしょう。

位相決定やモデル構築に活用

1. 分子置換のテンプレート

2. モデル構築の参考

「1. 分子置換のテンプレート」については、東大農学部酵素研の伏信先生のツイートで

...６年間解けなかったアシメ12分子（超?）の結晶構造がMOLREPであっさり解けました。。すごすぎ。
— Shinya Fushinobu (@sugargroove) July 19, 2021

とあるように、既存の予測構造よりずっとパフォーマンスが良いと思われます。その他成功例を多数見ました。既に試されている方も多いでしょう。

「2. モデル構築の参考」についても

this just happened today: I wrestled for 3-4 months with a cryoEM map with weak density trying to built ~600 residues. Best I ever had, on the left. This morning, got the AF prediction, minimum adjustment to fit into the map + refinement and right...shit, I want my time back! pic.twitter.com/309f1atNAL
— Israel Fernandez (@IsraelF96135088) July 27, 2021

等々、かなりパワフルなようです。これはわたしも既に試していますが、結構いい感じです。

精製試料調製のための発現コンストラクト設計に活用

X線や電顕のデータを取る前の段階、構造解析に向けた精製試料調製のための発現コンストラクト設計の段階においてもAlphaFold2はかなり有用と思われます。また、このような精製試料調製の助けになるような話は構造解析用途に限らず、生化学、生物物理、薬剤スクリーニング等、様々な方面で有用な話でもあります。わたしも共同研究先の欲しいタンパク質精製試料を用意することは薬剤スクリーニング等でちょくちょくあります。

蛋白精製用途に限らず、発現コンストラクト設計の検討の際は、とりあえずAlphaFoldの予測構造(もしくは実験構造があれば実験構造)をみてみるというのは大切だと思います。その意味でも、今後は生命科学者全般に構造生物学の基本的なリテラシーが求められる時代ともいえるでしょう。

1. Disorder領域の予測

タンパクの安定性や結晶化に悪影響であることが多いため、タンパク質の発現精製の際、特に構造生物学分野ではDisorder領域を除くことがしばしばあります(最近の電顕の場合は必ずしもそうでもありませんが)。そのためにはDisopredといったようなDisorder予測プログラムがこれまで活用されてきました。

それに対し、AlphaFoldの予測構造に基づくDisorder領域予測も同様に可能と思われます。下記は第1回記事でも紹介したbeta2アドレナリン受容体の予測構造ですが、一見してN末端側や3番目の細胞質側ループ(ICL3)がふらふらしていることがわかります。実際、これらの領域は結晶構造が最初に報告された際には除かれています。

また、関連して下記のようなツイートもみかけました。Disorder領域予測の専門家からみても既存の方法よりAlphaFold ベースの Disorder予測のほうがパフォーマンスが良いとの事です。AlphaFoldベースのDisorder領域予測のWebサービス(配列を投げれば予測スコアが返ってくるタイプ)が出てくるのも近いのではないでしょうか。また、AlphaFoldに基づくDisorder予測がアテになるのと同様の理由から、発現コンストラクト設計の際のドメイン境界の検討にもAlphaFoldの予測構造は有用と思われます。

#AlphaFold as disorder prediction? Turns out, it's remarkably good. @DaveyLab and I tested two scores derived from AlphaFold structures by @DeepMind and @emblebi and it seems to outperform our current method. Data and details at https://t.co/flDlf5BnfN and below. It's a 🧵!
— Bálint Mészáros (@_BalintMeszaros) July 26, 2021

2. タグ導入部位の検討

組み換えタンパク質の発現の際、Hisタグといったような精製のためのタグや発現をトレースするための GFPのような蛍光タグをつけることは一般的です。しかしながら、タグの種類や位置によっては目的のタンパクが発現しなくなってしまうこともしばしばあります。そういった場合も構造をみれば、例えば「あ一、確かにN末端側にHisタグをつけてもダメだ。」と一見してすぐにわかることが多いのですが、それはまさに「卵が先か鶏が先か」。構造がそもそもないからタンパクを精製したいわけであります。

AlphaFold 2による予測構造はそういった際の助けになることでしょう。わたしの研究室で今取り組んでいるタンパクでも「N末端側にタグをつけると多量体がバラバラになるけれど、C末端側だと大丈夫」というケースがありましたが、AlphaFold 2による予測構造をみてみると「なるほど!」でした。

同様の経験をされた研究者の方は他にもいらっしゃるようで、下記のようなツイートをTwitter でみました。

Thank you #AlphaFold for letting us know that the protein construct we´ve been trying to clone and express, wasting lots of time and money, will most likely have the C-terminal His tag completely inaccessible and we should have designed an N-terminal His tag. 🥲 pic.twitter.com/BzYHLu0dpp
— Javier M. Gonzalez (@_biojmg) July 27, 2021

3. 構造を安定化させるためのクロスリンク変異体等のデザイン

不安定なタンパクの安定化、もしくはそこそこ安定ではあるけれど特定のコンフォメーションを安定化させたい時(現状のAlphaFold2だと複数のコンフォメーション予測には対応していませんが。)、Cys-Cys間のS-S結合の形成をねらって、部位特異的にシステイン変異を導入することがままあります。ただし、さきほどの「卵が先か鶏が先か」の話と同様に、構造がない状態でこれを行うことはなかなか難しく、ホモロジーモデルといった既存の構造予測についても信頼性の問題がありました。

それに対し、AlphaFold 2による予測構造を元にクロスリンク変異体の設計を行うことは以前よりもより大きく期待できると考えられます。実験構造と比較し、RMSD が0.4-0.6Aレベルの高い信頼性の予測構造も多くあるようです。ただ、繰り返しになりますが、予測構造のどの領域がアテになるかについては個別の予測構造ごとに吟味する必要があるでしょう。

実際、私の研究室でもAlphaFold 2による予測構造を元にクロスリンク変異体を設計し、現在作成中です。実験構造に基づきそういった変異体の設計に慣れている人であればすぐに取り組むことが可能な方案でしょう。

4.インタラクトーム解析情報と組み合わせての結合パートナーの検討

近年、様々な技術革新によりインタラクトーム解析の情報が飛躍的に増えました。この情報とAlphaFold2による複合体構造予測を組み合わせることで「各種機能解析、構造解析の候補となる結合パートナーの検討」を考えてみるのも面白いです。わたしも既に自分の興味のあるタンパクについて、インタラクトームデータベース上の結合パートナーについて複合体予測構造を試してみて、研究の方向性を考える参考にしたりしています。とはいえ、これは誰でも思いつくようなことなので、網羅的な「インタラクトーム構造予測」は例えばヒトタンパクあたりを対象にDeepMindからそのうち出てきそうな気もします。

ただ、現状、複合体構造予測についてはまだまだ当たりハズレが大きい印象なので、そこの判断のためのリテラシーは大切です。つまり、その点に限らずですが、「うそはうそであると見抜ける人でないと(AlphaFold2を使うのは)難しい」ということです。ですので、自分では判断が難しいケースだと感じる場合は知り合いの構造生物学研究者に相談するのもひとつの手だと思います。

以上、「AlphaFold2の有用性」に基づき、それを自分の研究にどう活かすかという話が今回の記事でした。次回の第4回記事(多分最後)では、それとは逆に「AlphaFold2が現状カバーしていないこと、苦手なこと」に基づき、自身の研究、特に構造生物学研究をどう進めていくかということについても考えてみたいと思います。

AlphaFold2の非専門家向け活用法 第3回「予測構造を活用したタンパク質発現や構造解析」

「Cryo-EM Revolution」との違い

タンパク質の構造解析や発現精製のためのAlphaFold2の活用法

いいなと思ったら応援しよう！

AlphaFold2の非専門家向け活用法第3回「予測構造を活用したタンパク質発現や構造解析」