見出し画像

話題のAlphaFold 3から学ぶGoogleの強さ

この記事では、いま話題の生体分子の構造予測ツールAlphaFold 3、元生物学の研究者の視点から書いていきます。何がすごいのか、そこから学ぶGoogleの強さとは何かについて掘り下げていきます。私はもともと構造生物学という生体分子の構造を明らかにする研究者で、その分野で去年、博士号を取りました。X等でたまたまドンピシャの分野の出来事が盛り上がっていたので、つい思い切って書いていこうと思ったのです。ここでは私の視点から、生物学をよく知らない人でもわかるように、Google DeepMindが発表した、AlphaFold 3について分析していきます。

まずは、タンパク質の構造予測ってどういうこと?っていう方に向けて説明していきます。私たち生物の体内で働いている(動いたり、反応を起こしたりする)分子は、じつはほとんどの場合にタンパク質という物質です。人間だとタンパク質は約20,000種類あり(数え方は諸説あり)、ありとあらゆる体の中の働きを担っています。たとえば、筋肉を動かすのも、エネルギーを作るのも、消化するのも全部タンパク質がやってくれています。すごく重要な働きですよね。ところが、その組成はシンプルで、たった20種類のアミノ酸が数百から数千個、数珠状につらなっているところから構成されてます。1960年代から2000年代にかけて、先人たちの地道な研究活動のおかげで、それぞれのタンパク質が、何のアミノ酸から構成されていて、どういう順番で連なっているのか(アミノ酸配列と言います)が明らかになってきました。しかし、タンパク質がどういう働きをするのかについては、アミノ酸配列をみるだけでは分からないのです。なぜなら、タンパク質は折り畳まることではじめて機能を発揮できるからです。しかしアミノ酸配列を眺めるだけでは、その折り畳み方を知ることは困難でした。

今回のAlphaFold 3が何をするのかというと、アミノ酸配列からタンパク質の折りたたみを予測するというものです。前のバージョンであるAlphaFold 2が出た時には、一つのタンパク質単独の折り畳みを高精度に予測できるようになり、確実にノーベル賞を受賞するだろうという評判でした。実際に、サイエンス誌が選ぶ2022年の1番の研究に選ばれており、私の研究も例に漏れずAlphaFold 2の助けを大いに借りることで完成しました(https://www.sciencedirect.com/science/article/pii/S0022283623002024)。前のAlphaFold 2が話題になって、3で今更何が進化したのでしょうか?3では、タンパク質一個だけではなく、タンパク質同士が結合した構造を予測できたり、タンパク質と他の生体分子(例えばDNA)と結合した構造を予測できるようになりました。他にも、タンパク質が特殊なマーキング(翻訳後修飾と言います)を受けた際に、折りたたみが変化したりするのも予測できるようになりました。つまり、ありとあらゆる生体分子の構造をマシンの予測だけで明らかにする準備が整いつつあるということです。

AlphaFold 3ではこのような大きな進化を遂げていますが、この進化の秘密は、AlphaFold 3の予測システムの大きな変更にあります。その変更点は、いままでたんぱく質専用の予測システム、つまりアミノ酸の骨格に特化した予測を用いていたのに対して、今回の3に関しては、Stable DiffusionやMidjourneyで有名な拡散モデルを用いて、画像生成のようにタンパク質の立体構造を予測したところです。これによっていままで20種類のアミノ酸に限定されていた予測が、もっと複雑なアミノ酸側鎖(翻訳後修飾)やDNAやRNAなどの核酸についても予測が可能になりました。このような抜本的なアーキテクチャの変更はまさにDeepMindのお家芸だと思っていて、これまでのブレイクスルーを生み出してきた機械学習モデルをみていても、イノベーションを生み出す力(平たくいうと研究力)が強いなと思います。たとえば、AlphaGoが囲碁でプロを破ったことが話題になりましたが、その時は人間の対局を学ぶことで強さの土台を手に入れていました。しかし、そのあとのAlphaGo Zeroでは真っ新な状態から自己対局のみで強くなっていき、複数のトッププロ相手のオンライン対戦で無敗の成績を誇っていきました。この例からもわかるように、アーキテクチャや発想を大胆に、質的に変えることで、性能向上やブレイクスルーを達成してきたDeepMindですが、今回もまさに質的な変化によって生体分子の構造予測の点で汎用性が圧倒的に高まったのだと思います。

このようなブレイクスルーは一体どのようにして起こせるのでしょうか?もちろん、世界のトップの頭脳が集まっているのだからできて当然だ、みたいな見方をする人もいると思いますが、それでは我々のような凡人はここから学ぶことができません。私は、彼らが天才だからとかそういう理由じゃなく、「前提を疑い、壊す」というマインドセットを常に欠かしていないことが重要なのだと思っています。AlphaFoldが出る以前はそもそも、マシンで一からタンパク質の立体構造の予測をするのはほとんど不可能だという空気があったかと思います。なぜなら、その作業は人間にとってそもそもムリな作業で、手で構造予測をすることも考えられていなかったからです。当時の機械学習手法を振り返ると、人間ができることを、もっと精度良くみたいな例がほとんどだったかと思います。たとえば、タンパク質の構造をコンピューターの計算力で予測しようとする試みもありましたが、組み合わせの数がアミノ酸20種類に対して、数百のアミノ酸が連なるので、その可能性は指数関数的に増加します。つまり力技でのシミュレーションが難しかったのです。その空気のなかで、深層学習という手法の力を信じ、深層学習特有の「なんとなくわかる」みたいな力で構造を明らかにできるんじゃないかと考えたのは、すごい発想だと思います。それを信じてきた結果、2022年でもっとも話題を呼んだ、AlphaFold 2が誕生し、そしてその2年後のこの間、その進化版である3が出たというわけです。

AlphaFold 3の進化によって、大部分の生体分子の立体構造がいろいろな組み合わせで明らかになると考えています。タンパク質の形がわかれば、その表面のアミノ酸の原子の配置から機能が明らかになります。このようなマシンを用いた生物学研究は今後もっと加速し、生体内のより高精度なシミュレーションが可能になっていきます。そうした先には、これまで実験的にしか証明できなかった、あるいは仮説を提唱できなかった現象が浮かび上がっていき、どんどんブレイクスルーが起こっていくのだろうと予想します。ますます、ワクワクする未来が待ってますね。いつまでも学び続けていきたいですね。

この記事が気に入ったらサポートをしてみませんか?