見出し画像

生物基盤モデルESM3の登場

世界モデル(基盤モデル)が大規模言語モデルや動画モデルを越えて生物モデルにも波及してきたことをお話しします。


世界を生成AI化する

NVIDIAのJense Huangは自分が起業した会社を自分がCEOの間に時価総額3兆ドルにした初めての起業家です。当然、すごいビジョンを持ち、生成AIにもさまざまな最新情報ソースに通じていて強気です。
今年のCOMPUTEX 2024では過去の認識するAIから離陸して生成AIの時代に入ったことを宣言していました([NVIDIA])。かつてはデータから認識を作り出していましたが、今や、世界を符号化し、符号化したものを学習することで世界の原理を取り出せるというわけです。物理でも生物でも符号化して生成AIで解けるということです。
故Steve JobsがカリスマならJensen Huangはもやは神だとまで言われています ([shueisha])。

ESM3

EvolutionaryScaleはMetaのAI基礎研究所(FAIR) からスピンアウトしたスタートアップです。NVIDIAのベンチャー投資部門とAmazonから出資を受けています ([reuter])。
ESM3は EvolutionaryScale の作った生物モデルです。タンパク質の並び方、3次元構造、機能、を符号化することによって、新しい有用なたんぱく質を発見することを可能にします。生物学のChatGPTモーメント、と称しています。生物学的な配列を生物学の言語とみなして解いてしまうアプローチです。
EMS3で今まで世界にない全く新しい機能性タンパク質を作ることも可能になると言われています。生物学の民主化と言われ、すでにAWSで誰でも利用可能になっています。

基盤モデル

従来は基盤モデル(世界モデル)といえば大規模言語モデルでした。言語を構成するトークンと呼ばれる単位を発見し、そこから文章を生成できるようにします。どのように文章を生成できるかの規則を大量の文章から学習すれば自由に言語を生成できます。言語は問題の解法を記述できるので問題も解けるというわけです。
次に基盤モデルは動画モデルに拡張されました。動画を再現できるトークン列を生み出せれば、トークン列の並びを大量の動画から学習すれば動画を生成できるようになります。OpenAIのSoraなどが成功しています。
Jensen Huangはこれが、物理や化学や生物にも適用できると言っているわけです。もちろん、彼は自分たちが投資しているEvolutionaryScaleのことを知っていてこれをCOMPUTEX 2024で話したのだと思います。

むすび

すべての科学は結局どのようにトークナイザ(世界を再現可能なトークンに符号化する)を作り、トークン列を作る規則を学習するかに帰結するのでしょうか。
途方もないことですが、生成AIの大規模言語モデルでの成功を見ているとまんざら夢物語でもないような気もします。
生成物理学とか生成化学とか学問がみんな生成××学とかになる可能性もあります。
数学の未解決の問題も数学のトークナイザを作れば生成AIで解けるようになるのでしょうか。
そんなことになれば単なる産業革命では済まないと思いますが、展開を見守りたいと思います。

参考文献

  • [AWS] AWS と EvolutionaryScale によるジェネレーティブ・バイオロジー(生成生物学)の革新 https://aws.amazon.com/jp/blogs/news/aws_evolutionaryscale_generative_biology/ 2024年

  • [NVIDIA] NVIDIA CEO Jensen Huang Keynote at COMPUTEX 2024 https://www.youtube.com/watch?v=pKXDVsWZmUU NVIDIA 1h47m39s 2024年

  • [reuter] EvolutionaryScale lands $142 mln to advance AI in biology https://www.reuters.com/technology/evolutionaryscale-lands-142-mln-advance-ai-biology-2024-06-25/ 2024年

  • [shueisha] 世界の株価を左右する"半導体の覇者"「エヌビディア」を知ったかぶりたい!  https://wpb.shueisha.co.jp/news/economy/2024/03/21/122618/ 2024年




この記事が気に入ったらサポートをしてみませんか?