革命が起こっているのはGPTだけではない。たんぱく質の構造進化を高速に予測

2023年3月17日 08:07

GPT-4ベースのChatGPTが登場して、既にメディア・個人がその破壊力を伝えています。

ところで、そもそもGPTは何の略かご存じでしょうか？

GPT=Generative Pre-trained Trensformer

この言葉からわかる通り、元々はエンジンにTransformerを積んでおり、これが革命児といっても過言ではありません。

これは2017年にGoogleが開発した深層学習をベースにつくられた自然言語処理エンジンで、Attentionという仕組みが特徴です。

ざっくりいえば、従来の深層学習アルゴリズムとしてCNN（画像に強い）やRNN（時系列に強い）というものが知られてましたが、なかなか処理が重く大変です。（要はそれなりに時間含む資本力が必要）
そこで、一部をショートカットする仕組みを導入して巧妙に軽量化したのがAttentionという仕掛けです。

こちらが元論文（のVersion5）なので、もし技術的に関心がある方は閲覧してみてください。

ちなみに、以前の投稿記事で、AIのショートカット技法が実は脳の神経細胞間でもおこなわれていた、と元記事にあるのですが、もしかしたらこの「Attention」のことを指しているのかもしれません。（率直に言えば他に思いつかなかったです）

話が長くなりましたが、Transformerがもたらした革命はGPTだけでなく、実はそれで作られた大規模言語モデルがたんぱく質の３次元構造予測にも応用されています。

https://www.science.org/doi/10.1126/science.ade2574

ようは、
Transformerから作った大規模予測モデルESM-2が、飛躍的にたんぱく質の3次元配列の予測速度を高めている、
という話です。

自然言語のGPTに相当する今回学習させたモデルがESM-2で、下記が公式サイトです。（タイトル画像は下記から引用）

で、どういったご利益があるかというと、基本的に大規模予測モデルでも、やっていることはたんぱく質にある1次元の塩基情報配列です。

4種類の塩基というデジタル信号の配列予測で、これだけでは生命現象のイメージはわきません。

ただ、ESM-2を使うことで、複数ゲノム配列を大量に読み込ませる速度が飛躍的に向上し、なんとそこから原子という塊までの構造情報を獲得した、というのが今回の研究成果です。

もっとシンプルに言うと、原子の３D画像を精密に書くことが出来ます。

これは結構な新しい科学的な実験場の到来を予感させます。

たとえば、今後これがさらにモジュール化されて（ソフトウェア的に言うとAPI化）他の技法と組み合わせていけば、分子・化合物という化学処理の予測にまで到達することはできるかもしれません。

となると、既にGoogleの開放したAlphafoldで構築中のたんぱく質データベースで創薬分野に影響をあたえていますが、さらに基礎研究のやり方が変わってくるかもしれません。

ということで、GPTだけでなくTransformerは色んな分野での革命児となりそうです。

Attention Please.

この記事が気に入ったらサポートをしてみませんか？