言語だけでなく細胞すら検索するAI

2023年11月28日 08:31

大規模言語モデル（以下LLM）の成功で、一気にAIが普及したのは誰もが知るところです。

余りにも滑らかに自然言語で対話できるので、裏でAIが何をやっているのか分かりにくいですが、基本的には次に来る言葉を予測しています。

ただ、それができるようになるためには「膨大な学習」が必要です。

言い方を変えると、学習データが増えることもAIにとってはある意味必要で、第三次AIブームを作った深層学習も例外ではないです。
インターネットや（当時はやった）Web2.0の普及で、学習用ビッグデータが膨らんだ影響も大きいです。

そして今では、ついに言語だけでなく細胞の活動までデータ化することができ、細胞を検索するAIの開発が着々と進行しています。

最近投稿された記事を紹介します。

ようは、
AIが特定の細胞を見つけて追跡することができるようになっている、
という話です。

アルゴリズムは上述同様深層学習です。（今更ですが本当にこの手法が全てにつながっています）

例えるなら、我々が個々の人間を識別しているように細胞を識別できます。

とさらっと書きましたが、記事内でも登場する計算生物学者（この名称がまさに時代をあらわしてますね）が長年の苦労を吐露しています。

以前は、学習用のデータセットをあつめるだけで１か月費やし、その間違いを修正するのに６か月費やしていた、とのことです。

その人的な重労働を解放してくれたのが深層学習でした。

今では画像を識別できるフレームワークのうち、U-Netと呼ばれるモデルが生物学の中で普及しています。
この言葉で検索するといろいろと解説サイトが見つかります。１つだけ比較的分かりやすかったものを貼っておきます。

記事内では、U-Netを基に発展させたnucleAlzer（特徴は原子核の密度をいかしているようです）や、周囲の細胞質の形状まで推論するStarDistなど、多様な仮説をもとにしたモデルが発展しています。

自然言語で例えると、Transformerを基にしてGPTやBardなどが発展していった様子に酷似しています。（これらも学習のさせ方が大きな違いです）

細胞の場合、ギア速度を決めるのはそのデータ学習過程にありそうです。

AIの世界では学習データにラベル付けする「アノテーション」という作業があります。

言語ではこれすら自動化できるようになってきていますが、細胞はFacebookやXに投稿することはしてくれないので、これをいかに自動化させられるのかがポイントになりそうです。

まさに今が革命期、言語でいうChatGPTを産みそうな勢いを感じました。

生命科学のTransoformingに期待大です。

この記事が気に入ったらサポートをしてみませんか？