![見出し画像](https://assets.st-note.com/production/uploads/images/122904811/rectangle_large_type_2_23cefd0cbda687dff8ff89e247d511df.png?width=1200)
言語だけでなく細胞すら検索するAI
大規模言語モデル(以下LLM)の成功で、一気にAIが普及したのは誰もが知るところです。
余りにも滑らかに自然言語で対話できるので、裏でAIが何をやっているのか分かりにくいですが、基本的には次に来る言葉を予測しています。
ただ、それができるようになるためには「膨大な学習」が必要です。
言い方を変えると、学習データが増えることもAIにとってはある意味必要で、第三次AIブームを作った深層学習も例外ではないです。
インターネットや(当時はやった)Web2.0の普及で、学習用ビッグデータが膨らんだ影響も大きいです。
そして今では、ついに言語だけでなく細胞の活動までデータ化することができ、細胞を検索するAIの開発が着々と進行しています。
最近投稿された記事を紹介します。
ようは、
AIが特定の細胞を見つけて追跡することができるようになっている、
という話です。
アルゴリズムは上述同様深層学習です。(今更ですが本当にこの手法が全てにつながっています)
例えるなら、我々が個々の人間を識別しているように細胞を識別できます。
とさらっと書きましたが、記事内でも登場する計算生物学者(この名称がまさに時代をあらわしてますね)が長年の苦労を吐露しています。
以前は、学習用のデータセットをあつめるだけで1か月費やし、その間違いを修正するのに6か月費やしていた、とのことです。
その人的な重労働を解放してくれたのが深層学習でした。
今では画像を識別できるフレームワークのうち、U-Netと呼ばれるモデルが生物学の中で普及しています。
この言葉で検索するといろいろと解説サイトが見つかります。1つだけ比較的分かりやすかったものを貼っておきます。
記事内では、U-Netを基に発展させたnucleAlzer(特徴は原子核の密度をいかしているようです)や、周囲の細胞質の形状まで推論するStarDistなど、多様な仮説をもとにしたモデルが発展しています。
自然言語で例えると、Transformerを基にしてGPTやBardなどが発展していった様子に酷似しています。(これらも学習のさせ方が大きな違いです)
細胞の場合、ギア速度を決めるのはそのデータ学習過程にありそうです。
AIの世界では学習データにラベル付けする「アノテーション」という作業があります。
言語ではこれすら自動化できるようになってきていますが、細胞はFacebookやXに投稿することはしてくれないので、これをいかに自動化させられるのかがポイントになりそうです。
まさに今が革命期、言語でいうChatGPTを産みそうな勢いを感じました。
生命科学のTransoformingに期待大です。
この記事が気に入ったらサポートをしてみませんか?