今年の生成AI振り返り
今年はAIがノーベル賞をとるなど、生成AIが去年よりも一般に盛り上がっていくようになりました。その中で、今年の生成AIの発展ぶりを振り返ってみます。
この記事は生成AIアドベントカレンダー2024の初日になります。
動画生成AI
今年、生成AIにある分野の中で、最も目を見張る成長を遂げた分野は動画生成ではないでしょうか。中でも2月に発表されたSoraは世界中の度肝を抜きました。
これに続くように、世界は追いつけ追い越せと開発に邁進していました。特に中国の勢いは凄まじいものがありました。商用ではKLINGなどの生成AIがうまれ、オープンソースではCogVideoXやMochi 1 previewなどが生まれました。
特に精華大学のチームで作られたCogVideoXはAIコミュニティから支持を受けているのか、ファインチューニングやControlNetなどの開発ツールが整っており、使い勝手が良いようになっています。
今後も米中の戦いに目がはなせません。
テキスト生成AI
GPT-4が出てからかれこれ1年は立ちました。世界中で開発競争が日夜繰り広げられた結果、オープンなモデルでもGPT-4クラスの性能がでてくるようになりました。llama 3.1 405Bです。
MMLUでGPT-4を上回っています。それでもクローズドなモデルはもっと進化しました。OpenAI o1では推論に時間をかけることで数学の性能を向上させることに成功しました。
これからもオープンなモデルとクローズドなモデルの競争は目が離せません。
マルチモーダル生成AI
今年はついに何でも入力して何でも生成できる、any-to-anyモデルが実用化されるようになりました。GPT-4oの登場です。
このデモでは音声と画像を使って会話することができます。すでに音声のみで会話するモードはAdvance Voice Modeとして使えますが、これまでよりも圧倒的にAIと自然な会話ができるようになりました。
オープンなモデルもがんばってはいますが、いまひとつクローズドなモデルに勝てる雰囲気がありません。今後のオープンなモデルに期待したいところです。
画像生成AI
今年もなんだかんだで成長した画像生成AIでした。バックボーンのネットワークがU-NetからDiffusion Transformerに変わったことで、スケーリング則が発動し、テキスト生成AIと同じくパラメータが多いほど性能が上がるようになりました。また、Rectfied Flow Transformerが実用化され、生成の高速化がなされました。その結果がSD3やFLUXシリーズです。特にFLUXシリーズは目を見張るものがあります。
しかし、パラメータが大きくなりすぎたせいか、あまりAIコミュニティで流行らなかったような気がします。AIコミュニティでは主にAnimagine XLといったSDXLベースの画像生成が流行りました。物議を醸して削除されたSD 1.5から無難なSDXLにコミュニティが移行したのは喜ばしいことだと思います。
音楽生成AI
今年はだいぶ実用に近づいてきた感じがあります。クローズドなサービスとしてはSuno AIが目を見張る進化がありました。普通に楽曲を生成してくれます。
オープンソースだとStable Audio Openが無難でそこそこな性能があると思います。
他にもあるかと思いますが、専門外なのであんまりよく知りません。知っている方は教えて下さい。
分子生成AI
今年はAIと相まって、AlphaFoldがノーベル賞を取りました。簡単に言うと、AlphaFoldはタンパク質の構造を特定するモデルで、創薬などに応用できるモデルです。この度めでたく、AlphaFold 3が公開されたので、おまけとして話題として出しました。めでたい。
まとめ
今年の生成AIは総じて順当に成長していったのではないでしょうか。
この振り返りを持って、今年の生成AIアドベントカレンダーの始まりとさせていただきます。