今年の生成AIの振り返り

2023年12月1日 14:39

みなさんは今年の流行語大賞を知っていますか？
実はそのトップテンに生成AIが含まれています。
いまや時代を象徴する言葉になった生成AI。
今年はどんな活躍をしてきたのでしょうか。
また、せっかくなので、昨年のアドベントカレンダーを振り返りながら、今年のアドベントカレンダーを始めていきましょう
本記事は生成AIアドベントカレンダー2023の初日になります。

今年の生成AI振り返り

今年は昨年よりも激しく、生成AIが成長しました。
中でもGPT-4は、人類はルビコン川を渡ったと東大に言わしめました。
生成AIすべてを振り返ると、あまりにも種類が大きいため、今回は画像生成AIと、対話式AIを含む文章生成AI、マルチモーダル生成AIについて年表を大雑把に見ていきましょう。

画像生成AI

下図のように年表をまとめました。

この中で特筆すべきマイルストーンはやはりLatent Consistency Models (LCM) でしょう。品質を若干犠牲にしつつも、圧倒的な高速化をすることができました。調整をすれば512x512の解像度で40fps出るそうです。去年、7秒で1枚完成させていたことに感動していた私は何だったんでしょう。

LCMで40fps前後で画像生成出来るようになりました！これで完全にリアルタイムアプリケーションいけます。

下のデモ動画は1倍速(リアルタイム)で、OBSの画面録画、VRoidのレンダリング込みで約36fpsで動いてます。(録画無しだと39fps) pic.twitter.com/IDi1ypSFRf
— あき先生 | AI Vtuber『しずく』開発中 (@cumulo_autumn) November 26, 2023

LCMはおそらくDALL-E 3にも搭載されており、今後のベースラインとなることでしょう。すでにSDXL Turboなどの蒸留したモデルがでており、一旦は高速化がはやるのではないでしょうか。その後品質向上に向けた動きがあると思います。このような蒸留は、SDXLベースのNAIv3も恩恵が受けられるのではないでしょうか。画像の制御性の観点からControlNetも圧倒的と言えます。ControlNetは通常の精製に必要な情報に加え、指示画像を入力することで任意のポーズの画像などを生成できるようにする技術です。なお、ControlNetはAI系トップカンファレンスの一つ、今年のICCVのベストペーパーに選ばれました。

対話式AIを含む文章生成AI

下図のように年表をまとめました。

この中で今年影響が大きかったのは大規模言語モデル (LLM) であるGPT-4とLlama 2でしょう。クローズドモデルであるGPT-4は何をしたらそんな人工知能が生まれるのか、さっぱりわかりません。ただ、僕が覚えていることは出た当日にGPT-4はゲームチェンジャーであるということを感じ取ったことですかね。今では、GPT-4がないとやっていけない体になってしまいました。一方で、オープンモデルであるLlama 2は多くの研究者や開発者にとって福音をもたらしてくれました。ベースラインとして開発したり、再現性の高い実験を行ったりできるようになりました。軽量で高性能であるMistralやZephyrもLlama 2がなければできなかったでしょう。また、国産のLLMであるCALM2もLLaMAベースであるということもあり、重みだけではなく、アーキテクチャも多くの人を助けたと言えます。

マルチモーダル生成AI

下図のように年表をまとめました。

この中で今年影響が大きかったのは、GPT-4VとLLaVAでしょう。クローズドモデルであるGPT-4Vはすでに人間ではないかと疑うほどの性能があります。人間かロボットかを見分けるシステムCAPTCHAをGPT-4Vは突破します。監視カメラの画像を読み取れるようにすれば、人間クラスの監視員を億単位で配備することもできます。あまりに画期的と言えましょう。GPT-4Vが暴走しないことを祈るばかりです。一方で、オープンモデルであるLLaVAは言語と視覚の強力なベースラインモデルとして現れました。このLLaVAをベースにすでにいろいろな応用ができてきています。ツールを使えるLLaVA-Plusや映像を読み取れるVideo-LLaVA、インタラクティブに画像を編集できるLLaVA-Intractive、GPT-4Vの力を吸収したShareGPT4Vなどたくさんあります。今後もオープンモデルはLLaVAベースで進んでいくものと見られます。一方で、LLaVAはGPT-4の出力を使っているため、利用規約に従えば、LLaVAを「競合するモデル」にしてはならないことになります。このままでは、倫理的に問題が出そうなので、GPT-4の出力から脱却する方法が求められているように思えます。

去年の生成AI振り返り

去年の画像生成AIアドベントカレンダーを振り返りながら予測がどれほど当たっていたのか、一日ごとに見てみましょう。

たしかに拡散モデルはすごいです。が、GPT-4は予想外でした。
（記事が消えたので、コメントはやめておきましょう）
人の本質の発露こそ創作の尊さというのは今も変わりませんね
Clean Diffusion 、どんどん技術は進んでいるもののあと少しというところで止まっています。特に鍵となるPixart-α、LLaVA、SAMがあれば、おそらく達成可能でしょう。ただ、Adobe Fireflyがすでにあるのでクローズドでいいならそちらを使ってください。
「Kritaなど画像編集ソフトのStable Diffusionプラグインを用い、このモデルを利用すれば圧倒的に面倒な下作業を全てAIにやってもらえるようになる。」とあります。まさにKritaとプラグインの相性の良さはリアルタイムLCMで示されましたね。今後Kritaは期待できるでしょう。
AIで漫画を書くという試みはしばらく試験的なものになるだろうと予想していたら、だろめおんさんが商業ベースで思いっきり使ってましたね。世の中展開は早いものです。
Imagenを用いたCool Japan Diffusionですが、今でも作りたいとは思っています。しかし、コストがばかにならないという理由から没になっていますね。１億円ぐらいあれば作れそうですが・・・。
現状でもAIイラストによりマネタイズを行うことですが、現状でもやはりニッチなところが強みとしてありそうです。しかも、画像生成AI単体でマネタイズしようとすると、ChatGPTのおまけであるDALL-E 3と戦う必要があり、これは厳しいとなっています。ちなみにMidjourneyは一年間で330億円儲けたとか。
Stable Diffusionだけではなく、ChatGPTも今年はたくさん雑誌の特集として扱われました。これからも普及に伴って別の雑誌で特集か組まれていくことでしょう。
学習用Cool Japan Diffusionが結局Cool Japan Diffusionとなり、そこから発展して、Emiにたどり着きました。また、出力を向上させたEmixも用意しました。使ってください。
画像生成AIはDALL-E 3やAdobe Fireflyのようなクローズドモデルでは権利関係をしっかり調べ、著作権を侵害した際には開発側が訴訟費用を負担してくれるようになりました。しかし、表現規制が極めて強く、表現を自由にするにはStable Diffusionのようなオープンモデルを自己責任で使うときがあるという形に落ち着き始めてますね。
みなさん、うちの子をつくるようになりましたね。
Depthを使って2.5次元表示ができましたが、今年は3Dモデルそのものが生成できるようになりましたね。また、Gaussian Splattingが流行り始めて、NeRFよりもお手軽になってきました。
画像生成の定量評価もそうですが、LLMの定量評価が難航するようになりました。どうすればいいのでしょうね、あれ。
拡散モデルはコラージュではありません。一方で、拡散モデルに伴う問題は未だに解決されないので、これから長い年月をかけて理解してもらうんだろうなという気持ちになりました。
AI生成レンダリングという未来はもはや未来ではなくなりました。LCMを使えば、そこそこの解像度で数十fps出るようになりました。あとは試作品を待つばかりです。
画像生成のスケジューラーの開発は今年も活発に行われました。DPMv3などがあるでしょう。一つの問題にもたくさんの解法があるといういい例だと思います。
先人のリスペクトが足りない方が多いのは今もそうですね。文化というのは先人の努力に基づいて作られています。我々は巨人の肩の上に乗っているということをつねづね忘れないようにしましょう。
3Dアバターを作るという動きは今年もホットでした。来年からが更にホットになると思われます。
イラスト用生成AIの定量評価は未だに困難です。特にDALL-E 3がText Alignmentを高くしたことにより、純粋な品質もText Alignmentもユーザ体験には大切であることが示されました。これからどのように指標を定めていくのか期待が集まります。
（記事が消えたので、コメントはやめておきましょう）
（記事がないので、コメントはやめておきましょう）
NovelAIもAIのべりすともそうですが、画像生成は小説の挿絵として作られているところがあります。当時はあまり小説の挿絵としては向いていなかったところがあります。しかし、DALL-E 3の登場により、挿絵に向いてきているとは言えると思います。
生成AIは倫理や哲学にそもそも論を投げつけたのは当時もそうでしたが、いよいよ本格的に取り組まないといけない課題になっていると思います。人間は本当に「万物の霊長」なのかという疑問に否定的に捉えたほうが私は良いと思います。そのうえで、「人間が生きている」という絶対的な価値を肯定的に認める結論を導いてほしいと思うばかりです。
第一回AIアートグランプリに対して挑戦状を投げつけました。見事予選落ちしました。ウケる。第二回はもはや無理だと悟り、投稿しませんでした。順当にアートのレベルが上がっていって何よりです。

今週ＡＩを使用したのは市街戦のイメージカットで、
めり込んだテーブルは全部手描きの上でのミスなんだけど、
一部で否定的な意味でＡＩ疑惑を向けられたのはテーブルのほう。
ヒューマンエラーをＡＩっぽいと感じる時代の狭間を生きてる感じがする pic.twitter.com/mFCPdIuwFC
— だろめおん🖋 (@daromeon) November 25, 2023

まとめ

今回は今年の生成AIの振り返りをまず行い、その後、去年の予想と現状を比較してみました。ダラダラと長かったためすでに飽きた人もいるかも知れません。これからのカレンダーが本番なんでお楽しみください。

この記事が気に入ったらサポートをしてみませんか？