Googleトレンドから見る2大画像生成AIの動向
2022年7月に Midjourney のベータ版がリリースされてから、1年以上が経過しました。この1年の動向を Google トレンドを用いて振り返ってみることで、画像生成分野における日本の特異性や、ブレイクスルーとなった出来事が浮かび上がってきます。
1. 2大画像生成AI
2022年秋に、Midjourney, Stable Diffusion が立て続けにリリースされ、画像生成AIブームが巻き起こりました。プロが描いたイラストと、一見区別がつかないレベルに高品質な画像を、低価格で、誰でも手軽に生成できるという体験は、世界に大きな衝撃を与えました。
その後も、これら2つの画像生成AIは進化を続け、現在も多くのユーザーに支持されています。Midjourney の Discord には常時100万人を超えるアクティブユーザーが滞在しており、Stable Diffusion のデイリーアクティブユーザーは1000万人に上ると言われています。
以降、これらを「2大画像生成AI」と呼ぶことにします。2大画像生成AIは、それぞれ、以下のような特徴を持っています。
Midjourney
Discord上から画像生成を行う。
有料プランのみが存在。$10-120 / month 支払うと、画像の生成に加え、会員のみが閲覧できるギャラリーにアクセスできる。
生成される画像の質はトップレベル。
Stable Diffusion
オープンモデルとしてコードが公開されている。
自前でコード実行環境を構築できれば、無料で使用可能。
モデルをカスタマイズ可能であり、ユーザー間で活発に、オープンな情報共有が行われている。
例えるならば、Midjourneyは高級レストランに似ています。高価であり、特定の場所(Discord)で、洗練されたメニューを提供します。一方、Stable Diffusionは家庭料理に似ており、自分のキッチン(自前のコード実行環境)で材料(オープンモデルのコード)を使って自由に料理を楽しめます。さらに、レシピを他の人と共有することもできます。
2. Googleトレンドから2大画像生成AIの動向を紐解く
Google トレンドによって「Midjourney」「Stable Diffusion」の検索数を比較してみます。アメリカ・日本のそれぞれについて、過去12ヶ月間における検索数(相対値)の推移を示します。
日本での盛り上がり方は特異
ひと目見れば分かる通り、検索数の順位が、アメリカと日本で逆転しています。こちらには記載していませんが、イギリス・ドイツといった欧州の国々でも Midjourney(青)の方が優勢であり、Stable Diffusion(赤)が圧倒している日本は異質と言えます。なぜでしょうか?
Stable Diffusion ではモデルが全世界に公開されており、様々なカスタマイズが可能です。特定の人物を生成するモデルを自作したり、姿勢や構図などを画像で指定して、画像生成することができます。
これは、アニメ・漫画を中心に「お絵かき」が盛んである日本のエンタメ文化と非常に親和性が高いものでした。誰でも自由に自分の好きなキャラクター・美少女を作成できたり、自分の好きな構図でイラストを作成できるという体験は、多くの日本人を熱狂させています。
自作モデルや画像生成に用いるプロンプト、パラメータを共有するようなコミュニティも形成されています。日本語で得られる情報が非常に豊富であり、入口の障壁が低くなっていることも、盛り上がりを後押しする大きな要因となっているでしょう。
なお、別の要因として、Midjourney で画像生成のインターフェースとなっている Discord が日本に浸透していない点も影響しているかもしれません。
Stable Diffusion における重要技術: LoRA と ControlNet
特定の人物を生成するモデルを自作する技術は「LoRA」と呼ばれ、姿勢や構図などを画像で指定する技術は「ControlNet」と呼ばれます。*1
これらの単語、及び「Stable Diffusion」に関して、日本におけるトレンドの推移を見てみましょう。
LoRA(赤)は、2023年に入って以降、ジワジワと検索数を伸ばし、現在に至るまで非常に多くの興味を集めています。ControlNet(黄)は、2023年2月10日に Stanford 大学の学生らによって公開された技術ですが、公開直後から1週間で、莫大な検索数を獲得していることが分かります。
さらに、ControlNet の登場以降、Stable Diffusion(青)の検索数の上昇スピードが加速しており、Stable Diffusion の躍進に大きな影響を与えたと推察できます。
*1 ControlNet、LoRA 共に、Stable Diffusion 固有の技術ではなく、より広い範囲のニューラルネットワークに適用可能です。
Midjourney は Version 5 のリリース直後に更なる注目を集めた
続いてアメリカに目を向けてみましょう。再度 Google トレンドを見てみると、僅差を争っていた Midjourney と Stable Diffusion の差が、2023年3月に一気に開いています。これは、同月16日にリリースされた Midjourney V5 の影響があると考えられます。(グラフは、3/5-11で一旦わずかに下降した後、3/12-18で一気に上昇)
Midjourney V5では、デフォルトで生成できる画像が高画質(512×512→1024×1024)になったり、出力が多様になったりといったアップデートがありました。確かに、画像の高画質化は大きな進歩だと考えられますが、もしかすると、他にいくつか要因があったのかもしれません。
↑ Midjourney V5 の公式発表
↑ Midjourney V4 と V5 の比較
3. 最新の動き
Stable Diffusion の開発元である Stability AI は、11月17、22日に立て続けに、日本特化の画像生成モデル JSDXL、動画生成モデル Stable Video Diffusion をコードを含めて公開しました。
Stable Video Diffusion は、オープンな動画生成モデルの中では、群を抜いて性能が高く、クローズドなモデルを使用している Pika Labs や Runway に匹敵すると公式が発表しています。
11月23日時点では、研究用途のみの公開であり、今後、社会にどのような影響がもたらされるのか注目されます。*2
また Midjourney に関しては、これまで Discord 上でしか使用できませんでしたが、ついに、数週間以内にブラウザ上でも使用可能になるようです。さらに、API を公開する予定があると創業者が発言しています。
運営元の紹介
私たちは sayhi2.ai というサイトを作成しています。5000以上のAIツールを掲載しており、記事内で紹介した Nijijourney をはじめとして、多くのAIツールを調査、深掘りすることができます。ぜひお試しください!
Nijijourneyをsayhi2.ai で見る
他の画像生成AI を sayhi2.ai で見る
Runway を sayhi2.ai で見る
Pika Labs をsayhi2.ai で見る
文章や目的を入力するだけでツールを探せる
実際にツールを試さずともChatbotが答えてくれる
厳選された5,000以上のAIツールから欲しいツールを見つけられる
独自のスコアリングアルゴリズムによるAIプロダクトの人気度の推定
またXでは、AIツールや関連するニュース・トレンドに関して、一段踏み込んだ考察を交えながら日々情報発信しています。是非こちらもフォローしてみてください!
前回の記事