見出し画像

【画像生成AI】オープンソースは巨大企業に勝てるのか?

はじめに

こんにちは、kimamanaDr です。

前回の記事はキャッチーな話題だったのか、おかげさまで多くの方に読んでいただきました。

さらに、こちらの yoshino さんの記事では、Stable Diffusion と DALL-E3 の比較検証もしていただきました。

ありがとうございます!

Stable Diffusion は麺に弱い

前回の記事では、Stable Diffusion は Adobe Firefly と比べて、かなり麺類の描写に弱い様子でした。

屋外で蕎麦を食べる着物を着た日本人女性。箸と麺の吸い方がおかしい

さらに yoshino さんの検証結果では、Stable Dfissuion は DALL-E3 と比べてラーメンを食べるのが 明らかに下手 でした。

少年がラーメンを食べようとして箸が浮いている様子

ネタ画像を記事にできるのはとてもありがたいのですが、今回は Stable Diffusion が麺類に弱い理由をマジメに検討したいと思います。

Stable Diffusion は何が違う?

Stable Diffusion は、他の AI とはっきり違う点があります。

それは、内容が全てオープンソースで公開されている ことです。

このオープンソースであることが、AI の精度を高めるうえで大きなマイナスになっています。

3つの画像生成AI

画像生成AIを、初期に登場した3つに絞って比較してみます。

登場年

  • 2021年1月 DALL-E(Open AI)

  • 2022年7月 Midjourney(Midjourney Inc.)

  • 2022年8月 Stable Diffusion(Stability AI)

DALL-E(Open AI)

実用的な画像生成AIとして最初に登場したのは、Open AI の DALL-E です。

Chat GPT のノウハウをもとに、言葉から画像を作るというアイディアは世界に大きな驚きを与えました。

「アボガドの椅子」という奇抜な発想をすぐにイラストにして、さらに高いクオリティーで表現することで、画像生成AIの時代を強く予感させました。

DALL-E が生成したアボガドの椅子のイラスト
出典:Open AI

DALL-E は高機能な反面、ディープフェイクなどで悪用される懸念から一般の利用者には公開されませんでした。

Midjourney(Midjourney Inc.)

この状況を大きく変えたのが、Midjourney です。

Midjourney は、Discord というチャットアプリ上ですべての人に無料で公開されて、爆発的に普及しました(現在は有料)。

Nijijourney のイラストを発信している刈宮さん

Nijijourney というイラストに特化したモデルも公開され、その表現力も高く評価されています。

Stable Diffusion(Stability AI)

Midjourney に続いて登場したのが、今回の主役の Stable Diffusion です。

「AI技術の恩恵は、全ての人が受けるべき」 という理念をもとに、全てのソースコードを公開して世界に衝撃を与えました。

着物を着た若い日本女性が両手に箸を持って頑張ってそばを食べているイラスト
ときどき、ちゃんと食べます

改良はもちろん商用利用も自由だったので、Stable Diffusion をもとにした派生アプリも多く誕生しました。

肝はデータセット

生成AIの精度は、学習に利用した画像のデータセットで決まります。

最初の生成AIの DALL-E は、Open AI が開発した CLIP という手法でインターネット上の画像とテキストの関係を評価して学習していました。

LAIONデータベース

LAION-400M

2021年8月、ドイツの非営利組織の LAION が、同じ CLIP を用いて4億枚の画像データベース を作成し、無料で公開します。

LAION-400Mデータベース

LAION は Stability AI 社 のスポンサーを受けていて、LAION-400M は Stable Diffusion の学習に使われました。

LAION-5B

続いて2022年3月、58億 もの画像データを含む LAION-5B が公開されます。

LAION-5Mデータベース

LAION-5B は後継の Stable Diffusion XL と Stable Diffusion 3 の学習で使われて、性能が大きく向上します。

オープンソースは他の企業も使える

一方で、LAION はオープンソースだったので、他の企業も利用することができました。

Midjourney や DALL-E3も LAION-5B を利用してAIのトレーニングを行いました。

Stable Diffusion の開発元の Stability AI は LAION のスポンサーでしたが、オープンソースだったので、Stable Diffusion は大規模なデータベースの利点を独占できませんでした

もっとも、生成AIの領域は進歩がとても速いので、たとえ独占していてもそれほどアドバンテージにはならなかったかもしれません。

Stable Diffusion はアップデートされない

オープンソースには、もう一つ大きなデメリットがあります。

Stable Diffusion はオープンソースのため、多くのユーザーは自分のPCにインストールしてローカルで使っています。

それはつまり、Stable Diffusion の 開発側がユーザーのプロンプトや作成した画像を収集できない ことを意味します。

近未来的な研究室で白衣を着た数人の科学者がキーボードを操作している写真
近未来的な研究室で白衣を着た数人の科学者がキーボードを操作している写真

Stable Diffusion はメジャーアップデートを除いて、出力データをもとにした改良が行われることはありません。

Stable Diffusion と同じ時期に登場した Midjourney は、はじめは Stable Diffusion と同じぐらいラーメンを食べるのが下手でしたが、その後のアップデートで改善しました。

Stable Diffusion は改善されずに現在まで続いています。

オープンソースは巨大企業に勝てるのか?

AIの開発には莫大な投資が必要です。投資ができる巨大企業はさらに成長して、できない会社は淘汰される厳しい現実があります。

Midjourney は 2023年3月に無料版を廃止して、全てが有料版に移行しました。

Stable Diffusion の検索数 | Google Trends

Stable Diffusion も利益を出すモデルの構築に苦労していて、2024年6月の Stable Diffusion 3 の公開時にライセンスを改定して、一部の無償利用を制限して有償利用に誘導する発表を行いました。

これに対して CivitAI(Stable Diffusion のモデルやイラストの公開・交流サイト)を中心に強い反発 があり、7月に会社は方針を撤回して無償公開を続けると修正しました。

このように厳しい状況の中で、Stable Diffusion がどこまで生き残ることができるのか分かりませんが、このままオープンソースで進む覚悟のようです。

結論:どれも使えばいい

人間に個性があるように AI にも個性があり、優劣を比較する意味はあまりないと思います。

私は何かを追求したいときは Stable Diffusion を使い、疲れたら Adobe Firefly でたくさん画像を作って楽しんでいます。

近未来的なサーバールームで点検作業をする白衣を着た科学者2人
今回のサムネイル画像は Adobe Firefly

次回は、Stable Diffusion とオープンソースの魅力について紹介したいと思います。

最後までお読みいただきありがとうございます!


※ 2024.7.22

内容を一部加筆しました


参考書籍

先読み!画像生成AI インプレス 2023年3月

画像生成AIがよくわかる本 秀和システム 2023年5月

Stable Diffusion スタートガイド SB creative 2024年3月



この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?