見出し画像

世界革命に、まだ追いつける!! 画像生成AI【まとめ&雑記】

TwitterやRedditで、まさしく日進月歩の画像生成AI。私自身も、日々新しい情報の渦に流されて、さっぱりキャッチアップできませんでした。。。

以下は、重い腰を上げて調べた自分用の備忘録です。同じ気持ちの方はたくさんいらっしゃると思ったので共有します。

感想やシェアもらえると喜ぶ生き物です!!
※間違いや誤解を生む表現などあれば、TwitterからDMでご指摘ください。

1.自己紹介

早稲田に住んでる慶應生(@iwhododo)です。
大学院ではHCI(Human Computer Interaction)の領域のうち、特にデジタル素材を活かしたものづくりを研究しています。

いまは休学して、Z世代向けにARで音声SNSをリリースしたり、NFTをはじめとしたweb3サービスを企画開発したりしています。最後に会社紹介も記載しているので、ご興味もっていただけたら、ぜひお問い合わせください!

2.時間がない人に向けて

画像生成AIの流れを極々端的にまとめると、次の3点に集約されます。

  1. この数ヶ月で、一般向けに続々と画像生成AIが公開

  2. オープンソースの「Stable Diffusion」でバリエーションが爆増

  3. 二次元イラストに特化したNovelAIで日本ではさらに話題化

その他、オープンソースの重要性や、web3との接続についても記載しているので、ぜひ気になる箇所だけでもご覧ください。

3.画像生成AIとは何か?

そもそも画像生成AIとは何なのか?
いま話題になっている画像生成AIとは、「いくつかのキーワードを打ち込むと、その単語から連想される画像を、機械学習したデータを元に出力してくれるAI」を指します。

ここでの機械学習には、例えば「画像と、画像の説明文」のようなデータセットを大量に学習する手法が採用されています。
これを元に、「与えられたキーワード群 = 画像の説明文」として、「画像」を出力してくれます。

機械学習、AIといっても千差万別です。

これまで「AIが描いた○○」「Deepfake」として目にするモデルは、GAN(Generative Adversarial Network)と呼ばれる類のものが多かったはず。
このGANは、いわば「偽物を作るGenerator」と「真贋判定をする鑑定士のようなDiscriminator」の2者を敵対させて、繰り返し競い合わせることで「本物」と見紛う画像を生成するものです。

しかしながら、今回話題になったモデルには、GANとは全く異なる機構の生成モデルも存在しています。
例えば、Diffusion modelは、Discriminatorが真贋判定をするのではなく、ノイズ画像からクリーンな画像を生成する手法です。
かなりの誤解を恐れずにいえば、「画像版のノイズキャンセリング」と捉えられます。「とある音楽がクリーンに流れている状態から雑音だらけに変えていく」過程をたくさん学習した上で、「新しい雑音を与えられたら、そこから元の音楽だけを抽出する」ことを画像に対して行っている状態です。

それぞれに強みや弱みがありますが、今回の画像生成AIにおいては、特にこのモデルが著しい結果を齎しているといえます。

4.どうして話題なのか?

4-1.誰でも触れる形で続々公開

2022年は立て続けに画像生成AIが公開され、誰でも触ることができるようになりました。"誰でも利用できる"。これが何よりも話題の源泉にあると思われます。

4月にOpenAI「DALL・E2」を研究者・専門家向けに提供開始。8月頃から順番待ちのリストに登録した一般ユーザーに段々と提供されはじめ、ついに先日、その順番待ち制限がなくなりました。

5月にGoogleから発表された「Imagen」は、一般向けにはまだ公開されていません。

6月にはMidjourneyが「Midjourney」の提供を開始。環境構築などは不要で、Discord上でキーワード入力する形式が採用されています。

また8月には、Stability AI「Stable Diffusion」を一般向けに公開しました。Stable Diffusionはオープンソースとしてコードも公開されています。

これらのサービスが一挙に公開されたことで、圧倒的な試行回数や実験が行われていること。そして、その結果として日夜新しい発見が生まれ続けていることこそ、この話題性の要因といえます。

また、これらの話題の一因には、後述する社会変革のムーブメントも少なからず影響していると思われます。

4-2.国内の火付け役、note CXO・深津さん

上記のサービスはいずれも海外(米国、英国)のサービスです。しかしながら、THE GUILD代表・note CXOの深津貴之さんは繰り返し画像生成AIについて言及し、その期待を盛り上げたひとりです。

その他にもイノベーターが積極的に触っている印象です。実際に私も東大教授・ソニーコンピュータサイエンス研究所副所長の暦本先生のツイートから一連の画像生成AIに関するトレンドを知りました。

5.どんな種類があるのか?

5-1.各AIと開発・提供元

まず、今回話題の中心となっているのは、誰でも利用できるこれらの画像生成AIです。

  • DALL・E2(OpenAI)

  • Midjourney(Midjourney)

  • Stable Diffusion(Stability AI)

また、いわゆる「GAFAM」のようなビッグテックも、画像生成AIの研究を行っています。一般向けに公開されていないものもありますが、研究や自社利用は既に発表できるレベルまで行われています。

  • Imagen(Google)

  • Nuwa Infinity(Microsoft)

  • Make-A-Scene(Meta)

上に挙げたものは、いずれも米国英国企業が提供しているものですが、その他にこれらを改良したものや、萌え系イラストに強い中国・日本の画像生成AIとして、次のようなものも存在しています。
※Stable Diffusionの改良版などは次の項目で取り上げます。

  • ERNIE-ViLG(Baidu)

  • Crypko(Preferred Networks)

5-2.まずは、StableDiffusionをおさえる

割愛したものもありますが、上に並べただけでも数が多く、情報を追い切ることはできません。
そこで、第一に抑えるべきはStability AIが公開した「Stable Diffusion」だと思います。なぜなら、「Stable Diffusion」はオープンソースだからです。

一般的なソフトウェアは、どんな情報をとって、どんな処理をしているのか。その裏側は開発者以外には見えていません。それに対して、オープンソースとは、プログラムの設計図にあたる「ソースコード」を公開(オープン)すること。これによって誰でも、既にあるソフトウェアを元に改変や再配布が可能です。

誰もが改変・再配布が可能ということは、社員以外にも膨大な開発者がソフトウェアの開発に参加している状態です。また、その過程が常にシェアされたり、取り上げられたりします。
もちろん、特定の用途に限ってサービス開発をする観点や、開発元として収益を独占する観点では、ほとんどの場合で、企業での開発が優れています。
しかしながら、オープンソースでは特定の目的や用途がない分、様々な派生や実験的な試みが行われるもの。その中から、毎日新しい発見が生まれている状態です。

6.Stable Diffusionを知る

6-1.Stable Diffusionの利用方法

Stable Diffusionを利用する方法は大きく2通りあります。Webサービスを通して利用する方法と、自身のローカル環境で実行する方法です。

まず、Stable Diffusionを使った画像生成サービスの筆頭として、開発元のStability AIが提供している「DreamStudio」が上げられます。いわば公式デモサイトです。

「DreamStudio」は、従量課金制のサービスです。画像生成のときに有料で購入できる「クレジット」を消費します。
ただし、会員登録時に無料トライアル分のクレジットが付与されるので、最初はそのクレジットを利用してお試しができます。

ローカル環境で実行する場合は、PC/Macにある程度のスペックを要します。しかしながら、それもなるべく軽く動作するよう、有志による改善が日夜行われている状態です。
Pythonの実行環境である「Anaconda」を入れたり、GithubからStable Diffusionや改良されたプログラムを持ってきたりする方法はインターネット上にたくさんあるので、そちらに委ね、ここでは割愛します。

画一的にどちらがいいということはなく、これらは一長一短です。
Webサービスの場合は、環境構築やスペックが不要なかわりに、サービスが単一的になりがち。ローカル環境の場合は、自由なプログラムを走らせることができるかわりに、環境構築やスペック、多少の知識が必要です。

他方で、ブラウザから Python を実行できる「Google Colab」を利用することで、ローカルの環境構築やマシンスペックを気にせずに処理をすることも可能です。こちらも、やり方は調べるとたくさん出てきます。

改変したプログラムについて、Google Colabがシェアされている場合も多く、比較的簡単に試すことができます。

6-2.外国語プロンプトへの対応

冒頭で、画像生成AIとは、「いくつかのキーワードを打ち込むと、その単語から連想される画像を、機械学習したデータを元に出力してくれるAI」と述べました。

そのキーワード群はプロンプト(prompt)と呼ばれています(AIによりよい絵を描いてもらうための言葉なので、巷では「呪文」とも)。

ハロウィンの季節にお誂え向き

このプロンプトは、デフォルトでは英語で入力することになっています。というのも、学習した「画像と、画像の説明文」の「説明文」が英語であるからです。
これに対して、別の言語の説明文を学習した画像生成モデルを作り、その言語を使った入力に対応しているものがあります。
日本語版は「女子高生AI・りんな」などのチャットボットを開発し、Microsoftから独立したrinnna株式会社が公開しています。

  • Japanese Stable Diffusion(rinna)

  • Chinese Stable Diffusion(Baidu*)

*おそらくBaiduが開発したDLのPaddlePaddleが公開しているため、開発元はBaiduのAIスタジオと思われますが、調査不十分です。

また、KREA.aiなどのサイトで、生成された画像とプロンプトが公開されています。生成された画像を眺めるだけでなく、自分がプロンプトを作る際の参考になるはずです。

6-3.世界を広げる画像生成手法

以下で紹介しているものは、必ずしもStable Diffusion特有の機能ではありません。しかしながら、オープンソースであるStable Diffusionでは、不足している機能や新しい機能を誰かが公開している場合が多く、その精度も日々アップデートし続けています。試行回数の賜です。

◆ img2img
これまでは、「文字を入力して画像を生成する」と説明してきましたが、画像から画像を生成することもできます。下絵として自分が描いた絵を出力してもらうだけでなく、AIが出力した画像をさらに繰り返し出力することでさらに異なる画像を生成することもできます。

◆ In-painting
AIによる出力は、当然ながら思い通りにはいきません。人間相手でも「他は同じまま、ここだけ直してほしい!」という場面があるはず。
そんなときに便利なのが、Inpaintingです。
この機能は、画像の中で指定する一部分だけを差し替えできます。

◆ Out-painting
Inpaitingとは逆に、画像の「外側」を描画してくれるのがOut-paitningです。9月にOpenAIのDALL・E2に実装されましたが、既にStable Diffusionを用いてもOut-paitningが使えるようになっています(呼称は"stablediffusion-infinity")。

◆ 動画制作
同じプロンプトを入力したら、毎回同じ画像が出力されるでしょうか?
実は違います。同じプロンプトからも異なる画像が生成されます。
それは、ノイズのランダム性があるためです。そのパラメータの値をシード(seed)と呼びます。
同じデータを学習したモデルに対して、このシードとプロンプトの入力が同じ場合には、全く同じ画像が出力されます。

ここで、AIが出力した画像を初期値として、さらに画像生成を繰り返すことで、コマ送りのように動画を作ることができます。

特に「Deforum Stable Diffusion」は、ズームやシフトさせながら画像生成を繰り返して出力します。これを用いて、歌詞から出力した画像で動画制作をしている例も出てきました。この他、後述するWhisperという音声認識モデルを活用することで自動化できる形式も出てきています。

6-4.特化型モデルで「これを描きたい!」に応える

Stable Diffusionは膨大なデータを学習したために、いろいろなテイストや描き方に適応できます。しかしながら、逆にいろいろなことを学習するよりも、一定のカテゴリの情報に特化して学ぶことで「これがほしい!」という利用者のイメージに答えやすくなります。
その最たる例が、日本的な二次元イラストです。

  • Waifu diffusion
    Danbooruというイラストサイトの画像を学習させたモデルです。Waifuは海外のアニメ掲示板などで、自分の好きなキャラクターに対する呼称で、日本の「俺の嫁」にあたります。その名前の通り、二次元イラストを描くことに特化していて、日本でも話題を獲得する一助となりました。

さらに二次元イラストの中でもニッチなカテゴリに特化できるため、以下のようなモデルも確認できます。

  • Yiffy-e18
    擬人化された動物キャラクター(ケモナー)特化のモデルです。このYiffy-e18の他にもいくつかモデルがあるようです。キウィーさんのnoteに大変詳しく載っています。

  • Robo-Diffusion
    ロボットに特化したモデルです。GoogleのImagenに対して、モデルに新しい概念を学ばせるDreamboothという手法を、Stable Diffusionに対して行っているとのこと。これを特定のWaifuに対して行っている例などもありますが、ここでは割愛します。

6-5.デザインツールの拡張機能に追加

これまで紹介してきたモデルや機能は非常に魅力的ですが、遊びとして出力するだけでなく、実際の場面で使う場合には煩雑です。

例えば、デザインの仕事をしているときに、「ハロウィンのパンプキンが割れている素材」が必要だったとします。
従来であれば「Googleやストックフォルダから素材を検索。素材をダウンロード。デザインソフトに貼り付け」という一連の作業が必要でした。
従来の代替手段となるには、今よりも便利である必要があります。
しかしながら、別のソフトでプロンプトを指定して、画像を出力。さらに望ましい結果になるまで、別のソフトでマスクしてからInprintingしたり、その画像を再度アップロードして、プロンプトを指定したりするのは、あまりにも手がかかります。

そこで、それらを普段使うPhotoshopや、FigmaBlenderなどのデザイン関連ツールに組み込めるような開発も進んでいます。プラグインやアドオンと呼ばれる拡張機能です。

また、ノンデザイナー向けにデザインツールを提供するCanvaも、早速この機能を取り入れています。

これによって、画像検索や自分で描画するかわりに、AIの出力した画像を活用しながらデザインを進めることが可能になります。実務レベルで役に立つ機会が、本当にすぐそこまで来ていることを実感できるはずです。

6-6.【閑話休題】簡単に体験するには

Google ColabやWebサービスで簡単に試すことができるとはいえ、多くの人がそれでは触らないままなのも事実。
「時間があったら触ってみようと思う…」
「ほとんど英語だから、どうしたらいいか分からない…」

ここまで読んでくださった方も、そう言って実際には触らずに終えてしまう方が、ほとんどだと思います。

それでは、もったいない! 情報の解像度も全く変わります。
スマホさえあれば、日本語で簡単にStable Diffusionを体験できるサービスを2つ紹介します。

  • お絵描きばりぐっどくん
    Nishinoさんが開発したLINE botで、LINEから友達追加するだけで、簡単にStable Diffusionを使った画像生成を試すことができます。

  • AIピカソ
    モバイルアプリとして提供されている「AIピカソ」は、ラフ画による「img2img」にも対応。絵が苦手な人でも、直感的に描きたい絵をブラッシュアップできます。
    代表の冨平さんは、リモートワークが始まったときにも、Zoomでコメントやリアクションが流せるCommentScreenを開発。今回の画像生成AIでも、素早くアイデアを圧倒的なスピードで形にしています。

7.NovelAIの破壊力

NovelAIという小説の自動執筆ツールがAIによるイラストに対応しました。
現在は有料会員のみ画像生成機能を使うことが可能です。

このNovelAIは、Waifu diffusionと同様に、Danbooruに掲載された画像やタグを使って学習された二次元イラストに特化した画像生成AIです。

ただし、Waifu diffusionと異なり、NovelAIはWebサービスなので技術に明るくなくても使いやすい点、Danbooruの全画像を学習したことで、一線級のプロに比肩するあまりにも圧倒的なクオリティなどで話題を集めています。

8.現状の課題

あまりにも革命的な技術ですが、もちろんすべてが完璧な訳ではありません。現状の課題として、技術的な課題と倫理的な課題がそれぞれ存在しています。

8-1.技術的な課題

Stable Diffusionが最初に公開されたとき、二次元イラストが苦手だったように、AIは万能ではありません。
現状でも人間を描いたとしても指の数がまちまちだったり、同じテイストで異なるイラストを描くこと自体は難しい状態です。

また、機械学習のためにはマシンスペックやコストがかかり、個人として使うためにも環境構築などが必要な場合があります。

しかしながら、日進月歩で新しいモデルや修正が作られています。想像よりも早く、これらの技術的な課題は実用レベルまで引き上げられる可能性があります。これは明らかなブレイクスルーです。

8-2.倫理的な課題

Deepfakeが話題になったときにもあった課題として、フェイクニュースによる誤謬が問題視されています。例えば、「暴力を振るうガンジー」というプロンプトから、本物と見分けがつかないような画像がAIによって出力されかねません。それまでの風刺画とは違い、実在した場を収めた写真にしか見えないはずです。
一度センセーショナルなフェイクが流布したあと、いくらそれをフェイクだったと訂正しても十分に周知することはできません。

実際に日本でも台風15号による水害被害に関して、Stable Diffusionで出力したフェイク画像が拡散されました。

また、Stable Diffusionはインターネット上の画像と画像の説明文のペアを元に学習をしています。この結果として新たな画像を出力するため、それがトレースやパクリに該当しないのかという議論があります。

これは特にWaifu diffusionやNovelAIでこれらが問題視されています。というのも、これらのモデルが学習元とした「Danbooru」は、PixivやTwitterなどから、作者の許可なく無断転載されたイラストも多く掲載されている海外のイラストサイトだからです。

NovelAI自身も、Danbooruが学習元であると明らかにしています。Danbooruには二次元イラストが大量にあり、検索性を高めるためのタグづけもされています。学習効率という観点では、最適な材料であることは否めません。

それに対して、DanbooruはNovelAIと無関係である旨を表明。英語だけでなく、日本語で文章を公開したことから、いかに日本からの批判や不安の声が集まっていたかが読み取れます。
※現在は内容を確認できませんでした。

8月にベータ版が公開された「mimic」は、特定のイラストレーターの作品をアップロードすることで、個性を反映したイラストをAIが出力するサービス。しかしながら、機能的には悪意のある人が他人の作品をアップロードできるなどの問題から炎上。1日で停止に追い込まれました。
同サービスは事前審査などの対策を加えた改良版を、今後公開する予定になっています。

著作権については、3つの論点から弁護士の柿沼先生が細かく解説してくださっています。しかしながら、法律は国ごとにも異なり、罰則や規制が必ずしも有効とは限りません。

NovelAIなどは有料会員向けのサービスという点で、一部無断転載されたデータを含んで学習されたAIを使ったマネタイズについても問題視されていました。

しかしながら、そのNovelAIは早速ハッキング被害にあい、既にソースコードがインターネット上で公開されてしまっています。法的な問題を除くと、誰でも無料で利用できる状態になっています。

個人的な所感としては後述しますが、倫理的な課題はAI自体の問題ではなく、悪意をもってAIを使う人間や、サービス提供者に対する問題です。この整理がつかないために、かえって混乱を招くきらいもあると思われます。

9.画像生成以外の生成バリエーション

画像以外のものを生成するモデルも発表されています。深層学習におけるトップカンファレンス「ICLR 2022」が直近開催され、そこで発表された論文も含まれています。
これらを複合的に組み合わせることでさらなる創作の可能性もあるはず。

9-1.音声

MetaのリサーチャーであるFelix Kreukらは、AudioGenの論文を発表。プロンプトからAIが音声を生成します。

モデルは大きく異なりますが、機械学習した音声を利用したサービスとしては、TwitterでもCoeFontが公開した「#おしゃべりひろゆきメーカー」がトレンド入りしました。

その他、直近ではTiktokではヒカキンやマツダ家の日常、まちこりーた(敬称略)などの人気クリエイターが読み上げの自動音声になるキャンペーンを実施中。エンタメで実際に活用され始めています。

9-2.動画

ビッグテックによる研究発表はめざましく、動画もMetaからの発表です。
Make-A-VideoはプロンプトからAIが動画を生成します。

また、Googleが発表していたPhenakiもプロンプトから動画を生成するAIです。ICLRの論文は匿名となっていますが、以前から同名のプロジェクトがGoogleで発表されています。

Phenakiの特筆すべき点として、脚本のような長いスクリプトを元に動画を作る特徴があります。

9-3.立体

音声・動画となれば、続くは立体(3Dデータ)です。

Googleの発表したDreamFusionは、同社の画像生成AIであるImagenを利用して3D シーンを最適化します。そのため、3Dデータ自体の学習は必要とせず、学習させるコストの観点からも革新的な発表です。

9-4.モーション

3Dデータを動かすためには、当然ながらモーションも必要になります。テキストからモーションを生成するMDMを、イスラエルのテルアビブ大学が発表しました。

10.今後どんな可能性があるか

画像生成AIはもちろん、上で紹介したように、音声から3Dに至るまで種々のモデルが研究されています。

これらを繋ぎ合わせて、汎用的なAIを作ることは、人類が目指すひとつの最終地点でしょう。ドラえもんや、アトムの世界です。
一方で、これらを部分的に使うことで既に実際の生活に役立てたり、新しい創作の可能性を広げたりすることは可能になると思います。個人的にはこのソリューションや実験に対して興味があります。

例えば、852話さんがツイートしているように、ラフなネームから「作画」
を経ずにマンガを作ることが可能になるかもしれません。

音声生成AIであれば、電話対応に使えるはずです。
具体的には、コールセンターや、窓口業務を代替できる可能性があります。

ともすれば「DX」というと、アナログをやめて、Webやアプリに変えるところに目が行きがちです。
しかしながら、高齢化社会の進む日本では、その「DX」に適応できない世代も増え続けるはず。高齢者の人数も多く、切り捨てることも不可能なので、それではオプションとして、従来のサービスと新しいシステムの両方を提供するオペレーションコストがかかってしまいます。あるいは中途半端なデジタル化で、誰にとっても使い勝手の悪いデジタルサービスが提供されるはず。かえって「DX」しない方が経済合理性が高いと判断されれば、イノベーションも進みません。

会話の内容をテキストに起こして、電話対応を学習させたモデルから応答することができれば、音声も内容も自然なAIによる応答が可能になります。
研究には時間とコストを要するはずですが、リターンが見込める領域です。

OpenAIは「DALL・E2」だけでなく、高性能な文字起こしAIの「Whisper」をオープンソースで公開しています。これらを活用することで、文字起こしなども精度の向上が見込めるはずです。

そもそもOpenAIはどんな団体か?
OpenAIはイーロン・マスクやピーター・ティールらの出資で非営利団体として設立された企業です。現在は一部を営利企業に転換しています。
2019年にY CombinatorでPresidentを務めていたサム・アルトマンがCEOに就任し、上限つきのリターンを設定した企業として「OpenAI LP」を設立しました。このとき、イーロン・マスクは、方針の違いを理由に取締役を退いています。OpenAIが標榜しているAIには莫大なコストがかかるため、非営利団体として目的を達成することは難しいと判断したと思われます。
とはいえ、「GPT-3」やそれを活用した「DALL・E2」「Whisper」など、数年間で世界有数のAIに関するモデルやサービスを提供しています。

これらはアップサイドの可能性ですが、もちろんダウンサイドの可能性も考慮して、対策する必要性があります。

最も直近の課題は、フェイクニュースとイラストレーターに対する権利問題の解決です。既にAIが描いたイラスト集が販売されたり、有名なイラストレーターを騙ったTwitterアカウントでフォロワーを集めたりする詐欺が横行しています。

これに対して、ダウンロード販売サイト「FANZA同人」、「DLsite」などは即座にタグ付け必須化や販売禁止などの対策を講じています。

先に挙げた「mimic」のように、規制強化を求める動きもあると思います。しかしながら、個人的に規制強化は対策たり得ないと考えています。審査にかかる莫大なコストや、限定的な効果範囲が原因で、かえって出遅れを招いてしまう歴史が、他の業界からも学べます。

既に広がってしまったコードやモデルは、もはや回収できません。
これまでではなく、これからを考えましょう。

私は、クリエイターが既得権益的な恐れを感じているとは思いません。
さいとう先生も仰る通りで、モノを知らない外野に「AIで絵師の仕事がなくなる」と虚仮にされていること自体の反発があると感じています。
今まで心血を注いできた仕事を必要ないと嘲笑されたら、どんな業界の誰であっても、反発を抱くに違いありません。

クリエイターこそ、個性的で類まれな探究心と遊び心の持ち主です。その感受性で以て、同じ風景や絵から他人の何倍もの情報をインプットして、それを出力する専門家です。
この画像生成AIも活用の仕方を考えて、誰よりも創造的な次の展開を作る担い手だと思っています。

現にトレス台でペン入れをしたり、コピックで色を塗ったりするイラストレーターは、この10年でかなり減りました。
むしろ、デジタル作画を取り入れてバランス調整を手軽にしたり、ゲーム制作のために使われている"Unreal Engine5"を使って背景を描画したりと新しい試みによって作品のクオリティを向上しつづけているはずです。実際、背景のトレスや手直しはかなり一般的な手法かと思います。

テクノロジーによる進化は、イラストレーターに限りません。
数々の記録を塗り替えている将棋棋士の藤井聡太竜王も、自作PCと機械学習を用いた将棋ソフトによる研究で知られています。本人の才能はもちろん、AIによる能力向上は過去の世代にはない強みだといえます。

さて、今後の可能性としては、特定の用途に絞ったソリューションやイラストレーター自身によるAI活用がありえると述べてきました。

個人的な所感としては、今後の起きる大きな動きのひとつに「パーソナライズ化」があると思われます。つまり、ひとりひとりへのAIの最適化です。

画像生成AIは下絵とプロンプトを入力したとしても、必ずしも思い通りのものが出てくるとは限りません。「ここは青くしたい」や「もっと明るい表情にしたい」といった要望を、試行錯誤する必要があります。

その過程において、「青く」や「もっと」「明るい表情」などの言葉は、ひとりひとりの感覚の差が顕著に出ます。

したがって、それらを対話的に修正していくサービスや、その対話自体を学習して、もっと個人の感覚に寄せたサービスが台頭してくるに違いありません。システム自体は複雑ですが、さらに似た特徴の人たちのデータを連携させることで、試行回数が少ない状態から改善することができるようになるはずです。

あるいは、このプロンプトを適切に入力できる「プロンプトエンジニア」というカテゴリは界隈で頻繁に出てきているし、過渡期では手直しを加えるデザイナーも確立された仕事になるはずです。

スマートフォンで写真撮影が大衆化されたからといって、プロのカメラマンがいなくなったわけではありません。かえって特別な仕事として生まれ変わったし、スマートフォンのカメラで映像制作する若いインフルエンサーも誕生しました。ここにも想像しない生活が広がっているかもしれません。

11.オープンソースの革命的な早さ

ここまで画像生成AIの話題が尽きないのも、StableDiffusionがオープンソースであった恩恵は大きいはずです。「5-2.まずは、StableDiffusionをおさえる」で、オープンソースについては触れています。

基本的に企業が提供するソフトウェアはソースコードが非公開で、そのサービスに対して価格が発生しています。普段使っている会計ソフトや、スマホゲームのプログラムをユーザーが実際に見ることはできないはずです。

そのため、オープンソースは利益を追求しない非営利団体か、GAFAMのようなビッグテックが開発者を引き込むために公開する場合がほとんどです。

12.オープンソースは金にならない道楽か?

たしかにオープンソースのソフトウェア自体は、収益を生みません。しかしながら、それがオープンソース自体に価値がないと断定するには早計です。

実際、StableDiffusionを公開したStability AIは営利企業であり、最大10億ドル(約1440億円)の評価額で資金調達をする交渉に入ったと報道されています。

ブログソフトウェアのWordPressや、Google ChromeのベースとなっているWebブラウザ向けのchromiumもオープンソースのソフトウェアです。

オープンソースは無料で利用できる点や、脆弱性への対処が早く、プログラマにとってもゼロから自分で開発するよりも採用されやすいものです。

実際、画像生成AIを使ったサービスを作るときにゼロからアルゴリズムを設計したり、教師データを用意したりするよりも、StableDiffusionを改変して利用しようと思うはず。

それが眼前たる「自然の摂理」として存在することになるので、他のサービスとの苛烈な競争に追われたり、独善的な利益だけに執着したりする必要がなくなります。
私見ですが、普及したオープンソースに勝る市場の独占はありません。

13.オープンソースと経済を繋ぐトークンの存在

市場の独占とはいえ、オープンソース自体で売上が立たないことは事実。

これまで、オープンソースの開発・運営元がスケールアップするためには、大企業に買収される形が主流でした。

例えば、OracleはMySQLなどを開発しているSun Microsystemsを吸収合併。IBMはRed Hatを買収しています。Twitchでの配信に特化したStreamlabsは、ゲーミングデバイスで有名なLogitechが買収しました。

しかしながら、この不透明だったオープンソース・ソフトウェアの「価値」を可視化してくれる媒体が誕生しています。
それこそが、ブロックチェーン上で動作する「トークン」です。このトークンは需要と供給によって価格が変動し、端的には、その時価総額をプロトコルの価値と評価することもできます。

このトークンを開発者に対する貢献の報酬や、資金調達の源泉とすることで、オープンソースでも持続的な運営をしたり、スケールアップしたりすることが可能なはず。
また、トークンによって、多くの人々や団体が共同保有をする形が実現可能です。実際、暗号資産として有名なEthereumについて、Ethereum財団はEthereumを独占的に管理や主導する訳ではなく、エコシステムの一部として貢献していると表明しています。

コーポレート・ガバナンスの観点から「所有と経営の分離」が行われる株式会社に対して、トークンによる組合は「所有と経営」が一致しています。
株主による客観的評価で経営の健全性を評価する構造のかわりに、プロトコル自体をオープンにすることで開発や運営は、健全性を保てるはずです。

オープンソースとトークンについての詳細は以下の記事に委ねます。

14.イノベーションの着火剤としての「アート」

このnoteでは、画像以外の生成AIについても触れました。それは、これらが等しく革新的なテクノロジーだからです。

しかしながら、画像生成のAIがこれだけ話題になるように、ビジュアルは私たちにダイレクトな衝撃を与えてくれます。

同様に、多くの人は「NFT」と聞くと、「NFTアート」を想像するに違いありません。

NFTアートにおいては、CryptoPunksなどのCollectible NFTという、数千~数万体のNFTからなるコレクションがとりわけ有名です。
これらは通常「Traits」という特徴のパーツを数個ずつ作り、プログラムでそれをランダムに組み合わせることで多くの作品を生成しています。
しかしながら、今回の画像生成AIを用いれば、数点の作品を学習させたあとに数千体の全てオリジナル要素を持つCollectible NFTを作ることも可能になります。※既にあるかもしれません。

難しい論文や哲学よりも、視覚的なインパクトが、多くの人に新しい概念を知らせてくれることは間違いありません。

NFTがアートだけの利用に留まらないように、生成AIも画像生成だけに留まらない可能性を秘めています。その利用用途は想像以上の速度で、知らぬ間に生活に溶け込んでいるはずです。

世界有数のベンチャーキャピタルであるSequoiaも、9月にGenerative AIに関する記事を掲載し、その可能性を示しています。

15.web3で実現するクリエイター還元

現状は「AIでイラストレーターの仕事はなくなるのか?」という恐れも相まって、話題に事欠かない画像生成AIですが、むしろ私たちは、トークンを活用することでクリエイターへの還元を実現できると考えています。

今回、無断転載で問題になったDanbooruやマンガ/アニメの海賊版も、実質的に規制することは不可能です。国内でどれだけ声高に叫んだとしても、悪意ある個人が存在する限り、人的な規制は無謀です。

あくまで利己的に、個人が楽しむことを主眼に置いたとき、海外のファンがPixivや日本語のTwitterでイラストレーター本人をフォローしたり、吹き替えや字幕の作品が届くのを待ったりするよりも、海賊版や便利なツールに流れてしまうのは抗えません。

結局のところ、一番の対応策は海賊版は比肩できないほどのクオリティで公式が対応するか、音楽のようにマネタイズ自体を時代に合わせて変化させるしかありません。

この一助になりうるのがトークンを使った配分システムや、NFTの価値向上だと、私は考えています。

例えば、アニメの1話をNFTにした場合、そのアニメが人気になるだけ価値が上がるはず。その人気を形成するファンは海賊版を見たり、中古の単行本を読んだりした人も含まれています。
これは非常に雑な例ですが、その勢いさえも価値に転換できることがNFTのパワーです。これは音楽業界において、CD売上が減少している一方で、ライブやイベントの売上が伸びている状況に近いと思います。

特に私たちは、17LIVEPocochaのような、ライブ配信サービスでクリエイターへの還元を実現していきます。

現在のライブ配信サービスにおいて、諸般の事情はありますが、配信者は少なからず搾取的な構造があります。
しかしながら、それは「所有と経営の分離」を謳う株式会社の仕組みだけでは、なかなか解消しきれません。

そこで、私たちはクリエイターファースト配分プロトコルをオープンソースで開発し、StableDiffusionの「DreamStudio」に相当する公式ライブ配信アプリとして「MicDrop」を提供する予定です。

MicDropはトークン経済+NFTを使ったライブ配信サービスです

ここにおけるクリエイターは、配信者に限りません。複数の方法で、コミュニティへの貢献を報いる仕組みを予定しています。そのバリエーションについては今後公開されていく想定です。

16.ワールドメーカー会社紹介

また、私が代表を務める株式会社ワールドメーカーでは、

  • web3を使って何をすればいいか分からない…

  • メタバース関連事業をやりたいけど、何をするか決まらない…

  • 画像生成AIで自社が何をできるか知りたい

といった企業の皆さまと一緒に、新しい事業立案やプロトタイプの検証を共創していきます。

今回の画像生成AIを用いた検証や、その他の生成AIを用いた事業開発についても、お問い合わせいただければ、各社に合わせたプランをご提案します。

ぜひ、下記のHPからお問い合わせください。

株式会社ワールドメーカーHP

最後まで読んでいただき、ありがとうございました。
間違いや誤解を生む表現などあれば、TwitterからDMでご指摘ください。

また、感想やシェアもらえるとうれしいです!
必ず成長する領域だと確信しました。AIとweb3で何かしたい方はぜひお問い合わせください。採用や提携に関するご連絡はTwitterのDMでも歓迎です。

会社のみんなとドーナツ食べます。