見出し画像

生成AIが創れる世界

画像生成AI アドベントカレンダー 21日担当です😆
https://adventar.org/calendars/7766

いろんな生成AIを活用した事例を見たり、いろんな人の考えを分類してみた所基本的にこの3つの方向性で生成AIは世界を幸せにできるんじゃないかと今思っているのでここに記録します。

ただまだ分類と予測をしただけで技術的な裏付けは明確にしておらず、技術的な理解がヘボヘボなので夢物語になっており、まだ80%SF小説です。ちゃんと裏付け全部書いた状態でもう1度出そうと思っています。計算資源、データの問題や技術的な問題までちゃんと把握しておきたいです。


生成AIが世界を幸せにする方向性

1. 圧倒的コストカット
Text to Everything (Generative Text/image/Audio/Video/Code/3D/..) / NLI
膨大な探索 / コストカット
超高速化 / コンテンツの高度化
UGC→AIGC
マルチバース, 縦軸と横軸の突破, 点から領域へ

(1の影響で生まれる世界)
2. ハイパーパーソナライズ
静的→動的 / 検索→生成 / Search→Answer
Intelligent internet / Generative Search Engine
インターネットのトポロジー変更
高度なローカリゼーション / 点から場へ
Liquid User Interface 

3. 仮想人間(キャラクター)
チャットボット / AIアバター

4. 創発的動機に沿った自動生成 (追記)

5. 未分類
情報圧縮技術


圧倒的コストカット、それによるコンテンツの高度化


1つは単純に圧倒的に何か作ろうとなった時のコストがほぼない世界。コストカットというところはMidjourney, Stable Diffusion, ChatGPTを見た方だと想像できるはずです。若干思考が必要で、自動化しにくかった作業というのをすっ飛ばすことができ、スピード、多様性、価格面で大きな変革が起こせる。産業革命で起きた肉体の機械化のようなことが脳で少しずつ起き始めて衝撃的な形になってきている。


Text-to-Everything

究極にコストカットされた世界とはどういうものかというと、全部テキストで出来てしまう、魔法の世界。Text-to-Everythingの世界だと思ってます。
RunwayのCEOのCristobalさんは次のように言われてます。

次の10年間で最も重要なユーザーインターフェイス

これまで勉強してスキルを積み重ねてようやく作りたいものが作れるという世界からようやく人間が抜け出せる時が来たと感じています。

例えばAdeptが作っているAction Transformer(ACT-1)は現存するあらゆるソフトウェアツール、API、ウェブアプリを使えるように訓練された行動の基盤モデル。まだ公開されていませんが、サンプル動画がいくつかアップされています。

例えば以下の例だと、「ヒューストンで四人家族向けの家を見つけてください。私の予算は600kです」と入力するとなんということでしょう..マウスが勝手に操作されてUIを操作し、欲しかった情報に辿り着いています。もしこれがあらゆるAdobeのクリエイティブツールでハイレベルに出来てくると想像すると..もうパソコンに制作会社さんが全員入っているみたいなそういう世界観になる。(しばらくはずっと支援ツール、アシスタントのような存在だと思います)

CLI(コマンドラインインターフェース)から、GUI(グラフィックユーザーインターフェース)になり、ついにNLI(Natural Language Interface / 自然言語のインターフェース)になる時代の到来です。(既に他の定義があったら知りたいのでご連絡いただけますと幸いです。)


また、NVIDIAが発表したMinecraftをプレイすることができるAIエージェント「MineDojo」(プロンプトを指定したら行動させることができる)がありますが、これはMinecraftに関する730,000本ものYouTube動画やMiecraft wikiからスクレイピングされた7,000のサイト、Minecraftに関する340,000のReddit投稿、660,000のコメントを学習して実現しています。

Adobe系ツールのチュートリアル動画やWikiは膨大にインターネットに存在しているので、Adobeのクリエイティブツールでも、他あらゆるソフトウェアでも同じことはできそうなので本当にワクワクする。

MineDojoやACT-1を見ていると、デバイスにおける知的な雑務というのはなくなり、全員なより高度な作業に集中できる世界がもうすぐやってきそうです。(データにない行動についてどうしていくかという研究についてちゃんと知っていきたい。)

なので、スキルを貯めてできていたデバイスにおける知的な作業はAIがもうすぐある程度はできてしまうという認識でいます。


徐々に実現するText-to-Everything

初めて見た方向けにちょっと説明。

例えばこれはDALL-E2で個人的に出力したもの。この3Dアイコンを生成するためのプロンプトの一部の単語をカレンダーや象に変えるだけでこの素材が作れてしまう。従来だったらBlenderで1個1個作るか、デザインの素材ストアで買ったりしないといけなかったものがこれで出来てしまう。従来だったら買って終了で40パターンの範囲しか使えなかったりしていたのが、言葉さえ変えれば膨大にほしいものが手に入ってしまう。これは圧倒的なコストカットになります。

また、Runwayは映像編集の作業をすっ飛ばす未来を目指してます。従来だったらAdobeのサブスクリプション入ってAfterEffects入れて、YouTubeのチュートリアル見たり、Udemyなどの講座を受けて学んで、エフェクト設定してパラメーターをコロコロいじって..っていう時間がかかっていた世界を、彼らはすっ飛ばそうとしてます。(Runway大好き)

またtomeは、スライドを作る作業をすっ飛ばそうとしています。そういえばいちいち複製してタイトル各章につけて内容をざっくり書く..というのも退屈でした。一番いい状態は思ってることが一瞬で伝わることであって、できるだけ一瞬で終われた方がいい。tomeはそんな素晴らしい未来に向かってます。MicrosoftはOpenAIと提携しているのでPowerPointでやってきそう
(これは今日(12/21)リリースされたのでぜひ)

また、Qatalog 2.0はSaaSツールをテキストで生成しています。自分の事業を説明すれば、AIが、人材、仕事、知識等すべてを管理できるオーダーメイドのプラットフォームを数秒で設計・構築できてしまう。企業がわざわざ独自のツールを導入しなくてもテキスト入力すればできてしまう世界がもうやってきてます。

研究ベースでは続々と新しいものが公開され続けてます。


実現への壁

ただ画像生成AI、コード生成AIで現在大きな問題が起きています。(今後3Dでも起きるけどまだあまり言及されてない)画像だけでいうと、クリエイターさんの間で問題視され、反発を受けている部分があります。

最近だとArtStationで起こった「No AI」の運動。学習の邪魔を狙うという意図があるなら、AIを破壊しに行っているという点でいうとラッダイト運動とかなり近い部分があります。

No AI運動の発端となったらしいツイート

Alexander - Inca
現在のAI「アート」は、何十億枚もの画像を作り、時間と愛と献身を費やした何十万人ものアーティストや写真家の作品を、魂の抜けたように盗み、倫理の概念など微塵もない利己主義者が利益のために利用することを背に作られています。

最終的にNoAI抗議運動は、ArtStationがNo AIタグという新機能を搭載して一旦終わったと認識してます。

また、DeviantArtは画像生成AI(名前はDreamup)をサイトに搭載し、サイト内の画像を今後学習していくよという方針にしており、サイトの内の画像を基本設定を学習許諾を全てonにしており大バッシングを受けました。その後、すぐに全ての画像の基本設定を学習禁止に変更。

CLIP STUDIO PAINTもStable Diffusionを搭載後大バッシングを受け、搭載しないことを決定。

また、一番代表的なのだとGithub Copilotの集団訴訟があります。
Microsoft、OpenAI、Githubが訴えられており、元となったコードを匿名化して、あたかもCopilotによって作成されたかのようにしてユーザーに配布しているということで訴えられており、ここの判決が今後生成AIの動向を決めるのではと言われていたりします。

ただ個人的には、4つほど弁護士さんのAIに関する講義を聞いた結果、現行の法律の状態でいける気がしています。僕個人としてはプラットフォーム側のAI作品の棲み分け対応だけでいい理解をしてます。

細かい場合分けが沢山ありますが、基本依拠性と類似性があればアウトという判断で問題ないと考えておりかなりスッキリしています。人間と同様の扱いでいいんじゃないかという判断で、ただ制作スピードが上がっただけであり、使う側のモラルが問われるという世界になると僕は思ってます。結局その人の作品を意図的にかなり真似して、投稿して遊んでいたら、それは普通のクリエイターさんと同様の視点で見られると思いますし..。
(これあの人の真似ですよね..?みたいな連絡が来るはず)

でも実際この状況を課題に思い、活動されている何人かの方を日本でも海外でも見ていたり、ここに関して長期的な視点を持てていないので、僕の視点にはまだまだ何か足りないものがあると感じてます。


サンドイッチワークフロー

まだ創発的な衝動や高度な人間的な感覚を持たないAIは、まだ協業スタイルであり、Noah Smithさんが以前書かれていたブログが綺麗に言語化されていて素晴らしかったので引用ですが、しばらくサンドイッチワークフローというのになるんじゃないかという話があります。

(この創発的衝動や人間的な価値観という部分がどのくらい解決されうるのかという部分は全然まだ理解できてないのでここを今後は深ぼっていきたい。)

これまで、作りたいものがある→スキルを積み上げる→制作するというワークフローだったのが、作りたいものがある→AIに依頼する→AIから選ぶというワークフローに移動するという話です。

これにより、人間は本当にクリエイティブなものの手前にあった作業というのを大幅に削減できる可能性があり、それによりコンテンツのリッチ化が起きると考えています。もっと重要な課題に人間は移動することが可能になっていくということです。


マルチバースへのアクセス, 縦軸と横軸の突破, 点から領域へ

また、圧倒的コストカットによりマルチバース、あらゆる可能性にアクセスが容易になりました。進化しすぎた未来には過去のコンテンツがアニメ版で全て復活する。そんな世界もあるかもしれないです。Stanford HAIの基盤モデル研究センターの所長 Percy Liang氏が「(動画生成AIについて)来年には、人間が作ったのか、コンピュータが作ったのか、区別がつかなくなるかもしれません。」と言われていたので、来年その片鱗が確認できるかもしれない。

とか方向性としては、終わったアニメの続きも好き勝手見れたりするかもしれない。アニメの「日常」全部終わったけど続き生成してもっと先を見るみたいな。僕は縦軸と横軸が突破されると言ってるんですが、過去の人が生み出したコンテンツや未来の未知の背景が含まれた文章もつながっていけるし、離れすぎたコミュニティにいても繋がれると思っています。

また、これまで人間が作っていたが点は重要じゃなくなり、領域が重要になるんじゃないかと思ってます。そしてよりそれぞれ見ているものが異なり、点は重要じゃなく、領域が重要なんじゃないかと思っています。

「メタバースではなく、マルチバース」

Emad氏はサンフランシスコでStability AIのローンチパーティーで次のように話している。「メタバースのことは忘れて、マルチバースに投資してください。」


コミュニケーションの高度化

また、別の話ですがAIアートインポスターはかなり秀逸でまさに圧倒的コストカットによって起こる変化の1つだと思っています。AIアートインポスターとは何かというと、人狼ゲームのAIアート版。お題が2つ与えられるけど、片方のお題だけは1人だけは与えられず、誰が与えられていない人かを見つけるというゲーム。

コストカット、スピードアップにより、対話と同じように画像が生成できるので、従来テキストだった部分は画像に置き換えられる。このイノベーションがないとできなかったコンテンツです。


ハイパーパーソナライゼーション


次の方向性です。

「検索から生成へ」「静的から動的へ」「SearchからAnswerへ」「intelligent Internet」「generative search engine」とかいう概念が出てきていますが、それをまとめるとハイパーパーソナライゼーションにまとまると思ってます。インターネットのトポロジーを変更し、分散的で個人ごとに区切られたとてもハッピーな世界を作れる可能性があるというもの。簡単にいうと、個人が最も求めていたものを全員が手に入れられる世界です。


自分だけのもので溢れる時代

例えばDavid Albert Friedbergさんは次のように語られてます。

誰もが自分だけの映画、音楽、本、ニュース記事、ビデオゲーム体験を楽しむことができます。多くの人が同じ音楽を聴き、同じ映画を見て、同じ本を読んでいるなんて、ある日ばかげたことに思えるかもしれません...

マスの時代、テレビの時代は大きな会社が作ったかなり絞られたコンテンツを僕らは見て楽しんでいました。そこにインターネットがやってきて世界中の人が作ったあらゆるコンテンツから選んで楽しむ時代がやって来た。そこではAIによるリコメンドシステムが素晴らしく働く。ここが現在でTikTokのアルゴリズム最高!の時代。ここからついに本当に好きなものがコスト0で手に入れられる時代がくるかもしれない、そこでは生成AIが活躍します。


Intelligent Internet

Emad氏がよくいう「Intelligent Internet」という概念があります。以下にEmad氏がそれについて言及した部分をいくつかまとめました。簡単にまとめると知識が圧縮された自分だけの分散的で動的な生成検索モデルのこと。従来のサーバー上に置かれた静的なインターネットではなく、圧縮し、自分が本当に求めているものを動的に変形し与えてくれる上、AIに学習させ、数GB〜100MBに知識を圧縮させることで中心となる誰かが管理する必要がなく、それぞれデバイス上に持っておける。そういう世界観だと個人的には理解してます。

インテリジェントインターネット
知識を圧縮する、すべての人のためのパーソナライズされた生成的検索モデル。
画像、音声、テキスト、その他。
分散型・動的な次世代プロトコル。
人間の潜在能力を活性化するための基盤はこうして作られる
Stability AI

StableDiffusionのようなパーソナライズされたAIを搭載し、エッジに分散したインテリジェントインターネットが、本当のWeb3 / Metaverseです。
最初から価値を生み出せば、経済的なインセンティブは必要ない。
インテリジェントなインターネットの価値創造 >> バカなスマートコントラクト

Emad氏のPodcast

私はインテリジェントインターネットのビジョンを持っています。そこでは、すべての人、企業文化、国が、モダリティを超えた独自のAIを持ち、互いに対話し、私たちの可能性を高めています。そして、私たちの情報を結びつけて、知識へと圧縮します。そして、私たちの文脈では、それが知恵になります。今、私たちにはそれがありません。私たちを見守る人がいないのです。その代わり、情報は一元化されています。Facebookなどのパイプを経由して流れてくるわけです。ですから、私が目指しているのは、誰でもこのようなモデルを自国の文化で構築できるようにすることです。これが将来の大きなビジョンです。

前述のように、誰もがインテリジェントインターネットの生成検索エンジンとして、さまざまなモダリティにまたがる独自の AI を持つことになります。
これから何が起こるかを少しだけ示してから、これらを組み合わせ始めると..


インターネットのトポロジーが変わる

つまり、インターネットのトポロジーが変更されるという話です。NFXさんのブログで分かりやすい図と解説があったので引用させていただきます。いわゆる「検索から生成へ」「SearchからAnswerへ」という話と同じです。

Generative Webに移行することにより、本当に求めているものが手に入れられる世界を作れる。(その状態でも源泉となるWeb 2.0は今後もずっと必要なはず)

Web2.0
1.保存されている
2.古いコンテンツ
3.中央から、ネットワークの端にいるあなたに届けるために、データベースへの問い合わせを行う

Generative Web 
1.ユニークなコンテンツ
2.ネットワークの端で生成される
3.あなたの行動によってリアルタイムで生成される

「2030年:すべてが「加速」する世界に備えよ」にも同じようなことが書かれています。賢いAIエージェントがいて自分が求めている適切な回答をしてくれるなら、僕らは広告を見るだろうか?広告という形式は本当に正しいのか?という話です。マーケティング:50 商品の良さ:50の時代から商品の良さ:100でいいという素晴らしい時代へ移動できるかもしれません。そしたら全員そこにのみ集中することができるはずです。

先ほどのコンセプトが形になっているわけではないですが、「Metaphor」は少しそれに少し近いコンセプトを作ろうとしています。彼らは言葉の後にどんなリンクが来るかというの予測するモデルを構築しており、従来の検索とは全く違う検索をすることができます。

例えばこんなことができます。

このあたりの話はここで深い解説されてます。

「次のGoogle検索エンジンはGenerative AIになる」


Liquid User Interface

静的から動的へと書いていましたが、それはこういうもの。目的に沿って形を変えるユーザーインターフェース。あらゆるツールがこれになるかもしれません。ここまでいくと従来のUI、CLI、GUI、NUIとは一線を画すので個人的にはあまりの自由度の高さから液体に例えて「Liquid User Interface」と呼んでます。既に名前あるのかな..あったら教えてください。

(bioshokさんの記事から拝借)

いわゆるこれってアイアンマンの世界なんですよね。アイアンマンがエンドゲームあたりできていたスーツはナノテクノロジーで出来ていて目的に沿って武器にもなるし、盾にもなるし、吸盤にも、爆弾にもなる。

Siriに頼んだらそれ専用の本当に適切なUIをそれぞれ生成していくような世界もあるかもしれないです。フラットデザイン、マテリアルデザイン、スキューモーフィズム、ニューモフィズムなどいろんなデザイン文脈が来て、ついに未知のデザイン領域が誕生しそうでワクワクしています。

ChatGPTは文字ベースでまさにそんな感じを実現していて、あらゆる言語タスクが自然な対話でできている。場合によって形も能力も変えることができる。

「ジェネレーティブAI」という言葉はあまり好きではありません。
私は、インテリジェント・インターネット、インテリジェント・メディア、インテリジェント・エンターテインメントというコンセプトが好きです。
静的なコンテンツがすべて対話的になるのです



仮想人間(キャラクター)


最後の方向性です。

Charactor.ai、ChatGPT、最近話題になったD-IDなどを見ればわかりますが、仮想の人物を作ることが可能になります。本読むよりその人に聞くことができたり、サイトそのものや本、有名人がキャラクターみたいになるかもしれない、また、お医者さん、弁護士さんレベルのAIに聞いたりする世界もあるはず。そういう仮想人間を作る方向性。彼らはコストが安く、どの時間に連絡しても答えてくれる上、安定した品質で教えてくれます。


仮想人間の実装

例えばSpeak。最近日本に上陸したサービスで韓国で1位の教育アプリ。現在は旧来の用意された構文を音声認識で話している感じですが、ある記事でGPT-3を搭載すると言われていたので僕は彼らは自然な対話をここで実現していくんだろうと考えています。つまり、仮想の英会話教師を作り上げることを目的にしてます。

例えばこれは僕が操作してみた画面ですが、英会話相手のJenさんとこうやって電話のようなインターフェースで会話ができます。
これが自然な対話になってくる..と考えてくるとかなり素晴らしい。
普通英会話学ぶのって結構お金かかるけどこれは月額1800円でできてしまう

また例えば他にもReplikaのような、AIフレンドを作れるサービスもあったり。

Charactor.AIというチャットボットを作っていろんなAIたちと話せるサービスもあったりします。

https://beta.character.ai/


仮想人間の可能性、良さ

仮想人間が生み出す可能性は何かと考えてみる。通常の人間とは何が違うのかで言うと、コスト、自由度、知識量、自動化(働く時間が左右されない)、質の担保などがあります。

また死んでしまったあの人の過去の会話ログや画像、動画を全て学習し、仮想的にまた会える、そんなものも作れるかもしれないです。
それでいうとデータが山ほどあるひろゆきさんとか完璧な状態が作れそう


創発的動機による自動生成

(後で書く)


未分類


情報圧縮技術として

先日お誘いいただきこちらのイベントでお話ししていた際、注目の生成AIの使い方というお話になり、その際@minami_kikukawaさんが言われていたので思い出した9月に話題になっていたこの技術の新しい使い方。情報転送技術として将来的に有効ではないか?という話です。これは他の領域に分類できないですが、何か新しい世界が作れるかもしれません。


最後に


という風に個人的にはこんな整理をしてみました。これらの世界が実現できそうという可能性が見えてしまっているため、こちらにあらゆるものが向かっていくんじゃないかと予想してます。まずはインフラとしてあらゆるサービス、ゲーム、コンテンツに入っていくという変化が2023年は頻出しそう。

別の話ですが、Neuralinkの技術と生成AIが進化した先には本当に魔法使いみたいな存在ができそうな気がしていて、ワンチャンマジでホグワーツ誕生するかもしれないみたいな妄想をしています。

この記事はまだSF小説状態なので、技術的な理解が深まったら段階的に更新していこうと思います。ありがとうございました


Twitterに、毎日製作したものや、最新情報、検証を載せたりしていたりしてます。よかったら見ていただけたら嬉しいです。


もっと興味がある人用リンク集

text-to-imageの初心者向け動画

text-to-image modelのタイムライン

レイカーツワイル: 特異点、超知性、不死

OpenAI CEO Sam Altman | AI for the Next Era

bioshokさんの未来予測

【落合陽一のシンギュラリティ論】シンギュラリティは2025年に来る/ディフュージョンモデルの衝撃/知的ホワイトカラーが没落する/最新版デジタルネイチャー/音楽と論文が数秒でできる

2022年10大AIニュースと2023年の展望

Aranさん、AKさんがツイートしたtop 50ペーパーまとめ

AI、自動化、雇用に関する歴史からの5つの教訓

機械が人間に取って代わる可能性のある分野と、(まだ)そうでない分野

ムーアの法則を新たな高みへ導く3次元積層型CMOS

これからの数十年は荒れ狂うかもしれない

ムーアの法則、AI、そして進歩のスピード

あらゆるものにムーアの法則を

AIの近未来はアクションドリブンである

ものが考える時代

State of AI Report 2022


更新履歴


2022.12.26  「縦軸と横軸の突破, 点から領域へ, 点から場へ」追記

サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます