見出し画像

GPT系の今後の進化をSAOを例に考える

はじめに

ChatGPTや画像生成AIの出現によって、「AGI(汎用人工知能)」という言葉が注目されてきています。いわゆる何でもできるAIのことです。

目まぐるしい進化を見せているAIですが、本記事では今後のAGI実現の可能性について、考えていきたいと思います。

ひとつ、ソードアート・オンラインの作中での、ユイの言葉を紹介します。

私には感情模倣機能が組み込まれています。
… 偽物なんです、ぜんぶ。この涙も。ごめんなさい。

ソードアート・オンライン (アニメ→第12話)

僕はChatGPTを目の当たりにするまで、この言葉の意味を真に理解してはいませんでした。

「偽物」とはどういうことか、それの何が問題なのか。この言葉の真意について、ここでは現実のAIに基づいて考えてみたいと思います。


汎用性について考える

もともと、汎用人工知能という考え方は「フレーム問題」という課題に阻まれてきました。学習していない分野のタスクは行えないという問題です。

しかし、GPT系のプロジェクトではマルチタスク性の実現、すなわち翻訳、要約、会話など特定のタスクに限らず、汎用的に対応できるAIを作るという目標を掲げていました。そして、それはチャットGPTの登場によりほぼ達成されていることが知られることになりました。

これだけでも既に「汎用人工知能が完成した」と考える人もいるでしょう。定義の広さ問題なので、それも間違いではないかもしれません。

しかし話はそれだけでは終わりませんでした。ChatGPTの最新バージョンである「GPT-4」には画像入力機能が搭載されており、近々リリースを予定していると発表がありました。

冷蔵庫の写真を解釈し、レシピを提案する様子

GPT-4は「画像」を解釈することができ、その画像と指示に従って、さまざまに応答を行うことができるようです。

将来的には、音声や動画などにも対応できるようになる可能性があります。しかもそれは、それほど高いハードルではないように思います。

すでにStableDiffusionでは、「文章入力→画像出力」と「画像入力→画像出力」、「文章入力→動画出力」など、マルチモーダル的なことが可能となっていて、それらの仕組み自体は全て以前から存在するAIモデルで構成されています。

画像、音声、動画、それぞれ単体では十分な性能をもつAIはすでに多く登場していて、あとはそれを「繋ぎ合わせて大量のデータを学習させる」だけで、マルチモーダルなAIは実現できるのではないでしょうか。(おそらくGPT-4の画像認識も、ViTとGPT-4デコーダーの組み合わせなのでしょう)

大量のデータを正しく流し込む手法の確立は、少しハードルになるかもしれませんが、不可能なことではないはずです。

複合的なAI(マルチタスクかつマルチモーダルなAI)を作ることが出来れば、たとえば、映像や音声などから状況に応じて指示を出したり、分析してレポートを作成したり、もしくは写真の加工や動画編集も思うままに任せられるかもしれません。


マルチモーダル化は意味を理解させ、嘘に気づかせる

マルチモーダル化には、もう一つの大きな効果があると考えています。現状のChatGPTの最大の弱点として、嘘や間違いが多いという点が挙げられると思います。

しかし、それはマルチモーダル化に伴って、ほとんど解決する可能性があります。なぜなら、マルチモーダル化によって言葉の“意味”を理解する可能性があるからです。

現行のChatGPTでは文章のみを学習しているわけですが、言葉の繋がりだけでも既に「意味を理解しているように見せかける」ことは出来ています。

実際にChatGPTにも使用されている「Transformer」という仕組みでは単語と単語の近さを測るような仕組みを持っています。例えばChatGPTでは「りんご」と「赤い」は近いということを学習しています。そのため、ChatGPTにりんごが何色かを聞くと「りんごは赤い」と応答してくれます。しかし、現状のChatGPTはあくまで言葉の関係性を学習しただけなので、「赤」がどんな色に見えるのか、ということはきっと知らないでしょう。

現行のChatGPTは本質的に概念を理解しているわけではなく、単に学習した文章の中の、単語の組み合わせを記憶しているだけです。また、データが少ない組み合わせはノイズと捉え、学習されません。そのため、例えばプロ野球選手の成績などを質問して間違えることがあるのは、そのプロ野球選手と数値が1つの組み合わせとして記憶されていないためです。

では、画像解釈の機能を追加すればどうなるでしょうか。「そこに写っている赤色の部分」と「りんご」を結びつけて「りんごがどんな見た目かを知る」ことが可能になります。

例えば「りんごをモチーフにしたキャラクターを作ってください」という指示を出した場合を考えてみます。

文章だけで学習したモデルでは「りんご」の特徴を無視して、単に「頻繁に一緒に登場する単語」に従ったキャラクターを生成します。

しかし、画像と単語を結びつけているモデルでは、例えばりんごの「形」や「大きさ」といった特徴を取り入れて生成することも出来るようになるでしょう。

これが音声や動画でも今のChatGPTの言語能力と遜色ないレベルの学習ができれば、「りんご」のような名詞だけでなく、動詞や形容詞についても、その特徴を正しく解釈するようになると思います。

そうしてより複合的に1つの概念を学習するようになれば、「物事を多角的に理解している」と言える代物が誕生することになります。ひとつの単語に対して、視覚や聴覚など、多角的に理解すればするほど、それについてAIが言及しようとした時には様々な角度から矛盾を排除することが可能になり、嘘や間違いを減らすことができると考えられます。

言語、映像、音声、これらのマルチモーダル化が完了したモデルを目にした時、『AIはついに“意味を理解”するようになった』と感じるのでは無いでしょうか。


トップダウン型AIの限界


さて、マルチモーダルによってほとんどAGIは実現できる可能性が見えてきました。しかし、それでも真のAGIには、まだ届かない明確な点があります。

ここで、ソードアート・オンラインに学んでみましょう。SAOの作中では、AIの学習方法について菊岡の言及があります。

人工知能の開発には2つのアプローチがある。1つがトップダウン型。これはプログラムに知識と経験を積ませ、学習によって最終的に本物の知性へと近づけようというものだ。
(中略)
だが、トップダウン型は学習していないことには適切な反応ができない。つまり、現状では真に知能と呼べるレベルには達していないんだ。そして次にボトムアップ型人工知能。これは人間の脳、脳細胞が一千億個連結された生体器官の構造そのものを人工的に再現し、そこに知性を発生させようという考え方だ。

ソードアート・オンライン アリシゼーション (アニメ→第6話)

SAOのユイとアリスは、それぞれ作中ではトップダウン型、ボトムアップ型とされていて、上記の通りAIの学習方法に違いがあるようです。その結果、菊岡の説明では『知性に差がある』としています。しかし、仮にそれぞれと相対して会話でもしたならば、どちらも汎用人工知能として十分すぎる振る舞いができていて、大きな差はないようにも見えます。

作中では、ボトムアップ型AIを開発する目的として以下のように言及されています。

ひとつの重大な問題に気がついた。公理協会と呼ばれる行政機関が禁忌目録という法律を作り上げたんだ。そこには例えば、現実世界と同様に殺人を禁じる一項もあった。だが、人間がいかにその法を守らないかは毎日のニュースを見ていればわかるだろう。ところがフラクトライト(ここではボトムアップ型AIのモデルを指す)たちは法を守る。守りすぎるほどにね。この街は美しく整いすぎている。道にはゴミひとつなく、泥棒は一人もおらず、当然殺人事件など一度たりとも起きたことはない。
(中略)
目的は、人を殺せるAIを作ること。

ソードアート・オンライン アリシゼーション (アニメ→第6話)

実在しているAIモデルについて考えてみると、基本的にはほぼすべてがトップダウン型と言えますが、しっかりと嘘はつくし、危険な発言をしやすいです。(むしろChatGPTでは、OpenAIがAIに危険な発言をさせないために制御する必要さえあります。)

しかし、これについてはマルチモーダル化によって『様々なタスクをこなせ、言葉の意味を認識し、嘘をつくこともほとんどなくなる』可能性が高いという話は前章でしました。

ということは、マルチモーダル化が実現できた時点で、トップダウン型だろうがボトムアップ型だろうが、「AGIは真に誕生した」「シンギュラリティは訪れた」と言えそうにも思います。

しかし、実在のトップダウン型AIでは実現出来ない人間の能力が1つあります。

それは、「クリエイティブ性」です。

「いやいや、絵を作ったり音楽を作ったり、創作能力はすでに多くの人間を超えているじゃん」と思われるかもしれません。たしかに、すでにレベルの高い物が作り出されていて、その道のプロを脅かす存在になっているように見えます。

しかし、それはここでいう「クリエイティブ」とは少し違います。
ここでのクリエイティブとは、自ら「未知のアイデア」を作ることです。例えばこの世にまだ存在しない画風を発明するなど。

プロンプトエンジニアリングによってある程度斬新なアイデアを作らせることはできますし、それをプログラム(API)を介して自動化するといったことは簡単にできますが、それでは根本的な解決になっていません。その方法で出力されるのは、あくまで「ルールに則った不規則性」であり、AIが完全に自律して、何かを発明できるわけではありません。

なぜ自律的に斬新なアイデアを生み出すことが出来ないのか。それは、今のAIが「もっともそれらしい(データ上最頻の)答えを応答せよ」というルールに従って学習されているからです。

つまり、初めから無難な応答をすることしか出来ない作りになっているということです。

プロンプトエンジニアリングというのは、この応答の範囲を条件によって絞ってあげることで、目的の応答を引き出すためのテクニックです。条件を絞っても、その範囲の中でやはり最も無難な応答を生成します。

そのため、現行のChatGPTやMidjourny、StableDiffusionを使えば、「ブログの執筆」や「イラストを作成」というタスクにおいて、プロに置き換わるなどと言われていますが、いくらプロンプトを最適化しようとも、『過去に人間が作ったものを無難につなぎ合わせたようなクオリティ』しか出せません。トップダウン型AIがいくら進化しようとも、決して世の中に新しい流行を産むことは無いと言えます。

したがって、結局はトップダウン型AIがマルチモーダルになって進化しようとも、あくまで「嘘や間違いを減らしつつも、同じようなコンテンツを量産するだけの機械」というポジション以上にはなりません。(様々なコンテンツを量産できるだけで十分凄いことではありますが。。)

菊岡の言う、『トップダウン型は学習していないことには適切な反応ができない。つまり、現状では真に知能と呼べるレベルには達していないんだ。』というのは、このように「人間に完全にとって代わる存在には成り得ない」ということを意味しているのかもしれません。


ChatGPTは、ユイになれてもアリスにはなれない

ChatGPTはトップダウン型AIです。マルチモーダル化によって嘘がほとんど減り、「AIが“意味理解”をするようになった」と感じられるほどの存在になる可能性は十分ありえます。ここまでくればVtuber的なモデルでも用意すればユイの完成です。

しかし、この過程で完成したAIが感情のようなものを見せた時、それは感情といえるのでしょうか。人間が見せる多くの感情を音声や映像から学習し、「もっともそれらしい(データ上最頻の)感情を応答」しただけかもしれません。この状態を、ユイは自身で「偽物」と表現したのかもしれません。

また、前章の通り、トップダウン型ではAIが自ら発明をするということは出来ません。その意味で、本当に人間が完全置換されるような真のAGIやシンギュラリティは、今のAIの仕組みでは実現できないと言えます。

では、どうしたら実現できそうでしょうか?

ここからは個人的な憶測で話を進めますが、その答えは、やはり「アリシゼーション 」に隠されていると考えています。

人類がどのように世界を認識し、発明と進化を繰り返せすことが出来ているのか。その全ては「種の維持」に帰着すると思われます。これはニューラルネットワーク的な考え方に基づいています。

種の維持のために、三大欲求というものが必要、そのうち食欲を満たすためには食べ物の認識が必要、そのうち穀物を効率よく手に入れるためには農作が必要、農作の効率化のために機械が必要・・・。

このように今存在している人間は、人類以前の(まだ微生物だった頃くらいの)時代から、最終目的「種の維持」を達成するために、「親目的」に付随する「子目的」を無数に作成しながら、世界を認識し、発明を繰り返してきました。感情も「目的の達成度」に対する単なる『損失関数』と言えるのではないでしょうか。

生物も所詮は、種の維持という「フレーム問題」を抱えながらも、付随する目的を自ら作成しているに過ぎない存在なのだと思います。

このシンプルな構造だけ見れば、さながらニューラルネットワークのマルチパーセプトロンをベースにしても十分実現出来そうなことです。

であれば、現行のAIでも、既に構造自体は充分AGIに近づいており、しかしながら現存するAIモデルは生物の歴史を体験していないために、AGIになれないのだとも考えられます。つまり、AGIの実現に必要なことは「生物の歴史をいかにAIモデルにインストールするか」という1つの問題に収束できそうです。

この仮説に従えば、アリシゼーション 計画の「シミュレーション環境上で生物を育てる」というのは合理的です。

作中では「新生児の魂をコピーして育てる」という話でしたが、一から生物の歴史をシミュレーションするにしても、途中から歴史を始めるにしても、とにかくは生物の歴史を持った存在が、AIモデルの内部に学習されない限りは、「真のAGI」や「シンギュラリティ」の実現は難しいのかもしれません。

もし、種の存続を最終目的としたAIが誕生すれば、その時は種のために人間滅ぼしたりもあり得るかもしれません。逆に、トップダウン型AIである限り、人類を滅ぼすことはないということですね。あくまで人間はAIに使われる側ではなく使う側という状況は、今後も続きそうです。

結論として、現行のChatGPTがこのまま順当に進化し、高精度のマルチモーダル化が実現すれば、ユイと同等レベルの「世界を認識し、感情を持っているように見える、ほぼ完璧な人工知能」の実現は、さほど遠い未来ではないと思います。

ということで、気楽にユイの実現を楽しみに待つことにしましょう。


おわりに

本記事で紹介しきれなかったChatGPTについての検証などを、普段Youtubeで発信してます。よければご覧いただけると幸いです。

この記事が気に入ったらサポートをしてみませんか?