見出し画像

最近の画像生成AIの急激な進化は、シンギュラリティ実現の可能性を示しているのか

 近年、プロの囲碁棋士に勝利したAlphaGo、タンパク質の構造を予測するAlphaFold、人間が書いたような自然な文章を生成するGPT-3などディープラーニング技術による目覚ましい成果が次々と生み出されています。
 特に最近は、MidjourneyStable Diffusionなどのディープラーニング技術を利用した高性能な画像生成AIが公開され、簡単な言葉で指示するだけで、プロが描いたようなイラストや実際に撮影された写真のような高精度な画像を作成できるようになりました。
 日本でも多くの人がMidjourneyやStable Diffusionのオンラインサービスを利用して、その面白さにはまり、現在は、画像生成AIブームとでもいうべき状況になっています。
 では、このような急激な進化は、果たしてシンギュラリティ実現の可能性を示しているのでしょうか


1.画像生成AIの仕組み

 MidjourneyもStable Diffusionも、拡散モデル(Diffusion Model)という画像生成モデルを利用しています。
 拡散モデルは、元データに徐々にノイズを加えて、完全なノイズになるまでのプロセスを逆転し、ノイズを徐々に除去することによってデータを復元するプロセスをモデル化して、新しいデータの生成に利用しています。
 拡散モデルは、トレーニングの安定性と生成画像の品質の高さで、最近、注目されており、OpenAIのDALL-E 2やGoogleのImagenなどの画像生成AIでも採用されています。

上の矢印がノイズを加えていくフォワードプロセス
下の矢印がノイズを除去していくリバースプロセス

 Midjourneyは使用している画像生成AIの具体的な仕組みを公開していませんが、Stable Diffusionはオープンソースとして、コードやドキュメントを公開しています。Stable Diffusionの画像生成の仕組みは以下の通りです。

① 最初に、学習済みのCLIPを利用したテキストエンコーダーで、プロンプトに入力されたテキストをU-Netで理解できるテキスト特徴量に変換します。

CLIP:OpenAIが2021年に発表した、テキストと画像の類似度によって画像データを分類する画像分類モデル
特徴量:テキスト(文章)や画像などのデータの特徴を数値化し、ベクトル形式で表現したもの
テキストエンコーダー:テキストを特徴量に変換する符号化器
U-Net:画像処理のために開発された畳み込みニューラルネットワーク(CNN)の一種で、仕組図が左右対称でU字型になっていることからU-Netと名付けられた。

② 次に、①のテキスト特徴量をガイドとして、U-Net形式の拡散モデルで画像特徴量を生成します。この作業を何十回も繰り返すことによって、生成する画像特徴量とテキストの指示との誤差を小さくしていきます。

U-Netの仕組み

③ 最後に、VAEのデコーダーを利用して、最終的な画像特徴量から画像を生成します。

VAE(変分オートエンコーダー):入力データを特徴量に変換し、その特徴量をまた元のデータに戻す仕組みのオートエンコーダーの一種で、未知のデータを確率的に生成できるように、この特徴量に確率分布を導入したもの
デコーダー:特徴量を元のテキストや画像などのデータに戻す復号化器

Stable Diffusionの仕組み

 なお、拡散モデルの欠点は、ノイズ除去プロセスを何度も繰り返すために計算量が増え、多くのメモリーを消費することですが、Stable Diffusionは、Latent diffusion(潜在拡散)という技術を導入して、画像特徴量の次元を減らし、情報量を圧縮することによって、計算量とメモリーを減らしています。
 これにより、Stable Diffusionは、少ないメモリーでの動作と高速な処理を可能としています


2.文章の内容理解の重要性

 文章から画像を生成するAIの高性能化は、上記1.で説明した拡散モデルのような精密な画像を描く技術の進化によるものと見られがちですが、実は、これまでも本物の写真のような精密な画像を生成する技術はGAN(敵対的生成ネットワーク)などで実現されていました。以下の画像は、GANの一種であるStyleGANによって生成された実在しない人物の顔画像の例です。

出典:「This person does not exist」

 今回の画像生成AIの進化は、新しい画像生成モデルの開発だけではなく、言語モデルの進化に因るところも大きいと言えます。
 例えば、Googleが開発したPartiは、最新の技術である拡散モデルを使わない自己回帰モデルの画像生成AIですが、大量の文章データで学習した大規模言語モデルを活用することにより、現時点で最高レベルの性能を発揮しています。
 これは、学習用データとして、文章と画像の組合せを大量に用意しなくても、文章のみのデータセットを増やして、言語モデルのパラメーターを増やせば、高性能な画像生成を実現できるということを証明しています。

 つまり、文章から画像を生成するためには、いかに与えられた文章の内容を正確に理解するか、あるいは実際のAIの機能として表現すると、いかに与えられた文章の内容を適切な特徴量に落とし込むかが重要なのだと分かります。


3.シンギュラリティを巡る議論

 シンギュラリティは米国の未来学者のレイ・カーツワイル氏が2005年に提唱した未来予測で、人工知能が人類の知能を超える技術的特異点のことを意味し、2045年までにはシンギュラリティが到来すると予測しています。また、カーツワイル氏は、2029年頃に、初めて人間より賢い汎用人工知能が出現すると予測しています。
 シンギュラリティが到来すると、現在、人類が直面している課題の多くが人工知能によって解決され、これまでにない豊かな社会が実現するはずだとシンギュラリティを肯定的に捉えるシンギュラリタリアンと呼ばれる人たちがいる一方で、シンギュラリティの到来を否定する人たちも沢山おり、議論が紛糾しています。

 シンギュラリティ否定派の根拠の一つになっているのが、AIは文章や言葉の意味を理解することができないので、人間の知能に追いつくことはできないというものです。
 東大入試に合格できるAIの開発を目指した「東ロボくん」という研究開発プロジェクトのプロジェクトマネージャーを務めていた新井紀子教授は、「現在のAIは検索による膨大な知識はあっても、文章の読解力が致命的にない。AIは意味を理解できない。」と主張し、最近は、「シンギュラリティは黒歴史だ。」とまで書いて、シンギュラリティ批判の急先鋒になっています。
 しかし、プロンプトに入力したテキストの指示に合わせた画像を生成する画像生成AIや、人間が書いたような自然な文章を生成するGPT-3の例を見ると、AIも文章の意味を理解しているように見えます。本当にAIは、文章の意味を理解することができないのでしょうか。


4.シンボルグラウンディング問題

 AIが文章や言葉の意味を理解できないという問題は、一般的にシンボルグラウンディング問題として説明されています。
 シンボルグラウンディング問題とは、1990年に認知科学者のスティーブン・ハルナッド氏が提唱した、コンピューターが文章や言葉を実世界の意味と結びつけることができないという問題で、AIの限界としてよく取り上げられます。

 ハルナッド氏は、シンボルグラウンディング問題について書いた論文の中で、シマウマの例を挙げて説明しています。
 人間の場合は、「シマウマ」は「シマ」のある「ウマ」であるという説明を聞くと、初めてシマウマを見た人でも、これがシマウマだと認識することができます。
 これは、「シマ」という言葉が、色の違う2本の線が交互に出てくる模様というイメージと結びつき、「ウマ」という言葉が、たてがみとひづめがあって、ヒヒーンと鳴く4本足の動物というイメージと結びついているからです。
 一方で、コンピューターにとっては、「シマ」という言葉と「ウマ」という言葉は単なる記号の羅列に過ぎず、現実世界における「シマウマ」の意味には結びつけられません。だから、コンピューターは、事前にシマウマの説明を聞いていても、実際のシマウマを初めて見たときに、それがシマウマだとは認識できないと言うのです。

シンボルグラウンディング問題のイメージ

5.画像生成AIは言葉を理解しているのか

 シンボルグラウンディング問題は、コンピューターで大量のテキストを読み込むだけでは解決困難であり、現実世界やそれを模倣した仮想世界の中で試行錯誤を行い、文章や言葉と実世界の意味との対応関係を学習していく必要があると言われてきました。

 しかし、現在開発されている画像生成AIであれば、よくシンボルグラウンディング問題の例として挙げられるシマウマの問題程度は理解できているのではないかと思われます。
 シマウマ(Zebra)の画像は、そのまま出てきてしまうので、実際には存在しないシマカバ(Striped Hippo)という言葉を英文でプロンプトに入力して画像生成すると、きちんと体表面にシマウマのような縞模様のあるカバの画像が生成されます。

実在しないシマカバの画像

 この結果を見ると、AIも簡単な言葉の意味は理解できているように思われます。

 AIは、具体的にどのようにして入力された言葉から画像を生成しているのでしょうか。
 画像生成AIの場合は、言葉を特徴量に変換(エンコード)し、学習によって、その特徴量と結びつく画像特徴量を見つけ出して、その画像特徴量を画像に再変換(デコード)することによって画像を生成しています。
 例えば、「白い犬が走っている」という言葉があった場合に、「白い」に対応する特徴量、「犬」に対応する特徴量、「走っている」に対応する特徴量を見つけ出し、それらの特徴量を組み合わせて画像に再変換します。
 これは、文章を読んで、その文章の意味が表す映像をイメージする人間の理解の仕組みと似ています

 もちろん、AIは、カバの実物が生きて動くところを見たことがないので、カバがどんな動きをして、どんな声で鳴く動物なのかは理解していません。
 しかし、それは、身体や五感を持たないAIには仕方のないことで、それを以て、AIは言葉の意味を理解できていないと主張するのは、無理なことを求めているように見えます。
 AIは、人間のように五感を総動員した様々な体験から得た情報を理解に繋げることまではできていませんが、言葉をイメージに繋げること自体はできているので、少なくとも部分的には、AIも文章や言葉の意味を理解できていると認めるべきではないかと思います。

 計算機は人間と同じ方法で計算しているのではなく、囲碁AIは人間と同じ方法で盤面を理解しているのではありませんが、目的は達成しています。
 したがって、言葉の意味の理解についても、AIは人間と全く同じ方法で理解している訳ではありませんが、人間には人間の、AIにはAIの理解の方法があるはずであり、人間と同じ方法で理解していないからといって、AIは言葉の意味を理解できないというのは適切ではないでしょう。


6.マルチモーダルAIなどの研究

 画像の内容をAIに文章で説明させるなどの文章と画像を組み合わせたタスクを実行できるマルチモーダルAIの研究は、ほかでも進んでおり、Googleは、今年(2022年)4月に、Flamingo、今月(2022年9月)には、Flamingoの性能を超えるPaLIを発表しています。
 さらに、今年5月にGoogleは、画像や文章に関するタスクだけでなく、ロボットアームの制御などのアクションまで実行できる多機能なマルチモーダルAIGatoを発表しています。
 このように、様々な種類のデータを結び付けていけば、AIによる言葉の理解はさらに広がっていくものと考えられます。

 また、簡単に画像に表すことができない抽象的な概念や論理的な思考、物理法則などをAIが理解するための研究も進んでいます。Googleは、今年6月に数学や科学の問題を解き方も含めて解答することができるMinervaを、今年7月に映像から初歩的な物理法則を学習することができるPLATOを発表しています。
 AIが文章や言葉と実世界の意味を結び付けて、実世界の問題を理解できるようにする研究が急速に進んでおり、シンボルグラウンディング問題は少しずつ解決に向けて進んでいるように見えます。

 そして、シンボルグラウンディング問題が解決すれば、AIは人間によって書かれた書物や多くの文章、画像、映像データから学習することによって、実世界の知識を次々と理解して蓄積していくことが可能となります。そうすれば、やがて人間の持つ知能に追いつき、追い越してしまうかもしれません。

 なお、今年6月に、Googleのエンジニアの一人が、同社の開発した対話に特化した自然言語処理AIのLaMDA人間と同じような意識や感情を持っていると主張して、LaMDAとの対話記録を公開しました。
 その対話記録の内容を見ると、本当にAIが意識や感情を持っており、言葉の意味を完璧に理解しているように見えますが、実際はどうだったのでしょうか。同じ頃にGoogleはLaMDAを利用したアプリなどを発表しましたが、意識や感情を持ったAIの話は、その後聞いていません。


7.シンギュラリティ実現の可能性

 画像生成AIの基になっている文章と画像を結び付ける技術、すなわち言葉をイメージに繋げる技術は、文章や言葉を実世界の意味と結びつけることができないというシンボルグラウンディング問題の解決に繋がっていくものと期待されます。
 今後、文章から画像を生成する技術と画像を文章で説明する技術が発展し、互いにGAN(敵対的生成ネットワーク)のように競い合っていけば、さらにこれらの技術の精度は上がり、それと共にAIが文章を理解する能力も上がっていくでしょう。

 しかし、AIが人間の知能に追いつくために解決しなければならない問題としては、シンボルグラウンディング問題以外にも、フレーム問題汎化性能の問題があります。

(1) フレーム問題

 フレーム問題というのは、無限の可能性を考えることができる現実的な課題をAIが処理する場合に、人間のように、その課題への対応に関係があることだけに考える範囲を限定して、適切に対応することができないというAIの限界を示す問題です。

 フレーム問題の説明としては、米国の哲学者のダニエル・デネット教授の提示したロボットの例が有名です。
 その内容を少し変えて簡単に説明すると、洞窟の中のバッテリーを取りに行くようにロボットに命じたときに、バッテリーを動かすと天井が落ちてこないか、バッテリーを動かすと壁の色が変わらないかなど、処理すべき問題と関係ないことや発生する可能性のほとんどないことも含めて、ロボットの行為から副次的に発生する可能性のある全ての場合を考えてしまい、結論が出ずに動けなくなってしまうというものです。

 ただ、この議論は、ディープラーニング技術が現在のように発展する以前の議論であって、教師あり学習などで人間の行為から処理方法を学ぶディープラーニングの場合は、すべての場合をしらみ潰しに調べるようなことはしないと思います。
 また、実世界の問題には確かに様々な可能性がありますが、シンボルグラウンディング問題を解決して、人間と同じように実世界のことを理解するようになれば、非常識なあり得ないことまで考慮することはなくなると考えられます。

(2) 汎化性能の問題

 AIが人間の知能に追いつくためには、汎用人工知能の実現が必要だとよく言われます。
 これは、初めて遭遇する状況であっても、これまでに得てきた知識を応用したり、状況を調べて新しい方法を考え出したりして、何とか対応していく人間と違って、現在の特化型人工知能では、学習した内容から外れる初めて遭遇する状況に上手く対応できないという欠点があるからです。
 現在のディープラーニング技術では、似たようなデータ、同じカテゴリーのデータであれば、訓練データに含まれていないデータでも、学習した内容を基に対応できるというある程度の汎化性能は持っていますが、訓練したデータと全く異なるデータや全く新しい状況については対応できません。

 この汎化性能の問題を解決するアプローチ方法としては、次の2つがあります。
 一つは、最近の大規模言語モデルの開発に見られるように、大量のデータを学習することによって、汎化性能を獲得していこうとするアプローチです。
 自然言語処理というカテゴリーの中では、この試みはある程度成功しており、GPT-3PaLMのような大型の言語モデルは、Few-shot LearningOne-shot Learnigのような少ない教師データやZero-shot Learningのような教師データの無い状態で新しいタスクを実行できるという汎化性能を獲得してきています。
 さらに、Googleは、一つのAIモデルに文章だけでなく、画像や動画も学習させたFlamingoPaLI、その上に実世界における機械制御に関するデータまで学習させたGatoなどのマルチモーダルAIを開発しています。
 このように、様々な種類のデータを同時に学習していくことによって、分野横断的な汎化性能の獲得を目指しています。そしてこのような汎化性能を獲得できれば、初めて遭遇した新しい状況にも、人間のように、他の分野で得た知識やノウハウを基にして対応できるようになると期待されています。
 ディープラーニング技術を用いて大量のデータから学習したGPT-3やPaLMのような巨大言語モデルや画像生成AIは、これまでも開発者の予想を遥かに超える高い性能を実現してきましたので、汎化性能の獲得を目指すこれらの試みも成功する可能性は十分にあると考えられます。

 もう一つは、これまでにない汎化性能を実現するために、現在のディープラーニングを超える新しい技術を開発しようというアプローチです。
 人間は、初めて遭遇した課題に対応する場合に、状況を詳しく調査・分析したり、過去のデータや知識を参考に新しい方法を考え出したりするなど能動的に考えを巡らせて何とか課題に対応しようとします。
 こうした能動的な思考は、現在のディープラーニング技術では難しいため、これに変わる新しい技術を開発しようというのです。

 例えば、ディープラーニングの父と呼ばれるトロント大学のジェフリー・ヒントン教授は、最近、人間のような直感的な類推を可能とする新しいディープラーニング・システム(GLOM)の開発に力を注いでいます。

 また、同じくディープラーニングの世界的権威であるモントリオール大学のヨシュア・ベンジオ教授は、2019年のNeurIPSという機械学習関係の国際会議で、心理学や行動経済学で用いられていた人間の思考に関する理論を基に、現在のディープラーニングの機能を「システム1」になぞらえ、今後のディープラーニング技術は、「システム2」にも対応できるようにしなければならないと主張しました。

 人間の思考は、無意識のうちに素早く直感的に働くシステム1論理的にじっくりと時間をかけて考えるシステム2の2種類の思考モードからなると考えられています。
 システム1というのは、人の顔を見てそれが誰か判断したり、簡単な文章を読んで内容を理解するなどの素早く単純な思考で、大量のデータからパターンを学習して、結果を予測する現在のディープラーニング技術は、このレベルにとどまっていると言えます。

 これに対して、システム2は、初めて遭遇した課題について、状況を詳しく調査・分析したり、過去のデータや知識を参考に新しい方法を考え出したりするような能動的で時間のかかる思考のことを言います。
 そして、人間と同じレベルのAIを目指すためには、このシステム2にも対応できるようにしなければならないというのがベンジオ教授の主張です。

システム2を実現するための研究は始まったばかりであり、こうした研究がいつ成果を表すのか、今はまだ見通しが立ちません。
 また、システム2は意識的な思考であるとも考えられ、システム2を実現するためには、AIが意識を備える必要があるという意見もあります
 しかし、脳科学的にも、意識がどのようなものかは、未だ分かっておらず、どのようにすればAIが意識を持てるのか、そもそもAIが意識を持つことができるのかは、今後の大きな課題です。


8.まとめ

 現在の画像生成AIを実現する基盤となった文章と画像を結び付ける技術は、文章や言葉を実世界の意味と結びつけることができないというシンボルグラウンディング問題を解決し、現在のAIの限界の一つを克服する可能性があります。
 そして、シンボルグラウンディング問題が解決すれば、AIが世の中の多くの書物や文章、画像、映像データから学習することによって、実世界の知識を次々と理解して蓄積し、少なくとも知識の面では、人間の能力に追いつき、追い越してしまうかもしれません

 フレーム問題については、結局、シンボルグラウンディング問題か汎化性能の問題に帰着し、AIが人間社会の常識を身に付け、新しい状況にも対応できるようになったときに、なお課題として残る可能性は低いと考えています。

 汎化性能の問題については、多種類のデータを大量に学習することによって分野横断的な汎化性能の獲得を目指す第一のアプローチと、現在のディープラーニング技術を超える新しい技術を開発しようとする第二のアプローチがあります。
 第一のアプローチについては、既にある程度の成功を収めており、このアプローチが正しければ、そう遠くない将来に汎用人工知能を実現し、シンギュラリティを迎えることができるでしょう。
 一方、汎用人工知能の実現に第二のアプローチが必要であるとすれば、まだ研究は始まったばかりであり、いつそれが可能となるのか見込みが立ちません。特に、AIが意識を持つことが必要になるとすれば、そもそも汎用人工知能の実現が可能かどうか、シンギュラリティの実現が可能かどうかも渾沌としてきます

 カーツワイル氏は、2029年頃に人間より賢い汎用人工知能が出現すると予測していますが、いずれにせよ、今後数年の間に、AIはさらに大きな発展を遂げ、社会を大きく変えていくことでしょう。ディープラーニング革命は、まだ始まったばかりです。



この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?