見出し画像

AIの線引きが変わる日

眠剤を飲んでも寝つけないのでこれを書いています。朝から会議です。

どこからどこまでがAIなのだろうか

AIに関して、本当に日進月歩で新手法やサービスが出てくる。すごい。そんななかで、僕らは今あれもこれもAIと呼んでいるけど、AIと呼ばれるものの範囲がこの勢いで広がっていることを考えると、実際のところもう一部のものはAIとは呼べなくなってくるんじゃないか。
そしてその代表例は画像生成なんじゃないかと思う。

今の世の中において、AIをAIたらしめる要素は生成性(generativity)だと考えている。
いわゆる生成モデルは、Diffusionモデルが広く認知されるよりもう少し前、変分オートエンコーダー(Variational Autoencoder, VAE)や敵対的生成ネットワーク(Generative Adversarial Networks, GAN)あたりから流行り始めた印象があって、そして同時にそのあたりから画像をいじる機能なんかがAIと呼ばれるようになってきた印象がある。

しかし現実をみると、今のDiffusionモデルにしても(いくらLoRAとかで縛りを入れたところで)基本的には獲得した特徴量を組み合わせた平均的な結果(平均的とは表現したけど平均である必要性はなく、中央値でも外れ値でも乱数値でもいい)を出力しているようなものなので、それは別段AIではないのではないか。というか、扱っているのが画像なだけで、ごく基本的な統計学的振る舞いなのではないかとすら思う。
僕らはシュンペーターの新結合にイノベーションの夢を見て、そしてAIにより一旦その夢が危うくなった。しかし、確かに特徴抽出により自動的に特徴量を獲得して、それらを自由に組み合わせられるようになったかもしれないが、それが知能であるとみんな本気で思っているのだろうか。

僕は数年前、twitterにて「セフィロスがトイレに浸かっている画像」を延々と生成し続ける人を見たあの瞬間から、生成性それ自体は決して知能ではないと今もなお信じ続けていて、動画が自動で生成できることも同様に、いわゆる「発想の勝利」に辿り着いて初めてgenerativityがcreativityに変化するものだと考えている。
代表例は本当にこれ。

だから、芸人さんとかもっと生成AI使いまくればいいのにね。もったいないよ。変なネタ書かせて安心してないでもっと異次元の世界観とか作ってくれればいいのに。表現の幅が信じられないくらい広がったわけで。

そんな感じで画像生成は別にAIではないのではないかということを考えていたわけだけれど、もっというと生成モデル全般において、単一の生成能のみをもってAIと呼ばせるようなものは今後広く同様の扱いを受けるようになる気がしているんですよね。
たとえば、与えられたテキストを非常に現実味あふれる声で読み上げてくれる音声生成AIとか、逆に発話者を識別しながら複数人の会話を文字起こしするAIとか、あるいは僕がやっているような消費者の行動を予測するモデルの開発とか。それはなんかこう、確かにニューラルネットワークを使った生成モデルではあるにしても、人工知能かどうかは正直微妙じゃないですか。AI搭載の文字起こしアプリなんていったって、その中に"人間のようなもの"がいてその人が文字起こししているわけでは当然なくて、文字起こし専用のニューラルネットワークが動いているだけの"単能"のアプリなわけですよ。専門用語でいうと特化型AIなんですけど、つまり単一タスクへの特化型AIはもうAIとは呼ばれなくなるんじゃないかって話です。
DJ業界でいうと、PCでDJする高度な技術が発展しすぎて、もはやCDでやるDJまでレコードと同じように「アナログDJ」って呼ばれるようになったのと似てません?似てないか。

では何がAIなのか

これは単純明快、エージェントですね。つまり自律性(autonomy)です。先でいうところの"人間のようなもの”の存在。入出力の有無に関わらず連続的に存在する意識のようななにか。それが各種の能力を選択的に駆使して目的を達成すること。

もちろんエージェントにも随分古いルールベースのシンプルなモデルが多数あるので、エージェントであることをもって直ちにAIなわけではないのだけれど、たとえばLLMの言語能力をベースに、視覚などをマルチモーダルに処理して動作できる自律的なエージェントモデルがあれば(というかもちろんもうあるんだけど)、それは、今の僕の感覚に沿うときっとAIだろうと思う。

それ自体は初めてMixture-of-Experts (MoE) の論文を読んだときに思ったことなのでだいぶ前の話だったりするのだけれど。MoEは今のLLMベースのチャットサービスにも搭載されているって話で(僕は商用サービスにはあまり興味がないが、NVIDIAの『LLM アーキテクチャにおける Mixture of Experts の適用』によればGPT-4には乗ってるらしい)、LLMにMoEが乗っかった状態を非常に簡単に説明すると、異なる能力をもった複数の特化型AIを内部に保持したLLMって感じですかね。文章を要約する能力、プログラムを書く能力、与えられた画像に写っているものを判別する能力…そういうものの全部あるいは一部を使って与えられたタスクをこなすことによってタスクの遂行能力が上がるという話。

正直、僕は現状のChatGPTでも頑張れば自分専用の秘書ぐらいにはできると思っているんだけど、それはさすがにもう完全にAIじゃん。秘書とのコミュニケーションが文字なのか音声なのかわからないけどそれはどうだっていいこと。どちらかというと、言語能を使って他のタスクのinstructionを作る能力が必要で、これは結果的にやってることはMoEにかなり近い。Mixtureによる汎用性とLLMによる自律性が組み合わさるところがとりあえずの"AI"なんじゃないかなー。

っていう話の例をChatGPTに書いてもらったけど気に入らなかったので書き直す。

例として音楽生成AIを挙げると、入力した要望に従ってこれまでに学習してきた要素を自由に組み合わせた楽曲を作ることができる。これは現状の定義に照らし合わせれば確かに特化型かつ生成性をもつAIではある。ただ、そこにはトレンドに乗せた曲を作るとか、逆に独自のスタイルを持つ曲を作るといった"意図"は含まれていない。意図なき生成を知能と呼ぶべきかが微妙ってハナシ。
でも、この音楽生成AIを含む複数の特化型AIを操作できる自律的なLLMがあるとすれば、そこで初めて"意図を伴う制作"が発生する。厳密には違う話になるけど、僕は1年半ぐらい前に、音楽に関連するキーワードをランダムに組み合わせた文章を100個ChatGPTに作らせて、それらの文章を元に100個の楽曲を生成した。このプロセスにおいて、音楽生成AIがそれ自体でAIの体をなしているとは到底言いがたいじゃないですか。
だからこそ、特化型AIが持つ生成性を自律的なLLMが操作する形でエージェントが成立すれば、それがAIになるんじゃないかと思うんだよねえ。

なんか、結局「生成性と創造性は違う」みたいな目新しくもなんともない話に落ち着いてしまったような気がする…元々のテーマは「特化型AIはAIとは呼ばれなくなる」のはずだったんだけど。これ(https://wired.jp/article/sz-series-nao-tokui-a-continuation-of-computational-creativity-and-beyond-1/)とかに近い。

そんな感じで

7年前、Amazon Echoでホームオートメーションを組み上げたものの、家に招いた友人たちが、Alexaに話しかけて気の利いた言葉が返ってくることにいちいちAIだなんだのと騒ぎ立てることに僕は本当に嫌気がさしていた。けれどもそこから7年経ったいま、リビングのEcho Plusも寝室のEcho Show 5も明らかに反応が悪くなっていて(頼んでも寝る準備をしてくれなかったりする)、それはそれで少しもの寂しいのでありました。

この記事が気に入ったらサポートをしてみませんか?