生成AIは「学習」しているか?

Glazeという、生成AIによる学習を阻害するようなノイズを画像に加えるアプリケーションがあるのですが、「Glazeを掛けただけで学習できなくなるのは生成AIが人と同じ学習をしていない証拠である。人間はGlazeがかかっていても学習できるからだ」、という意見があり、こちらについて、それは間違っている、というのがこのノートの趣旨です。

論点1:そもそも「人と同じ学習」であるかどうかは問題か?

この場合、「特に区別する理由もない以上、人の学習と機械の学習は同じに扱われる」、という話がされているのであって、「機械の学習が人の学習と同じである」という主張はそもそも含まれていないのですよね。話が最初からずれている。法で権利侵害を裁く際に、どちらの方法で学習したかを別に扱う理由があるのか。人とAIで学習の機構に違いがあるとして、その違いが権利や法を考える上での扱いを変える必要性を示すのかどうか、というのが重要で、そこが特にないなら無視してよい違いに過ぎない。
HDMIケーブルが繋がって画面が映るなら、液晶モニタだろうがプラズマディスプレイだろうがブラウン管だろうが、映る原理・機構は全部違いますが、それらはHDMIモニタですよね?

論点2:生成AIは「学習」しているか? 科学はそれをこれまでどう考えてきたか?

チューリングテストという概念が、人工知能に関する古典的な論文において1950年には提唱されています。73年前ですかね。

この論文、僕は大学四回生の時に読んだのですが、細かい文言までは覚えていませんが、要約すると、例えば、人工の知能を定義する上で、人と同じ素子で人と同じ機構でやる必要はない、とされています。そこを条件にしてしまうと、とどのつまり、ヒトのオスとヒトのメスを用意して十月十日待てばよい、ということになっちゃいますからね(と、論文に書いてある)。

チューリングテストにおいては、コンピュータの知能と人の知能を比べるのに関係のない要素を実験に含んでしまわないように、入出力を文字に限り、音声認識や音声主力の程度で見抜けないようにします。それらはここで問題にしている知能の有無とは関係ないからです。Glazeはこの切り捨てられる入力の違いに過ぎない。
Glazeを使うことを否定はしませんが、科学的には、あれはおよそ生成AIのなんの本質を示すでもない非本質的な小手先の時間稼ぎだとしか思えません。(実際すぐに対応されてしまいましたね)。チューリングの頃には無理でしたが今では音声認識や音声合成も随分向上したので、入出力は音声でもできるかもしれませんね。

先述しましたが、Glaze外しはもうあります。それはまあ作れるでしょう。元々学習する前に学習素材はリサイズされたりフィルタが掛けられますので、そこにGlaze外しを入れたらいいだけです。その場合、Glaze外しを取り込んだ系(システム)全体が学習するかどうかが論点です(中国語の部屋の議論でほぼ同じようなことが言われています)

人間は50億どころではないデータを何十年もかけて学習しています。人間の視覚だって入力データから学習して獲得するものです。ものが逆さまに見える眼鏡をかけても一週間ほどで意識できなくなり、外したら今度は違和感が出る、という実験があります。Glazeは、科学的にはたかだか、生成AIに逆さ眼鏡をかけさせただけではないでしょうか?

そもそも、Glazeを外してるのも結局プログラムです。プロセスかスレッドかタスクかはともかく、現代の大半のアプリケーションは、複数のアルゴリズムが連携して一つのアプリケーションを構成しています。その場合アプリケーションの機能や評価はその系全体に対して行うのが普通です(中国語の部屋の思考実験でされているのはこういう議論ですね)

1950年には確立していた知能とはなんぞやという議論が、今こういう形で再注目されてるのはなかなか興味深いといえば興味深いですが、僕らにしてみればこれは70年以上前に通過した議論ですね。

エンジニアで、Glazeをその場しのぎ以上に本質的に生成AIの限界を提示する重要な技術だと思ってる方はそうおられないのではないでしょうか。多分当の開発者だってそんなふうには思ってないでしょう。今その場のしばらくの間の需要を満たすコードを書いているのです。もちろんそれは立派な仕事です。

私がGlazeに寄せられてる期待について聞かされたときの反応は「あーうん……まあやってみる分には色々やったらいいとは思いますよ(一時しのぎであんま意味ないと思うけど)」でした(括弧の中は言葉にしない)。まあそんなところだと思いますよ。情報工学徒の平均的な回答は。

この記事が気に入ったらサポートをしてみませんか?