AIが全てを変えた。私たちは危機に直面している。

2024年8月17日 17:16

皆さん、実際に私たちは問題を抱えています。これは以前は話題にしなかった問題でした。なぜなら、その能力が問題になるほどの閾値を超えていないと考えていたからです。しかし、AIコミュニティやその周辺の動向に注目してきた者として、私はこの問題が人々が認識している以上に大きな問題になろうとしていると考えています。それは、超写実的なAI画像の問題です。
人々は以前からこの問題について語ってきましたが、その際には写真がどれほど現実的になるのか、また、どのような問題が実際に起こるのかについて本当に理解していませんでした。多くの人々が以前に指摘していたのは、AI画像がインターネットに氾濫し、超現実的になるだろうということでした。
ここに表示されている画像を見てみると、確かに、これらの画像は超現実的であり、3年前や2年前の誰かに見せれば、「これは本当に素晴らしい、超現実的だ。もはや何が本物で何がAIで生成されたものなのか分からなくなるだろう」と言ったでしょう。ある程度同意できますが、同時に反対もします。その理由を説明しましょう。
私は、Midjourney（AIツール）はリアリズム、おそらく写真リアリズムだと考えています。なぜなら、リアリズムには2種類あり、最近数日の間に私たちは問題のあるタイプのリアリズムに突入したからです。そこでは、本当に何がAIで生成されたものなのか分からなくなります。
Midjourneyの初期、つまり6ヶ月前や3ヶ月前には、このような画像がありました。これはバージョン5で、これらの画像は、私たちが「これはかなりクレイジーだ。もはやこれらのプロフェッショナルな画像がAIで生成されたものかどうか分からなくなる」と思うほどリアルでした。しかし、問題は、これらの画像が商業的に使用できるほどプロフェッショナルに見えることです。
平均的な人はこのような画像を手に入れることができません。フィルムカメラ、ビデオからのスクリーンショット、あるいは実際の写真カメラが必要になります。これが、私がこの問題について話さなかった理由です。なぜなら、これらの画像はあなたのフィードに表示されても、Shutterstock（画像販売サイト）などの基本的なウェブサイトに何百万とある企業イメージのような基本的な画像にしか見えないからです。
しかし、これが問題です。最近、不気味の谷の閾値を超えたオープンソースツールがリリースされました。これらの画像を見ると、「これらの画像がリアルでないとはどういうことですか？超リアルですよ」と思うでしょう。しかし、現在画面で見ているこのリアリズムと、こちらの画像のリアリズムを比較してみてください。これらは全く異なる種類の画像です。
こちらの画像は、いわゆるプロフェッショナルなリアリズムと呼べるもので、スタジオで撮影したように見えます。しかし、このタイプのリアリズム、つまり実際の人が自宅で撮影したように見えるこのリアリズムは、本当に問題があります。どのように呼ぶべきか分かりませんが、このタイプのリアリズムは本当に問題です。なぜなら、この種の画像は、AIで生成されたのか、実際に存在する人物が作成したのかを本当に見分けることができないからです。
ここにも別の画像があります。さらに驚くべき例をお見せしますが、これらの画像は完全にプロフェッショナルには見えません。頬や肌に少し柔らかさがあると主張することもできますが、それはAI生成画像を異常なほど長時間見てきた私のような人にしか分からないでしょう。だからこそ、私たちは本当に問題のある領域に入ったと考えています。
AIの発展を楽しんでいる者として、このようなオープンソースツールがリリースされ、このような画像を得られるようになった今、何が現実で何がAI生成なのかを本当に疑問に思い始めます。その疑問が存在すること自体が、今や本当の懸念事項であり、本当の問題なのです。
もし「2000年代初頭のデジタル写真だけがこのように作れるのか？」と疑問に思うなら、その写真のジャンルは問題ではありません。問題は、iPhoneで撮影したように見える画像も作成できることです。これらの画像は、Flux 1.0 Proで作成され、「2015年頃の退屈なSnapchat写真」というタイトルがついています。
私の例をいくつか後でお見せしますが、最初に見たときはほとんど信じられませんでした。別の動画で話しましたが、これらは完全に超写実的に見えます。もし私がソーシャルメディアを閲覧していてこの画像を見たら、これがAI生成だと示す兆候は全くありません。以前は、ソーシャルメディア上でこの画像を見れば、単に企業イメージか、Midjourneyで作られたものだと思うかもしれませんでした。しかし、これは文字通り10分前に誰かがiPhoneで撮影したように見えます。そして、これがAI生成の女性だという兆候は全くありません。
これは、オンラインで見るものを信じるべきかどうかという問題を引き起こします。この問題をさらに悪化させる他の例もあります。この画像はあまりにもリアルに見えます。色やトーンを見ると、Twitterで誰かと話していたように、リアリズムには完全な違いがあります。
私は、このタイプのリアリズムの方が、こちらのタイプのリアリズムよりもずっと悪いと主張します。なぜなら、これらの画像はセットアップされたように見え、照明が調整され、後処理で編集されたように見えるからです。しかし、この画像は、誰かが私に送ってきたら、様々なことを騙すために使える種類の画像です。
お金を騙し取ったり、危険な状況にいるふりをしたりすることができます。つまり、社会に悪影響を与えるために人々がこれらを使用する方法は無数にあります。そして、このような画像の実際の利点を考えるのに苦労しています。はい、研究のためにオープンソースツールを使用することはできます。もちろん、オープンソースツールが素晴らしいエコシステムを育むという主張もあります。しかし、人々がこのような画像を作成できる写実的な画像の良い使用方法を見つけるのに苦労しています。
もちろん、これはトレーニングデータの副産物かもしれません。トレーニングデータに少数の画像があり、慎重なプロンプトエンジニアリングによってこのような画像が得られるのかもしれません。正直に言うと、これらの画像はデータからある程度厳選されていると認めざるを得ません。しかし、それは本当に重要ではありません。
3年前に、この画像が完全にAI生成されたものだと言われたら、「冗談じゃない、それは完全に不可能だ。AIがそんなに速く進化するはずがない」と言ったでしょう。しかし、今や私たちはこの状況にいます。これらの種類の画像は、AIの生成画像をずっと見ている私でさえ騙されそうなものです。
つまり、何がAI生成で何がそうでないかを認識するのは確実に難しくなるでしょう。この画像も浮上していて、本当に驚くほど超写実的な見た目をしています。本当にこれがAI生成だとは分かりません。
前に言ったように、Midjourneyは本当に滑らかでプロフェッショナルな見た目でしたが、これは文字通りiPhoneで撮影されたように見えます。私はこの画像を全く疑問に思わなかったでしょう。これは、今後誰かのシャツのバッジにあるテキストが意味をなすかどうかをチェックしなければならないのかと思わせます。
私たちが知っている最大のことは、これが最悪の状態だということです。これが画像の最悪の状態であり、開発の速度を見ると、たった2年前には文字通り椅子の上にアボカドがあるような状態でした。そして今や、AIの画像生成は2秒前に撮影されたかのように見えるまでになっています。
ここでは多くのことが議論されていますが、このビデオは全て悲観的なものではありません。技術が進化するにつれて、検出方法も進化します。Claudeを使って誰かが検出方法を作りました。「AI生成画像を見分けるハック：彩度を上げて、歯のマイクロフォンパッチを見る。コードは完全にencloで書かれており、あなたが試せる公開アーティファクトです」
これは、人々が簡単にソフトウェアやアプリを作成できるという点で素晴らしいと思います。しかし、これはいつも機能するわけではありません。事実、AIで生成された画像を十分に追跡するプログラムを、AIで生成された画像を生成するツールを開発するのと同じくらい速く開発する必要があります。
ここでは、AI生成された画像とそうでない画像の彩度の違いが分かります。しかし、残念ながらスレッドの後半では、これがすべての画像で機能するわけではないという例が示されました。
これは、デッドインターネット理論にさらなる信憑性を与えます。デッドインターネット理論は、オンラインインターネットが主にボットの活動と自動生成されたコンテンツで構成されており、アルゴリズムによる操作によって意図的に人口を操作し、人間の活動を最小限に抑えているという陰謀論です。
正直に言って、ボットは将来大きな問題になると思います。10年後、20年後には、デッドインターネット理論はより大きな問題になると思います。ブロックチェーンを通じた検証方法など、異なる方法があると思います。もちろん、すでにSam Altmanがワールドコインについて話していることは知っていると思います。
しかし、問題を修正し、解決する方法に深入りする前に、これを見てください。これは私がこのビデオを作った理由です。まず画像について話しました。確かに、画像は一つの問題です。画像を人間の意識から取り除くことを決めたとしましょう。画像はもはや人間の意識から消えました。私たちは見る画像をもはや信用しません。では、ビデオはどうでしょうか？ビデオもここにあります。
このデモを見たことがない人もいるでしょうが、これはイーロン・マスクではありません。正直に言うと、このソフトウェアの存在を知る前に、この人がライブ配信しているのを見たら、本当にイーロン・マスクだと信じていたでしょう。私はあらゆる種類のテクノロジーやオンラインで見るビデオに比較的懐疑的な人間です。オンラインで見るものをすぐに信じるべきではないと常に考えています。常に事実を確認すべきです。なぜなら、真実でないものがたくさんあるからです。
オンラインで起こることの一つは、ただタイトルを読んでそれを額面通りに受け取ることです。しかし、これはイーロン・マスクではありません。これは誰かがウェブカメラを使ってオープンソースソフトウェアを使用している様子です。
例えば、この人が悪意を持って使用していたとしましょう。投資家を騙そうとしていたとします。誰かが自社の契約を締結しようとして、「ウェブカメラにイーロン・マスクがいて、この製品について話し合えます」と言ったとします。投資家が何百万ドルも投資するのを想像できます。これは一つの例に過ぎません。
誰かがあなたに電話をかけて、「私の会社に投資してください」と言うのを想像してください。問題は、これが単一の画像から作られたということです。皆さんの中には、オンラインに自分の顔の画像を持っていない人もいるでしょうが、持っている人は懸念し始めるべきです。私には高解像度の顔画像がオンラインにありますが、誰かがそれを取得し、私の姿を使って、ウェブカメラを使って完全に写実的に私を模倣することができます。それも私の同意なしにです。
私がこのビデオを作った理由は、このデモ全体が、私たちが「物事がクレイジーになり始める閾値に到達した」と感じた点だからです。このビデオは、AI分野にいる皆さんへの警告です。皆さんの中にはツールやテクノロジー、ニュースが好きな人もいると思います。しかし、このツールがほぼすべてのデジタルなものに影響を与えていることを忘れないでください。
そうすることで、特定の使用例があります。はい、これが何に良いのかよく分かりませんが、特定の使用例があり、それらに注意する必要があります。そうすれば、「ある人のウェブカムを信用しないかもしれない」とか、「ある人のこのビデオを信用しないかもしれない」と考えることができます。なぜなら、完全に写実的な画像を得られるオープンソースツールが存在することを知っているからです。
そして、ビデオだけでなく、ライブビデオも同様です。照明や角度、しわなどを含めて、誰かの顔にすぐにライブ配信できる技術が完全に写実的になっています。
前に言ったように、これはクローズドソースではありません。MicrosoftのVasa 1のように、彼らはその技術を持っていて、「この技術をオープンソース化しません。リリースしません。なぜなら、これが社会に悪影響を与えることを知っているからです」とは言いませんでした。これはオープンソースであり、ソフトウェアのユーザーは地域の法律を遵守しながら責任を持ってこのソフトウェアを使用することが期待されているという注意書きがついています。
平均的な人はおそらく地域の法律を遵守しないだろうということは、私たちは皆知っています。確かに、友人をからかうためにイーロン・マスクがライブ配信しているふりをするかもしれません。しかし、これが何らかの形で誤用される可能性が大きいと推測しています。
もちろん、「実在の人物の顔を使用する場合、ユーザーはその人物の同意を得ることが提案されます」と書かれています。「期待されます」とは言っていません。「提案されます」と言っています。そして、オンラインにコンテンツを投稿する際には、それがディープフェイクであることを明確に述べるよう示唆しています。また、「ソフトウェアの開発者はエンドユーザーの行動に責任を負いません」とも述べています。
基本的に、彼らは「私たちはこれを作りましたが、何が起こるかは分かりません。それはあなたの手にかかっています」と言っているのです。そして、前に言ったように、これらの種類の技術はどんどん良くなっていくだけです。
これはMicrosoftのVS1で、運転画像を取り込んでいるだけです。これはそれほどリアルには見えないと主張できるかもしれません。しかし、人々が解像度を下げて、本当に見分けがつかない事例を見たことがあります。Microsoftは「これをリリースしません。これが悪影響を与えることを知っています」と言いました。
しかし、個人、機関、研究組織が追いつき、物事をオープンソース化し、最終的に何が真実で何がそうでないかを発見するのが非常に困難な社会に向かっていきます。
もちろん、誰かが動画を追加したこの画像も浮上していました。はい、これは少しAI生成に見えますが、ここに「これは良くなるだけだ」と書いておきました。これが大きな問題です。良くなるだけなのです。
ある人の動画がありました（申し訳ありませんが、ソースを持っているはずです）。その人は、ウォーターマークを付ける方法について話していました。
「私が取り組んできたことの一部は、AIによる近い将来の危害を緩和するために暗号技術をどのように使用できるかを見ることでした。OpenAIで行った主な事の一つは、大規模言語モデルの出力にウォーターマークを入れる方式を考案したことです。これは、モデルが生成する単語の選択に隠された統計的シグナルを挿入することを意味します。後でこれがこのAIモデルから来たことを高い信頼度で証明できます。
これは、今やChatGPTを使って宿題をする何百万人もの学生を捕まえるのに最も明らかに役立つかもしれません。それはとても一般的になっていますが、世界の終わりではありません。もっと深刻なのは、選挙の誤情報、スパム、プロパガンダ、詐欺、ディープフェイクなどの悪意のある行為にAIを使用したい人々です。これらはAI以前にも可能でしたが、AIによってそのコストが大幅に下がる可能性があります。AIから来たものとそうでないものを検出できれば、これらの異なる種類の誤用を同時に解決できるでしょう。」
私は個人的にこれをテストしたかったので、MidjourneyとFluを使用しました。そして、いくつかの簡単なプロンプトを使用して生成できた画像に正直驚きました。ここに、この人のSnapchat写真があります。誰かがこれを私に送ってきたり、Twitterで見たりしたら、これは完全にリアルだと思います。これがAI生成だと示す兆候は全くありません。
この画像も同じです。色調、色補正、すべてがそうです。たぶん、シャツがどれだけ滑らかかを分析すれば、AIで生成された滑らかさがあると言えるかもしれません。しかし、これは大半の人間が見ないような細部です。本当に、人の肌を分析して画像がAI生成かどうかを確認する時間が誰にあるでしょうか？個人的に、そんな時間のある人はいないと思います。
つまり、現在私たちは、インターネットが大部分で偽物になる恐ろしい時期に入りつつあるという問題に直面しています。また、人々が何が本物で何が本物でないかを理解できない問題もあります。
これは、Sam Altmanが以前に話していた別の問題をもたらします。将来、何十億ものエージェント、何百万ものヒューマノイドロボット、何百万ものAI生成画像が存在すると考えると、人間はそのすべての中でほんの一滴になるでしょう。人間がコンテンツを作成した場合と、AIがソーシャルメディアアカウントを制御している場合を、どのように検証するのかを考えなければなりません。
はい、ワールドコインには問題があり、この全体的な問題にはレッドフラッグがあります。人々はプライバシーやセキュリティ、社会へのそのような影響について話します。しかし、人間がオンラインで自分自身を検証できるような、スケーラブルな解決策が必要だと思います。それは、すべての人のプライバシーを侵害しない方法でなければなりません。
人々が恐れているのは、誰もが一種のデジタルシステム上にいて、匿名性を維持し、プライバシーを保護する方法がないということです。しかし、インターネットが個人の「ブラックボックス」になるという問題もあります。そこでは、LLM（大規模言語モデル）と対話しているのか、これらの2つのような写実的な人物と対話しているのか分かりません。
今では一貫したキャラクターを得ることができ、人々の話し方についてAIシステムを訓練することができます。誰と話しているのか本当に分からなくなるでしょう。つまり、私たちは本当にグレーな領域に入っています。このビデオを作るべきだと思ったのは、これが確実に認識しておくべきことだからです。

この記事が気に入ったらサポートをしてみませんか？