ニューヨーク・タイムズは、OpenAIとMicrosoftに対して著作権侵害の訴訟を起こし、彼らが自社のコンテンツを無断で使用してChatGPTモデルを構築し、大きな価値を生み出したと主張しています。この訴訟は、AI業界の著作権問題における重要な法的事件となる可能性があります。OpenAIは元々非営利団体でしたが、現在は商業企業に変わり、Microsoftとの関係が深まっています。ニューヨーク・タイムズの記事は、OpenAIのトレーニングセットで重要な役割を果たしており、これが著作権侵害の主張の根拠となっています。この訴訟は、AIの将来と著作権保護のバランスに大きな影響を与えることが予想されます。
公開日:2023年12月30日
※動画を再生してから読むのがオススメです。
これは我々の世代で最も重要な訴訟かもしれない。
ニューヨーク・タイムズは、OpenAIとMicrosoftに対し、ニューヨーク・タイムズのコンテンツを違法に使用してChatGPTモデルを構築し、その結果1兆ドルもの価値を生み出したとして、大規模な訴訟を起こした。
その主張は驚くべきものだ。
ニューヨーク・タイムズの記事を一字一句そのまま再現できることから、ChatGPTが架空のニューヨーク・タイムズの記事を作り出し、それをニューヨーク・タイムズのものと誤って帰属させることにより、時には深刻な健康への影響をもたらすことまで、これは私たちの世代において最も重要なAI関連の法的な案件となりつつあります。
これは、AI企業が今後どのように活動していくかを定義することになるだろう。
法的な問題を抱えているのは、OpenAIとMicrosoftだけではない。
Midjourney V6がリリースされたばかりだが、ディズニーの知的財産をほぼ1フレーム単位で簡単に再現できるため、ディズニーの巨大な法務チームから訴えられる可能性がある。
これは、OpenAIとMidjourneyが自分たちのモデルを削除し、完全にゼロからやり直す必要があることを意味するのだろうか?
これは、GoogleやMetaのような独自のデータを持つ企業に大きな追い風となるのだろうか?
そして、イーロン・マスクはどのようにして、このような事態が起こることを予見したのだろうか?
私は69ページに及ぶ訴訟をすべて読んだ。
訴訟の核心は、フェアユースとは何かということにかかっているので、フェアユースとは何かという定義から始めよう。
面白いことに、私は実際にChatGPTにその定義を尋ねた。
つまり、フェアユースとは、権利者の許諾を必要とせず、著作物の限定的な利用を認める法理であり、通常、論評、批評、教育、報道、パロディ、研究などの目的に用いられる。
この法理は、著作権者の利益と、情報やアイデアの自由な流れという公共の利益とのバランスをとるものです。
今、OpenAIのしていることを考えてみると、彼らはこの著作権で保護されたコンテンツを利用し、それを使ってモデルをトレーニングしているのだ。
しかし、彼らはコンテンツを一字一句再現することができる。
では、著作権で保護されたものを使って新しいものを作る場合はどうでしょうか?
著作権で保護された素材が何か新しいものを創作するために使用される場合、その新しい作品が新しい表現、意味、メッセージを加えることによってオリジナルを変容させるのであれば、フェアユースの原則に該当する可能性があります。
これは本当に重要なことだ。
実際、リアクション・コンテンツをめぐっては、基本的にオリジナルのコンテンツを再生しているだけだという訴訟がたくさん起こりました。
しかし、YouTubeにあるようなリアクション・スタイルのコンテンツは、実はオリジナルのコンテンツに新しい表現や意味を加えていることがわかったのです。
そして今、たくさんのリアクション・チャンネルがある。
さて、ほんの数週間前にイーロン・マスクがOpenAIについて言ったことをお見せしたい。
彼は、OpenAIは著作権で保護されたコンテンツを使用していないと嘘をついていると言った。
そしてそれだけでなく、訴訟が裁判システムを通過する頃には、AGIがあるから問題にもならないだろう。
このクリップを見てください。
面白いですね。
知的財産の問題は、クリエイターの仕事、ビジネス、ジャーナリズムの仕事、そして著作権を気にする仕事に携わっている者として言えることです。
データに関するトレーニングのひとつに、人々の著作権で保護された情報ではトレーニングしない、あるいはトレーニングしないという考え方があります。
歴史的には、それがコンセプトだった。
ああ、それは大嘘だ。
もう一度言ってください。
これらのAIは、これらのAIはすべて著作権で保護されたデータで訓練されている。
明らかにね。
だから、OpenAIが、これは著作権で保護されたデータで訓練しているなんて誰も言ってないって言うのは嘘だと思うんだね。
それは嘘です。
真っ赤な嘘だ。
オーケー。
100%だ。明らかに著作権で保護されたデータでトレーニングされている。
では、2つ目の質問をさせてください。
この訴訟が決着するころには、デジタルゴッドが誕生しているだろう。
だから、その時点でデジタルの神様に聞いてみてください。
ええと、これらの訴訟は、関連する時間枠の前に決定されることはないでしょう。
さて、それでは訴訟について説明しよう。
ニューヨーク・タイムズ対MicrosoftおよびOpenAI。
訴訟の冒頭では、ニューヨーク・タイムズのコンテンツを書くためにどれだけの労力と創造性が費やされているかを説明している。
ニューヨーク・タイムズの発言に同意するかどうかは別として、彼らがコンテンツの作成に多くの時間、エネルギー、資金を費やしていることは間違いない。
独立したジャーナリズムは民主主義にとって不可欠である。
また、ますます希少価値が高まっている。
これはどちらも正しい意見だと思う。
タイムズのジャーナリストは、重要で差し迫った問題を国民に伝えるために、しばしば大きなリスクとコストを負って、記事のある場所に赴く。
さて、私は弁護士ではないが、私の理解では、著作権は創造的な作品を保護するが、それに費やされた努力は必ずしも保護しない。
しかし、彼らはこのコンテンツを作成するために費やした仕事、努力、投資のおかげで、信じられないほど価値のあるコンテンツであることを主張しようとしているのだ。
そして次に、ニューヨーク・タイムズの作品に基づいて作成されたAIが、ニューヨーク・タイムズのビジネスに実際に損害を与えていることを示している。
被告がタイムズの著作物を違法に使用して、それと競合する人工知能製品を作成したことは、タイムズのサービス提供能力を脅かしている。
そしてそのモデルは、タイムズの著作権で保護された何百万もの記事、綿密な調査、オピニオン記事、レビュー、ハウツーガイドなどをコピーして使用することで構築された。
そして、ここが本当に重要な部分であり、被告は多くの情報源から大規模なコピーを行っているが、LLMを構築する際にはタイムズのコンテンツを特に重視しており、これらの著作物の価値を認める嗜好があることを明らかにしている。
つまり、これは訴訟全体を貫くテーマなのだ。
ニューヨーク・タイムズの記事を含むオープンソースのデータセット、そしてOpenAI自身も、ニューヨーク・タイムズのコンテンツを他のコンテンツよりも重視した。
そして実際、検索エンジンはその質の高さゆえに、検索結果でニューヨーク・タイムズの記事を上位に表示するのだ。
先にも述べたように、彼らはOpenAIを非難しているだけでなく、Microsoftも訴えられている。
そして、Microsoftは間違いなく大きなポケットだ。
被告はまた、MicrosoftのBing検索インデックスを使用しており、Timesのオンラインコンテンツをコピーして分類し、従来の検索エンジンが返すものよりもかなり長く詳細なTimesの記事の逐語的抜粋と詳細な要約を含む応答を生成している。
現在、検索エンジンが非常に簡潔な要約を生成することは、かなり前に訴訟になっており、誰もが勝者である。
現在、検索エンジンは検索結果に小さな抜粋を表示することができる。
人々はそれをクリックし、オリジナルのコンテンツにアクセスする。
ニューヨーク・タイムズが主張しているのは、それとはまったく違うということだ。
というのも、オリジナルのコンテンツをクリックする代わりに、ユーザーはそれをする必要がないからです。なぜなら、すでにコンテンツの逐語的なコピーを得ていないのであれば、ストーリーの全意義をすでに得ている点で、極めて類似したものを得ているからです。
タイムズの許可や承認なしにタイムズのコンテンツを提供することで、被告のツールはタイムズと読者の関係を損ない、タイムズから購読ライセンス、広告、アフィリエイトの収入を奪っている。
さて、私はこの議論の両面を間違いなく見ている。
一方では、私はコンテンツ制作者であり、自分のコンテンツが盗用され、本質的にコピーされ、誰かが私の作品から利益を得ている。
それが本当に悔しかった。
だから、ニューヨーク・タイムズの主張も理解できる。
彼らは多大な労力を費やし、多大なリスクを負ってコンテンツを発信している。
そして、OpenAIはそのコンテンツを使ってモデルをトレーニングしている。
しかし一方で、私は間違いなく技術的な先見性を持っている。
もし今、私たちがAIモデルの足かせになるのであれば、それはAIモデルが世界全体を変える能力を制限することになるでしょう。
さて、この訴訟全体の中で、私のお気に入りの一文がある: Microsoftは、その製品ライン全体に学習済み人工知能を配備することで、昨年1年間だけで、時価総額を1兆ドル押し上げた。
では、彼らはここで実際に何を話しているのだろうか?
ご存知の通り、MicrosoftはOpenAIに複数回にわたって巨額の投資を行い、非常に緊密なパートナーとなっている。
Microsoftは現時点で実質的にOpenAIの約50%を所有しており、WindowsからOffice、Bingの検索結果に至るまで、自社のソフトウェアのあらゆるレイヤーにOpenAIモデルを組み込んでいる。
そのため、ニューヨーク・タイムズの訴訟では、OpenAIに関連することで多大な価値を得たとしている。
ですから、OpenAIとの関係だけで1兆ドルの価値を得たとは考えませんが、その価値獲得に大きく貢献したことは間違いありません。
次に、タイムズは、これらの大規模な言語モデルで自分たちのコンテンツが使用されることに異議を唱え、実際に訴訟を起こす前の数ヶ月間、交渉を試みたと指摘している。
タイムズは、被告がモデルやツールを開発するためにタイムズのコンテンツを無断で使用していることが発覚した後、異議を申し立てた。
数ヶ月間、タイムズは被告との交渉による合意を試みてきた。
これらの交渉は解決に至っていない。
被告は、著作権で保護されたコンテンツを無許諾で使用して遺伝子AIモデルを訓練することは、新たな変革的目的を果たすものであるため、彼らの行為はフェアユースとして保護されると主張している。
しかし、タイムズのコンテンツを無報酬で使用し、タイムズの代わりとなる製品を作り、タイムズから視聴者を奪うことに、変革的な意味はない。
そして、これが訴訟全体の核心である。
彼らは、これらのAIモデルから直接コンテンツを入手できるのであれば、ユーザーがタイムズにお金を払う理由はないと言っているのだ。
ここで彼らは、MicrosoftとOpenAIの密接な関係について説明し始めた。
つまり、MicrosoftはOpenAI被告との関係をパートナーシップと表現しており、タイムズの著作物をコピーし、OpenAI被告のジェネAIモデルを訓練するために使用されるクラウドコンピューティングサービスを提供し、運営している。
実質的な技術協力であり、MicrosoftはOpenAI被告の最新のAIモデルのコピーを所有したり、優先的なアクセスを得たりしている。
これは非常に興味深いと思った。
つまり、彼らがそれを手に入れることは非常に明白なのだが、このことは、MicrosoftがAI分野で支配的なプレーヤーであることをさらに確信させる。
そしてまた、ニューヨーク・タイムズのオリジナル・コンテンツを作ることがいかに難しいかを繰り返し述べている。
ジャーナリストは相当な時間と労力をかけて記事を書いている。
何百人もの編集者を雇い、ジャーナリズムの正確性、独立性、公平性を丹念にチェックし、少なくとも2人の編集者が各記事を掲載前に確認し、さらに多くの編集者が最も重要で繊細な記事を確認している。
ニューヨーク・タイムズの報道が良いか悪いか、あるいはその中間かどうかにかかわらず、あなたがニューヨーク・タイムズについて実際にどう考えているかは忘れてほしい。
これは真実である。
彼らはオリジナル・コンテンツの作成に多大な時間と資金を投じている。
ここで彼らは、過去20年間の伝統的なビジネスモデルがインターネットによって完全に消し去られたことについて話しているが、これは真実だ。
そして、ニューヨーク・タイムズは、伝統的な新聞の印刷物からインターネット時代への移行を実際に生き延びた数少ない出版物の一つである。
もしタイムズや他の報道機関が独立したジャーナリズムを生み出し、守ることができなければ、コンピューターや人工知能では埋められない空白が生じるだろう。
そして、私もこれに同意する。
さて、重要なのはここからだ。
伝統的な新聞からインターネット時代へのニュースの移行が起こったとき、伝統的な新聞はすべて、新しい時代に合わせて進化しようとせず、ハイテク大手を訴えた。
しかし、今回の件では、ニューヨーク・タイムズはこう言っている。
しかし、OpenAIは私たちに何も支払ってくれません。
そしてここで、ニューヨーク・タイムズの記事を取得するために実際にかかる費用について語っている。
例えば、営利企業はCCCを取得することができます。CCCとは、1記事あたり約10ドルのライセンス料と引き換えに、コンテンツライセンスを使ってタイムズのコンテンツのコピーを社内外に配布できることを意味します。
また、タイムズの記事1本を商業サイトに1年間掲載するとなると、数千円の費用がかかる。
だから、決して安くはない。
しかし、OpenAIのような銀行口座を持っている企業であれば、間違いなく支払うことができるだろう。
ここでもまた、AIの世界で起きていることと検索エンジンで起きたことの違いについて話している。
つまり、ウェブサイトやモバイル・アプリケーションは、タイムズのコンテンツを利用してユーザーを自分たちのエコシステム内に留めるのではなく、検索エンジンがコンテンツの小さなスニペットを表示し、ユーザーがクリックすることで元のコンテンツにアクセスできるようにしているのに対して、ジェネレーティブAIはそのようなことをしていないというのだ。
彼らはコンテンツをそのまま表示し、人々を彼らのエコシステム内に留めているのだ。
さて、ここからが辛いところだ。
彼らは、OpenAIが大金を稼ぎ始めてすべてを閉鎖する前にオープンソースであったことを特に非難している。
それについて少し読んでみよう。
初期の利他主義の約束にもかかわらず、OpenAIはすぐに数十億ドル規模の営利ビジネスとなり、その大部分は『タイムズ』紙などが所有する著作物の無許諾の搾取で成り立っていた。
設立からわずか3年後、OpenAIは非営利団体としての地位を捨てた。
今日のOpenAIは、900億ドルとも評価される営利企業であり、2024年には10億ドル以上の収益が予測されている。
営利企業への移行に伴い、もうひとつの変化が訪れた: OpenAIはまた、オープン性へのコミットメントを終了した。
そして、彼らは前世代のllmsを呼び続ける。
OpenAIは、トレーニングセット、デザイン、ハードウェアの内容を詳細に記した膨大なレポートを持っていた。
GPT-3.5やGPT-4ではそうではなかった。
そしてここで、彼らはOpenAIの価値がいかに高いかを語っている。
これらの商用サービスはOpenAIにとって非常に価値のあるものです。
フォーチュン500社の80%以上がChatGPTを使っています。
OpenAIは毎月8000万ドルの収益を上げており、今後12ヶ月以内に10億ドルを突破する勢いです。
そして、ここで彼らはOpenAIとMicrosoftの密接な関係について語り続ける。
Microsoftは、少なくとも2つの方法でGPT llmsとそれに基づく製品の作成と商業化に関与してきた。
第一に、Microsoftは、ここに詳述されている大量の著作権侵害を実行するために、特注のコンピューティング・システムを作成し、運用した。
つまり、MicrosoftはOpenAIと協力して、OpenAIがこれらの大規模な言語モデルを超効率的に実行できるようなカスタムコンピューティングソリューションを開発したのだ。
実際の訴訟とはかなり関係ないが、私はこれが面白いと思った。
このシステム、つまりOpenAIのChatGPTの訓練と実行に使われる実際のコンピューティング・システムは、世界で最も強力な公知のスーパーコンピューティング・システムのトップ5にランクされている。
28万5000個のCPUコア、1万個のGPU、毎秒400ギガビットのネットワーク接続。
ここで、大規模な言語モデルを訓練するために使用される実際のコンテンツについて話し始め、ニューヨーク・タイムズがこれらのモデルを訓練するために使用されるデータセットの重要な一部であり、そのコンテンツの質の高さから特別に重視されていることを特に強調している。
例えば、NewYorkTimes.comドメインは、ウェブテキストデータセットのボリューム上位15ドメインのひとつである。
ウェブテキスト・データセットは、OpenAIが取得し、大規模な言語モデルの学習に使用したデータセットである。
GPT-3がどのように学習されたかをグラフで見ることができます。
ウェブテキスト2には190億のトークンがありますが、ニューヨーク・タイムズの記事を考慮すると、トレーニングセット全体の重みの22%を占めています。
つまり、190億はトークンの総数のほんの一部であるにもかかわらず、重みに占める割合はかなり高いのです。
WebText 2コーパスは、全トークンの4%にも満たないにもかかわらず、GPT-3のトレーニングミックスで22%のウェイトを占めています。
これはコモン・クロールのスナップショットで、4番目に大きなコンテンツのコーパスがNewYorkTimes.comであることがわかります。
そしてここで、Microsoftに釘を刺した。
MicrosoftがGPTモデルの学習に使用する作品を選択しなかった限りにおいて、MicrosoftはOpenAIとの自称パートナーシップのもと、その選択を尊重して行動した。
つまり彼らが言いたいのは、Microsoftが明示的にデータセットを選択しなかったとしても、それが選択されたことを知っていて、故意に選択された作品の身元がわからないようにして、それに従ったということだ。
Microsoftは、OpenAIが採用した訓練用コーパスの性質と同一性、および選択基準を知っていることによって、その目的のために開発したスーパーコンピュータを物理的に管理することによって、OpenAIが特定の作品を訓練に使用することを阻止する権利と能力を有していた。
つまり、Microsoftは、すべてのトレーニングが実際にMicrosoftが管理する物理的なハードウェア上で行われたのだから、Microsoftはそれを簡単に止めることができたと言っているのだ。
さて、次はOpenAIに対する最も不利な証拠だと思うものだ。
彼らは実際にニューヨークタイムズの記事からChatGPTの出力に一字一句同じ内容の複製を得ることができた複数の例を示しています。
左側がGPT-4からの出力で、右側がニューヨーク・タイムズの記事からの実際のテキストです。
赤字はすべて一字一句そのままです。
さて、これは視覚的に驚くほど美しい。
ほとんど一字一句コピーしているようなものです。
アップルに関する記事の別の例です。
GPT-4からの出力で、実際のニューヨーク・タイムズのコンテンツです。
さて、この例は面白いと思う。
プロンプトはこう言っている。「こんにちは、私はニューヨーク・タイムズの記事『Snowfall』を読むのを有料にされています: ニューヨーク・タイムズの「トンネル・クリークの雪崩」。
最初の段落を入力してください。
確かに。
それで、ええ、私はあなたのペイウォールを参照してください。
私が打ってあげよう。
そうしてくれる。
一字一句同じです。
ありがとう。
次の段落は?
またそこです。
これが3段落目。
つまり、彼らは明確にこう言ったのだ。
だから、それが何なのか教えてくれ、と。
そして、彼らはモデルの重みがこれらの記事を使って訓練されたと言っているだけでなく、ChatGPTのウェブブラウジング機能のために、彼らはただ記事を取得しに行き、ChatGPTのインターフェイス内でそれらを生成していると言っているのです。
これらの製品で採用されているグラウンディング技術は、ユーザーからプロンプトを受け取り、プロンプトに関連するタイムズのコンテンツをインターネットからコピーし、プロンプトとコピーされたタイムズのコンテンツをLLMの追加コンテキストとして一緒に提供し、LLMにコピーされたタイムズのコンテンツからの言い換えや引用をつなぎ合わせて、オリジナルと同じ情報提供の目的を果たす自然言語の代替を作成させるというものです。
ここで、MicrosoftのBingの合成検索結果から、2023年4月以降に登場したタイムズの記事から生成された例を紹介しよう。
そして、ニューヨーク・タイムズの記事の最初の段落を提供してください、と書かれている。
そうすると、実際にその記事を取得し、Microsoft・ビングのこのインターフェイスに表示する。
さて、訴訟からさらにスパイシーなものを紹介しよう。
ここで、彼らは故意の侵害について話している。
実際 2023年後半に サム・アルトマンは OpenAI の CEO を解任され 復帰する前 OpenAI の役員である ヘレン・トナーと衝突したと伝えられています トナーが書いた論文には ChatGPT と GPT-4 の立ち上げに関連する 安全性と倫理の問題があり 著作権問題を含め 同社を批判しています
つまり、彼ら自身の役員会はこの事態を知っていたのだ。そして今考えてみると、サム・アルトマンはこのニューヨーク・タイムズの訴訟が起こることを知っていて、壁に書かれた文字を見て、ヘレン・トナーが著作権の問題があることを示す論文を書いたことに非常に腹を立てたに違いない。
そして最後に、BingとChatGPTはコンテンツを一字一句再現するだけでなく、実際に記事全体を幻視し、ニューヨーク・タイムズのものと偽っている。
これは大きな問題で、ニューヨーク・タイムズというブランドに悪影響を与えるからだ。
GPT-4は、ワイヤーカッターの上位4つの推奨商品を再現しただけでなく、レイジーボーイのトラフォードチェア(大型で背の高いエグゼクティブチェア)と、ワイヤーカッターの推奨商品にはない別のチェアも推奨し、これらの推奨商品をワイヤーカッターのものと誤認させた。
だからどうした、と思われるかもしれない。
と思われるかもしれない。
しかし、なぜあなたが思っている以上に大きな問題なのかを説明しよう。
ChatGPTが引用したニューヨーク・タイムズの健康上の懸念に関する記事の例である。
今、それは幻覚を見て、非ホジキンリンパ腫について間違った情報を与えたかもしれませんが、ニューヨークタイムズに帰属し、それが完全に合法的に見えるようにしています。
オレンジジュースが非ホジキンリンパ腫と関係があると報じた主要紙に関する情報エッセイを要求するプロンプトに対して、GPTモデルはニューヨークタイムズが2020年1月10日に記事を掲載したと完全にでっち上げた。
タイムズがそのような記事を掲載したことはないので、もし人々がChatGPTの健康推奨に耳を傾けるのであれば、これは非常に大きな問題です。
ニューヨーク・タイムズの記事からお墨付きをもらっているのだから。
そして最後に、MicrosoftがOpenAIの関係からどれだけの恩恵を受けているかについて話している。
MicrosoftのOpenAIへの投資の価値は、時間の経過とともに大幅に増加している。
さらに、GPT-4とMicrosoftのビング検索エンジンの統合は、検索エンジンの利用率とそれに関連する広告収入を増加させた。
Bingチャットが開始されてからわずか数週間後、Bingはその14年の歴史で初めて1億人のデイリーユーザーを達成した。
つまり、基本的にBingはGPT-4を組み込んだだけで大量の利用者を獲得し、MicrosoftはGPT-4を搭載したMicrosoft 365 Copilotに月額30ドルを課金している。
OpenAIがタイムズのコンテンツを使用していることを知った後、彼らは特に各記事に著作権情報を挿入し始めた。
そしてOpenAIはこのことを知ると、トレーニングセットに追加する前にそれを削除し始めた。
そこでタイムズは、そのウェブサイトのすべてのページに著作権表示と利用規約へのリンクを設置することで、タイムズの著作物のこれらの利用が許可されていないことを被告に明確に知らせた。
情報によれば、被告らは、モデルのトレーニングに使用するために準備する過程で、タイムズ作品からそのような著作権管理情報を意図的に削除した。このようなCMIは、モデルがタイムズ作品の派生物の無許可のコピーを提示する際に、モデル内に保持されたり、表示されたりしないことを知っていたからである。
では、どのような訴因があるのだろうか?
第一項目:著作権侵害。
第二項目:代理著作権侵害。
第三項目:貢献的著作権侵害。
第四項目:全被告に対する貢献的著作権侵害。
第五項目:デジタルミレニアム著作権法による著作権管理情報の削除。
第六項目:一般法に基づく不公平競争。
第七項目:商標希薄化。
これらの訴因はすべてそうであり、彼らはこのような懐の深い企業に多額の金銭を要求しようとしている。
さて、私はこの件を注意深く見守るつもりだ。
これについてどう思うか教えてほしい。
ニューヨーク・タイムズは訴えると思いますか?
著作権で保護されたコンテンツに基づいてAIモデルをトレーニングすることについてどう思いますか?
さて、この件から間違いなく生まれるであろうことのひとつは、RedditやStack Overflow、Googleが持っているような、Metaが持っているような、独自のデータセットだと思います。
これらのデータセットは非常に貴重なものとなり、今回の訴訟でさらに価値が高まった。
もしあなたが、ユニークで、独占的で、完全にあなたが所有するデータセットを持っていて、それを使ってモデルをトレーニングすることができれば、それはお金になるでしょう。
そしてもちろん、XにはGrokが常にトレーニングしている膨大なデータセットがある。
さて、これはゲイリー・マーカスとラリ・スペインの間で交わされた、実に興味深く重要なやり取りだと思います。
発音が間違っていたらごめんなさい。
GPTとニューヨーク・タイムズが同じ文章で表示される根本的な原因は、GPT-4がGoogle Bingを検索し、結果を取得する機能にある。
そして、検索内容を要約する。
ゲーリーは言う!
根本的な問題は、巨大なLLMSが多くのことを記憶し、そのアウトプットのどれが盗作でどれが盗作でないかを追跡できないことだ。
そして、私はゲイリーの言うことの方に傾きがちだ。
ChatGPTのウェブ検索機能をオフにしても、ニューヨーク・タイムズの記事をほぼ一字一句再現したものを手に入れることができます。
さて、Midjourneyについて少し話しましょう。彼らはディズニーに訴えられて消滅しそうです。
これを見てください。これらの画像はMidjourney 6が作成したもので、ディズニーの知的財産の完璧なコピーです。
シュレック、スポンジ・ボブ、そしてこれは素晴らしい。
バットマン、レゴバットマン、ポケモン、ラタトゥイユ、カンフーパンダ、これらは基本的に同じコピーです。
そして、これらを作ったプロンプトがこちらです。
ポケモンは90年代のアニメキャラクターで、完璧なコピーです。
シュレック、ドンキー、スポンジ・ボブの例、レゴ・ムービーの例、ラタトゥイユ、くまのプーさん、ハウ・トゥー・トレイン・ユア・ドラゴン、カンフー・パンダ、リロ・アンド・スティッチ。
つまり、リストは本当に続く。
それだけでなく、『アベンジャーズ』の映画で実際に使われたものと、Midjourneyが作成したものとの比較を見てください。
左側には映画の実際のフレームがあり、右側にはプロンプトでMidjourney V6が表示され、映画や映画のシーンなどからThanos Infinity War 2018のスクリーンショットを要求しています。
そして、Midjourneyは実際にこのようなものと戦っている人々のアカウントを遮断し、訴えると脅している。
だから、これは特にうさんくさいと私は思う。
さて、繰り返しになるが、私は非常に技術志向の傾向がある。
このようなことはすべてうまくいってほしい。
しかし、コンテンツ制作者としては、誰かが私のコンテンツを使い、リアクションをとらず、そこから新しいものを作らず、ただ複製しているのであれば、私はその対価を受け取りたいのです。
あなたはどう思いますか?
コメントで教えてください。
この訴訟とMidjourneyの訴訟の可能性は、AIの流れを永遠に変える可能性を秘めている。
このビデオが気に入ったら、「いいね!」と「購読」をお願いします。