ニューヨークタイムズ訴訟にOpenAI見解：「逆流」はまれなバグ

2024年1月9日 09:51

OpenAIはニューヨークタイムズが指摘している「ChatGPTが記事の一部をそっくりそのまま出力する」行為について、意図的なプロンプト操作だと主張しています。そしてその意図的な行為は本来出力されるべきものではないバグであったと説明しています。以下の公式見解の解説をしていきます。

OpenAIは7月4日にそのバグを修正していた

下記のポストで、「ChatGPT の参照ベータ版では、望ましくない方法でコンテンツが表示される場合があることがわかりました。たとえば、ユーザーが特に URL の全文を要求した場合、誤ってこの要求が満たされる可能性があります。この問題を修正する間、ブラウズを無効にしています。コンテンツ所有者が正しく対処したいと考えています。」と説明しています。

We've learned that ChatGPT's "Browse" beta can occasionally display content in ways we don't want, e.g. if a user specifically asks for a URL's full text, it may inadvertently fulfill this request. We are disabling Browse while we fix this—want to do right by content owners.
— OpenAI (@OpenAI) July 4, 2023

ニューヨークタイムズが行った敵対的プロンプティング

下記のニュースでは、ニューヨークタイムズがChatGPTに関する訴訟において、不正確な応答を得るために意図的にプロンプトを操作した可能性があるという見解が示されています。

Search Engine Journalによると、意図しない出力を生成する技術は「敵対的プロンプティング」と呼ばれており、これがOpenAIが著作権で保護されたコンテンツのGPT-4使用が変革的ではないことを証明する根拠を作るために行っているとニューヨーク・タイムズ紙を非難しています。

この種の敵対的なプロンプトは、次のように規定されているOpenAI の利用規約にも違反します。

ニューヨークタイムズが結果を捏造？

また、以下のビデオでは、ニューヨークタイムズが示したChatGPTの応答の形式が実際のChatGPTの応答形式とは異なることに気付き、これが疑わしい点であると指摘しています。彼は、ニューヨークタイムズが結果を捏造しようとした可能性があると推測しています。

トレーニングデータを逆流させる敵対的攻撃

ニューヨークタイムズは意図的にOpenAIのモデルを操作して、特定の逆流を引き起こしたようです。彼らは、古い記事の長い抜粋を含むプロンプトを使用し、モデルにコンテンツを吐き出させるようにしたとされています。これは、モデルの通常の挙動ではなく、多くの試行から選ばれた特定の例か、モデルに特定の内容を吐き出させるよう指示したことを示唆しています。OpenAIは、このようなユーザーによる誤用は一般的ではなく、許可されていない行為であると述べています。

ニューヨークタイムズが行った逆流行為とは？

「逆流（Regurgitation）」は、OpenAIのAIモデルが学習プロセス中に偶発的にコンテンツを暗記し、その後それを再現する現象です。これは学習過程の稀な失敗であり、特にトレーニングデータに特定のコンテンツが複数回現れる場合により一般的です。

OpenAIは、このような暗記を制限し、モデル出力での逆流を防ぐための措置を講じています。また、ユーザーにはモデルを責任ある方法で使用することを期待しており、意図的な操作による逆流は不適切な使用法であり、利用規約に違反する行為です。全体的なトレーニングデータの中で、ニュースなど特定のセクターはごく一部であり、任意の単一データソース（ニューヨークタイムズを含む）はモデルの学習目的にとって重要ではありません。

下記のニュースに詳しいいきさつが解説されています。

著作権を侵害しないことは「不可能」

OpenAIは、著作権を侵害せずにChatGPTのようなものを作成することは「不可能」だと主張しています。めちゃくちゃ強気です。

OpenAIは、著作権法に違反していないと自己弁護するのではなく、著作権法そのものの性質を変えようとする決断を下したようです。

OpenAI は、貴族院への書面提出の中で、著作権で保護された素材がなければそのようなツールを作成することは不可能であると主張しました。に提出されたはこちらのリンクから読む事ができます。

彼らはこの書面の中で「今日の著作権は、ブログ投稿、写真、フォーラムへの投稿、ソフトウェアコードの断片、政府文書など、人間の表現のほぼすべての種類を対象としているため、著作権で保護された素材 を使用せずに今日の主要な AI モデルをトレーニングすることは不可能です。」と主張しています。

公式見解に対するXでの反応

賛否両論ありますので見ていきましょう。

Training is not fair use.
Opting out after the damage is done isn't really opting out, is it?
You are not telling the full story.
— Kristen Ruby (@sparklingruby) January 8, 2024

クリステン・ルビーは、インターネットの公開素材を使って AI モデルをトレーニングするという概念がフェアユースであると懐疑的です。彼女は、事後にオプトアウトのオプションを許可することは真の選択と同等ではないとほのめかし、すでに損害が発生している可能性があるため、それは不十分であることを示唆しています。Ruby はまた、この文脈では全容が語られていないとも示唆し、さらなる透明性や情報の必要性を示唆しています。このツイートは、議論されている慣行に対する批判的な立場を反映しています。

Woohoo!

Exactly what we were saying last week:https://t.co/H2PoYQ1UDG
— Wes Roth (@WesRothMoney) January 8, 2024

ウェス・ロスは、先週YouTubeでOpenAIがニューヨークタイムズに反撃すると予測を立てていた事をポストしています。

AI is reading articles from the internet, it's like forbidding people to read and recall things they read, saying it's copyright. OpenAI looks like a winner here.
— Everett World (@WorldEverett) January 8, 2024

人間に当てはめると、読むのは自由ですがその読んだ文章を一字一句引用する場合は出典を明記する必要があります。彼の意見は、著作権の観点からAIの挙動を人間の行動に例えることの妥当性について論じていると言えるでしょう。

This is probably the worst thing to "journalism" @elonmusk @ilyasut
— Chansoo Byeon (@ByeonChansoo) January 8, 2024

Chansoo Byeonのツイートは、OpenAIとジャーナリズムに関連する問題を「ジャーナリズムにとって最悪のこと」と評しています。イーロン・マスクやイリヤ・サツケヴァー氏をタグ付けした理由については、彼らが技術と社会に影響力を持つ人物であるため、この問題に対する彼らの意見や対応を求めたかった可能性があります。

Excellent and interesting response. I wondered if it was a bug & thought it should be & now we know it is. The rare bugs are often the hardest to replicate & fix. I had not heard of the use of the word “ regurgitation” in the AI context before, it’s very fitting, & amusing 😀
— John (@John73014818) January 8, 2024

素晴らしくて興味深い反応。私はそれがバグではないかと思い、バグであるべきだと考えましたが、今ではバグであることがわかりました。まれなバグは、多くの場合、再現して修正するのが最も困難です。AI の文脈で「逆流」という言葉が使われることをこれまで聞いたことがありませんでした。とてもぴったりで、面白いですね。

ジョン

The New York times, and any journalistic Outlet right now, are feeling the crunch from how information spreads and how they are not the kings of the Hill anymore

This whole lawsuit just reminds me of when the Wall Street Journal went after YouTube kicking off the adpocalypse…
— Matt Jarbo (@mjarbo) January 8, 2024

Matt Jarboのツイートは、ニューヨークタイムズや他のジャーナリズム機関が情報の拡散方法や影響力の変化に直面している状況を指摘しています。彼は、これらのメディアがもはや情報の最前線を牽引していないと感じているようです。また、彼はこの訴訟を2017年の「Wall Street Journal」がYouTubeに対して行った行動に例えています。これは、YouTubeの広告収入に大きな影響を与えた事件を指しており、現在の訴訟が似たような影響を持つ可能性を示唆していると考えられます。

2017年初頭、Wall Street JournalはYouTubeの広告プラットフォームとその仕組みについて調査し、人気YouTuberのPewDiePie（フェリックス・キェルバーグ）が反ユダヤ主義や人種差別的なコンテンツを含む動画を投稿していることを報じました。この報道により、多くの大手広告主がYouTubeから撤退することを決定し、YouTubeは大規模な広告収入の減少に直面しました。この事件は「Adpocalypse（広告の黙示録）」と呼ばれ、YouTubeの広告ポリシーの厳格化につながり、多くのコンテンツクリエイターが影響を受けました。

この事件は、デジタルメディアと広告の関係、または大手メディアと個人クリエイター間の力のバランスについての議論を引き起こしました。また、コンテンツの適切なモデレーションと広告主の責任についても議論の対象となりました。

It's a desperate attempt by the NYT, handicapping AI in the US will only lead to other countries leading the charge instead.
— Mateo Brathwaite (@MateoAGI) January 8, 2024

これはNYTによる必死の試みであり、米国でAIにハンディキャップを設けても、代わりに他国が先頭に立って進むだけだ。

マテオ・ブラスウェイト

👀
“The New York Times is not telling the full story”

Go on……
— Andrew Sheves (@andrewsheves) January 8, 2024

「ニューヨーク・タイムズは全容を伝えていない」続けて……

アンドリュー・シーブス

Companies trying to stop innovation. Everyone wants a peace of the pie.
— Loki (@TricksterLo) January 8, 2024

Lokiのツイートは、企業がイノベーションを止めようとしていると述べています。また、「Everyone wants a piece of the pie（誰もがパイの一部を欲している）」というフレーズを使って、多くの関係者が新しい技術や市場の成長から利益を得たいと望んでいることを示唆しています。この発言は、新技術やビジネスモデルに対する競争と利益追求の状況を指摘していると解釈できます。

The copyrighted material you used without consent or compensation is where the real value is not in your software. pic.twitter.com/AOCYilloD3
— Mark McGivern (@markmcgivern3D) January 8, 2024

同意や補償なしに使用した著作権で保護された素材には、ソフトウェアの本当の価値はありません。

マーク・マクギバン

"we provide an opt-out"

YOU ASK AND PAY A LICENSE from owners of the proprietary and private data BEFORE using and exploiting it for commercial use. Considering training data is notoriously problematic to remove (if even removal does anything after the fact), this is nonsense.
— Article 3 BILL OF RIGHTS (@BorgoniaBorgy) January 8, 2024

「当社はオプトアウトを提供します」あなたは、商業目的で使用および悪用する前に、専有的および個人的なデータの所有者にライセンスを求め、支払う必要があります。トレーニングデータの削除には問題があることで有名です (削除しても事後に何か効果があるのであれば) が、これはナンセンスです。

第 3 条権利章典

Article 3 Bill of Rights（@BorgoniaBorgy）は、企業がその所有者から許可を得て使用料を支払うことなく、私的かつ独占的なデータを商用目的で使用・利用していると指摘しています。特に、トレーニングデータの削除が困難であること、またデータを削除した後でもその効果があるかどうか疑問であることを強調しています。このツイートは、データの使用に関する倫理的・法的な問題に対する懸念を表しており、単にオプトアウトオプションを提供するだけでは不十分であるとの立場を示しています。

> Other regions and countries, including the European Union, Japan, Singapore, and Israel also have laws that permit training models on copyrighted content

I love how you accidentally missed UK ;)
— ai_in_check (@ai_in_check) January 8, 2024

このツイートは、OpenAIが述べた「ヨーロッパ連合、日本、シンガポール、イスラエルなども著作権で保護されたコンテンツのモデルトレーニングを許可する法律がある」という主張に対し、イギリスもそのような法律を持っているにもかかわらず、言及されていない点を指摘しています。

AIのトレーニングと著作権の問題は国際的な議論の対象となっており、各国がどのようにこれらの問題を法的に取り扱うかは重要なテーマです。

“Other regions and countries, including the European Union, Japan, Singapore, and Israel also have laws that *permit training models on copyrighted content*—an advantage for AI innovation, advancement, and investment.”
— Sateler (@danielsateler1) January 8, 2024

「欧州連合、日本、シンガポール、イスラエルなどの他の地域や国にも、*著作権で保護されたコンテンツのトレーニングモデルを許可する法律*があり、これは AI のイノベーション、進歩、投資にとって有利です。」

衛星

‘Rare’ bug…🙄 pic.twitter.com/ZY0s3gLaYv
— FreeLee (@FreeLeeValuers) January 8, 2024

彼は「まれなバグ？」と疑問を投げかけています。今は修正されましたが、GPT-4のDALL-E3は以前は著作権で守られた物を生成していました。下記のNoteも併せてご覧ください。

“Regurgitation” is double speak for copyright infringement and plagiarism. If @OpenAI fails to remove intellectual property from its training data and math models, its business plan becomes utter rubbish. It renders itself uninvestable.
— Terence Plizga | @terence_plizga@mathstodon.xyz (@TerencePlizga) January 8, 2024

「逆流」は著作権侵害と盗作の二重の意味です。もし

@OpenAIトレーニングデータと数学モデルから知的財産を削除できなかった場合、その事業計画はまったくのゴミになってしまいます。それ自体が投資不可能になります。

テレンス・ブリンガ

Having AI write your article about why having AI train on articles should be okay is wild
— Trippy (@trippytheflash) January 8, 2024

なぜAIに記事のトレーニングをさせるのが問題ないのかについて、AIに記事を書いてもらうのはワイルドだ

トリッピー

これは興味深い試みだと思い、GPT-4にこう質問してみました。

筆者問：現行の人間に対する著作権法でOpenAIが勝つには？または、現行の著作権法を生成AIに当てはめる事が妥当なのか？妥当でない場合はこの訴訟に勝つには？OpenAI側の立場として弁明してみてください。

GPT-4返答：
選択肢1: 現行の人間に対する著作権法でOpenAIが勝つためには

弁明: 選択肢1: 現行の人間に対する著作権法でOpenAIが勝つためには

弁明: 現行の著作権法では、公的に入手可能な資料を使用してAIモデルをトレーニングすることは、「フェアユース」の原則に基づいて正当化される可能性があります。フェアユースは、教育、批評、パロディ、報道などの目的で著作権で保護された作品を使用することを許可する法的概念です。AIモデルのトレーニングは、新しい技術の開発と革新を促進するための教育的および研究的な活動と見なすことができます。

また、AIモデルは、膨大なデータセットからパターンを学習し、それを基に新しい情報を生成します。これは、個々の著作物を直接コピーまたは再配布するのではなく、抽象的な知識や概念を抽出して使用する行為とみなすことができます。そのため、現行の著作権法の枠組み内で合法的な活動として認められる余地があります。

ニューヨークタイムズが意図的に逆流現象を起こすためのプロンプトを使用した場合、これはOpenAIのモデルの通常の使用法や意図された使用目的とは異なります。OpenAIは、ユーザーに対してモデルを責任ある方法で使用することを期待しており、故意の逆流は利用規約に違反する行為です。そのため、ニューヨークタイムズのこのような行動は、OpenAIのフェアユースの主張とは別個の問題であり、モデルの不適切な使用を示しています。

加えて、OpenAIは逆流を防ぐための対策を講じており、このような稀なバグをゼロに減らすための努力を続けています。したがって、モデルの意図しない使用法によって生じた問題は、OpenAIのフェアユースの枠組みやモデルの設計意図とは関係がないと主張することができます。

選択肢2: 現行の著作権法を生成AIに当てはめるのが妥当でない場合

弁明: 現行の著作権法は、AIのような技術革新を想定していない可能性があります。したがって、これをAIに適用することは、技術の進歩とそれに伴う社会的、経済的利益を阻害することにつながりかねません。AIのトレーニングにおけるデータ使用は、従来の著作権法に基づく直接的なコピーまたは再配布とは根本的に異なるため、新しい法的枠組みが必要です。

この訴訟に勝つためには、AIが人間の創造性を補完し、新しい知識の形成とイノベーションに貢献する方法を強調することが重要です。AIによる学習と生成は、単なるコピーではなく、新しい形の表現と創造であるという点を明確にすることが求められます。

Winnyの開発者金子勇氏のケースと比較してみた

金子勇氏がWinnyの開発者として逮捕された後のWinnyの扱いと、OpenAIが訴訟を受けてChatGPTの学習データを削除するような事態になった場合の状況は、ある程度比較することができますが、いくつかの重要な違いがあります。

Winnyのケース

逮捕の理由: 金子氏は、Winnyを通じて著作権侵害や個人情報の漏洩が行われたことに関連して逮捕されました。
Winnyの使用: 金子氏の逮捕後も、Winny自体は違法ではなく、日本では違法なコンテンツの共有に使用されることが問題視されました。
技術の性質: WinnyはP2Pファイル共有ソフトウェアであり、ユーザーがどのように使用するかによって法的問題が生じました。

OpenAIとChatGPTのケース

訴訟の背景: OpenAIが訴訟を受ける可能性があるのは、AIの学習データの使用に関する著作権法の解釈に基づくものです。
ChatGPTの使用: ChatGPTの場合、技術そのものの適法性よりも、どのようにデータを学習しているかが焦点となります。
技術の性質: ChatGPTはAI言語モデルであり、トレーニングデータとその使用方法が法的な議論の中心です。

比較と違い

技術の使用と法的責任: 金子氏のケースでは、技術がどのように使用されるかが問題でした。一方、OpenAIのケースでは、技術の背後にあるデータの使用方法が問題です。
法的な結果: Winnyのケースでは、個々のユーザーの行動が問題でしたが、OpenAIのケースでは企業としてのデータ使用ポリシーが焦点です。

結論として、これらの事例は技術の使用方法と法的な責任において比較することができますが、関連する法的問題と技術の性質が異なるため、直接的な比較は困難です。

OpenAIの訴訟がどのような結果になるかは、まだ未知数です。今後の展開に目が離せません。

使用制限をかける方法を提案しているポストも

しっかりした使用要項に同意し、使用許可証を持っている人間にのみ使用を許可するというてもあるかもしれません。Midjourneyは無料版はありませんが、その場合ChatGPTの無料版も無くなる可能性があります。

OpenAIやMidjourneyは「わざと著作権的に問題ある出力させようと頑張るんじゃねえ！」ってユーザーに言ってて、実際Midjourneyはキャラ完コピ画像作ってtwitterで拡散してるユーザーをバンしてるらしい。そもそも論として悪意を持ったユーザーならヤバい出力が出せてしまうのがAIサービスの弱点。大阪…
— うみゆき@AI研究 (@umiyuki_ai) January 9, 2024

OpenAI報道機関にロイヤリティを支払う方向に転換

ニューヨークタイムズの二の舞にならないよう、ロイヤリティを支払う方向で動き始めたようです。

この記事が気に入ったらサポートをしてみませんか？

ニューヨークタイムズ訴訟にOpenAI見解： 「逆流」はまれなバグ