見出し画像

N.Y. TimesのChatGPTへの大規模訴訟 / 心肺停止か?

N.Y. TimesのChatGPTへの大規模訴訟でLLM業界全体に心肺停止 or 立ち往生など疑問視する声が波紋を広げてます。


裁判の行く末次第でChatGPTは機能麻痺

ニューヨーク・タイムズは、ChatGPTの開発者であるOpenAIに対して、事前学習データの使用に対する補償を求める訴訟を起こしました。

この問題は、「情報や知識に関する社会的な制度をどのように構築するか」という根本的な問題にかかわっており、非常に重要です。

これまでの経緯を見ると、ニューヨーク・タイムズはその記事を無断でAIのトレーニングに使用することを禁止しています。したがって、OpenAIが事前学習でニューヨーク・タイムズの記事を使用していないことを証明できない限り、罰金の対象になります。

訴訟の結果によっては、侵害ごとに最高15万ドルの罰金が科される可能性があり、大きな影響があると報道されています。

また、OpenAIは連邦裁判官からChatGPTのデータセット全体を完全に再構築するよう命じられる危険性もあると報じられています。

このような高額な罰金を課され、さらにシステムの再構築が要求されれば、OpenAIの事業は深刻な打撃を受ける可能性があります。

さらに、問題はニューヨーク・タイムズだけにとどまりません。同様の訴訟が、さまざまなメディアや個人から提起される可能性があります。これらのケースに対応することは事実上不可能です。そして、この状況はOpenAIだけでなく、生成AIを開発するすべての企業に影響を及ぼすでしょう。そのため、訴訟の結果は生成AIの将来に深刻な影響を与えることになります。


知識の価値とは?


この問題には、複数の側面が存在します。最初の側面は、知識の価値がどのように生成されたかに関連しています。

ChatGPT(あるいは他の大規模言語モデルも含む)は、事前学習の過程で大量のテキストを読み込み、そのスキルを向上させました。要するに、これらのテキストから経済的な価値を生み出しました。

ここで問題になるのは、その価値がどのように生まれたのかという点です。

ニューヨーク・タイムズの記事には、これまでにも経済的な価値が存在し、それは購読料の支払いという形で報われてきました。しかし、生成AIは別の方法で新たな価値を創出しました。これは、生成AIモデルの存在によって初めて実現したものであり、そのため、生じた利益は生成AIの所有者に帰属するべきだと主張されることもあります。

ただし、事前学習に使用されたテキストがなければ、その価値は実現できなかったことから、生み出された価値の相当部分は元のテキストの作成者に還元されるべきだとする立場も合理的です。


著作権とその報酬

では google の bot は著作権を侵害してないか?などの疑念も過去には存在していました。かつて 2005年前後、google 検索には「キャッシュ」というのがあったのをご存知でしょうか?著作権とその報酬を巡る議論が盛んになり、その経緯は不明ですが、google は「検索キャッシュ」を取り下げました。

この割り当てについてどのように決定すべきかは、これまで見たことのない問題です。私たちは今後この問題に取り組む必要があり、それは簡単な作業ではないでしょう。

事実、ニューヨーク・タイムズはかつてOpenAIとの取引を模索しましたが、合意には至らず、結果として現在の裁判の状況となっています。

とはいえ、この問題を解決する必要があります。答えを見つける過程で、メディアとAI生成の未来の形が大きく変わるかもしれません。

さらに、この課題はニューヨーク・タイムズだけのものではなく、他の出版物にも影響を及ぼすでしょう。実のところ、日本新聞協会をはじめとする4つの組織が、8月17日に声明を出しています。

解の方向によっては、メディアの未来の形状が大きく変わるかもしれません。特に日本では、相手方が外国企業であるため、対価の問題も生じています。

さらに、料金が高騰すれば、OpenAIはChatGPTの無料提供が難しくなるかもしれない。これまでの無料や低価格のサービスが限定されるかもしれないので、これは大変な課題です。

AI生成が伝統的なメディアを取って代わることも想像されます。もし生成AIがニューヨーク・タイムズの記事を学習の材料として使うなら、利用者は生成AI経由で記事にアクセスするかもしれません。

この結果、ニューヨーク・タイムズのサブスクリプションの必要性が低下する可能性があります。もしChatGPTが情報源として機能するならば、ニューヨーク・タイムズの事業運営に影響を及ぼす可能性があり、ニューヨーク・タイムズはこれを非常に重要な問題と位置づけています。

この問題は、有料の情報だけでなく、無料のオンライン記事にも影響を及ぼすかもしれません。多くのサイトは広告からの収益を得ていたり、特定の記事から商品やサービスへと誘導して利益を得ています。しかし、元のコンテンツが生成AIを通じて利用可能になった場合、人々が直接サイトを訪れる必要がなくなる可能性があります。

事実、ChatGPTに問い合わせた際、ニューヨークタイムズの有料記事の情報が提示されることが時折ありました。そこで、Bingなどのツールを使い、オンラインの記事の内容を確認するテストを行ったことがあります(参照:2023年7月2日公開「生成系AI、ウェブ記事サイトの終焉をもたらすか? 革命的な変化の可能性」。また、私の書『「超」創造法』(幻冬舎)の2023年9月公開の第12章も参照してください)。

これは「ウェブ・スクレイピング」という手法です。この技術を利用すれば、直接ウェブサイトを訪れることなく、内容を把握することが可能となります。

この実験の結果について上記の書籍で詳しく記述しています。実験の結果は一様ではなく、ケースによっては内容が正確でないこともあれば、部分的に正確であることもありました。

さらに、ChatGPTの有料版であるGPT-4は、5月にウェブスクロールという機能を追加しました。しかし、有料コンテンツにもアクセスできるとの批判があり、このサービスは速やかに停止となりました。そして、その機能は今も停止したままです。

この問題は現状、まだ解決の糸口が見えず、今後どのように変わるかは予測困難です。しかしながら、この問題が今後の社会に与える影響は計り知れないものであることは確かです。

知識の生成には資源が必要です。そのため、知識の価値が正当に評価されないと、知識の供給は減少するか、もしくは消失する恐れがあります。しかし、コストが高額になれば、多くの人々がそれを利用することができなくなります。どのようにしてこのバランスを取るのか、そしてそれに基づく社会制度をどう築くのかは、未来の社会の核心的な課題となります。

ニューヨーク・タイムズの訴訟は、この問題に関する最初の法的戦いであり、その結果がどうなるかは大きな関心事です。



この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?