『OpenAI、RedditのデータをAI学習に利用する契約締結。心配事もある。』～【web3&AI-テックビジネスのアイディアのタネ】2024.5.18

2024年5月18日 11:26

「先進テックで未来の生活はもっと良くなる！」と信じて、Web3・AI・ガジェットなどのデイリーニュースから毎日ひとつピックアップしてご紹介しています。

新規ビジネスのアイディアのタネがほしい方、未来を想像してワクワクしたい方、読んでちょっといいなと思った方、ぜひフォロー・高評価よろしくお願いします！

■OpenAI、RedditのデータをAI学習に利用する契約締結

　米OpenAIと米Redditは5月16日（現地時間）、「RedditとOpenAIの両方のユーザーコミュニティにさまざまな方法で利益をもたらすパートナーシップを結んだと発表した。

OpenAI社が、世界最大の掲示板型ニュースメディア「Reddit」との提携を発表しました。

今回の提携では
1．Redditの膨大な書き込みをChatGPTなどOpenAI社のAIの学習データに使うこと
2．OpenAI社のAI機能をRedditのユーザーに提供すること
3．Redditの「Data API」をChatGPTで使用可能になり、リアルタイムのコンテンツからChatGPTが応答できるようになること
4．OpenAIがRedditの広告パートナーになること
などが発表されています。

Redditが日本であまり流行っていないのでピンと来ない人が多そうですが、ChatGPTの実用性をかなり上げるのではないかと思います。

一方、2つほど心配事もあります。
・Redditの構造上、間接的に無許諾のニュースサイトから学習することにならないか？
・AIがAIのデータで学習し続けることにならないか？その弊害なないのか？

良い点と心配な点を整理してみたいと思います。

ChatGPTが最新トレンドをリアルタイム応答できるように

3．Redditの「Data API」をChatGPTで使用可能になり、リアルタイムのコンテンツからChatGPTが応答できるようになること

RedditはネットニュースなどのURLを「Community」と呼ばれるジャンル分類ごとのグループに張り付けてスレッドを立て、そのニュースについてコメントで盛り上がるという使い方をします。

例えば

「マッドマックスフュリオサ」のニュースでスレッドを立てて、マッドマックスのファン同士で過去作や今回作についてコメントで盛り上がるような使い方をします。

その時々の流行りの情報がRedditに集まってくるとも言えます。すなわちChatGPTに何か質問した時に、最新情報から返答ができるようになるという「時事性」をChatGPTが身に着けられると言えます。

間接的に無許諾のニュースサイトから学習することにならないか？

1．Redditの膨大な書き込みをChatGPTなどOpenAI社のAIの学習データに使うこと

膨大なコンテンツ量とユーザー数を誇るRedditを学習元にすることでChatGPTは賢くなるチャンスを得たのですが、一方Redditの構造上、Reddit外のニュースサイトなどの情報を学習元にすることになるのかもしれません。

Redditユーザーのコメントだけを学習するのかもしれませんし、どんなニュースが話題になっているのかだけ参照してニュースメディア上の記事文章は参照しないのかもしれません。

ここは憶測なので決めつけることはできませんが、「Redditが持つ膨大なコンテンツ」で学習できることに期待が集まる一方、AIの無断学習について反発を招く恐れはないかな、と心配になります。

OpenAIと、同社に出資し独自のAIチャットボットを持つMicrosoftは4月、New York Daily News、Chicago Tribune、Orlando Sentinelなど8の新聞社から、許可なくニュースコンテンツをチャットボットの訓練に使用したとして提訴された。

反AI勢からの反発だけでなく、新聞社から提訴されてもいます。ネット上の情報はオープンなものとして学習データに使用していいのか、著作権法的に問題がなくても商業権の侵害には当たらないのかなどは懸念されます。

AIがAIのデータで学習し続けることにならないか？

2．OpenAI社のAI機能をRedditのユーザーに提供すること

OpenAI社が何の機能をRedditユーザーに提供するかによりますが、コメントなどの文章生成の機能を提供してしまうと、AIが生成した文章でAIが学習するループになります。

ハルシネーションという間違った情報を生成してしまうことがまだ多い生成AIの文章を学習データにすると、より間違った情報を生成するようになる恐れがあります。

そうでなくても掲示板サービスやSNSなどは根拠のない噂話や意図的な風説などが飛び交う場所ですから、人間が書いた文章でも学習元として適していないものも多くあります。さらに加えてAIのハルシネーションによる誤ったデータが加えられるとなると、今回のRedditを学習データに使い始めたことをきっかけにChatGPTの精度が下がらないのかが心配です。

まぁそんなことくらいOpenAI社の天才たちは理解しているでしょうけれど、実際にどのような対策をするのかは情報を出してほしいと思います。

Redditとの提携でChatGPTが最新データやトレンドという概念を扱えるようになるというポジティブな面は非常に興味深いので、ネガティブなところを払拭して、より実用的なChatGPTに進化することに期待です。

この記事が気に入ったらサポートをしてみませんか？