AIの学習データに関する訴訟

リュディアです。最近、いくつかの訴訟を含めAIが学習に使ったデータじたいが違法なものであった、という問題が表面化しています。これは根が深そうなのでこれからも見ていきたいのでまずは紹介です。例として次のようなニュースがあげられます。

このロイター通信のニュースだけだとよくわからないかもしれませんので補足します。詳細な内容はこちらを参考しました。

簡単に書くと Meta や OpenAIの AI が、学習に利用したデータセットの1つ Books3は多数の書籍で構成されているのですが、その Books3 というのが違法な電子書籍データをもとに作られたものだそうです。シャードーライブラリと呼ばれる BibliotikZ-Libraryはご存じですか?無許可で学術誌を含む多数の書籍の電子データを公開していることからシャドーライブラリ = 影の図書館と言われています。これらのデータを使って学習をした Meta や Open AIの AIじたいが問題と主張されているようです。

日本経済新聞でも日本のプリファードネットワークスも同じような問題に出くわし、海賊版データを削除したデータセットで学習しなおしたとのことです。

これは怖いですね。学習用データセットのどこに何が潜んでいるか事前にすべて確認する必要があります。現実的なのでしょうか?私には正直なところよくわかりません。プリファードネットワークスが海賊版の書籍データを削除したような問題はまだよいと思うのですが、膨大なニュース記事やネットにある情報を学習に使ってよいかどうか判断する必要があるとなると技術的な問題以外の要因で技術が停滞する可能性があります。

1つは法を変更することですね。国にまたがる法の変更になると思いますが、ネット上で普通に見える情報にはAIが学習への利用は不可と記載していなければOKとするというものです。これであればメディアや新聞など、あるいみ情報をビジネスにしている人たちは守られると思います。ただ現実的なのでしょうか、あるいはAIがデータ不足で停滞する可能性もありますね。

難しい問題です。今後も引き続き見ていきたいと思います。

では、ごきげんよう。

この記事が気に入ったらサポートをしてみませんか?