27,000冊の書籍が許可なくスキャン：Prosecraftの背後にある問題

Yuki

2023年8月9日 00:40

要約

多くの作家が、彼らの書籍が許可なく大規模なデータセットにアップロードされ、スキャンされたことを知った。
Prosecraftは、Shaxpirのクラウドワードプロセッサのプロジェクトで、27,000冊以上の書籍を収集し、言語の「鮮明さ」に基づいて比較、ランキング、分析した。
多くの著者、特にMaureen JohnsonやCeleste Ngなど、はProsecraftが彼らの書籍を許可なくモデルトレーニングに使用したことに反対の声を上げた。
Prosecraftの創設者、Benji Smithは、2017年から存在していたウェブサイトを取り下げた。
SmithのProsecraftは生成型AIツールではなかったが、彼がインターネットをクローリングして見つけた公開書籍から四半期の単語のデータセットを集めていたため、著者たちはそれが生成型AIツールになる可能性を懸念していた。
Prosecraftは、書籍から「最も受動的」な段落と「最も鮮明」な段落の2つの段落を表示し、それがどれだけ鮮明で、どれだけ長く、どれだけ受動的であったかに基づいてパーセンタイルランキングに配置した。
AIツールの急増により、アーティストや作家は常に新しいデータベースからオプトアウトする必要があり、その作品が別のAIモデルのトレーニングに使用されていることを発見する。
生成型AIと自己出版の背後にある技術は、詐欺的な活動のための完璧な嵐を作り出している。 Amazonは、低品質のAI生成の旅行ガイドやAI生成の子供の本であふれている。

仕方がないかな

中国が特にAIに力を入れてる以上ある程度著作権が無視されるのは許容するしかないと思っている。

市場ごと取られるよりは良い。

この記事が気に入ったらサポートをしてみませんか？