見出し画像

多くの人が勘違いしているAIのクリーンなデータセットについて

多くの人が勘違いしているAIのクリーンなデータセットについて

✅一般の人が考えるクリーンなAIのデータセット
 →AIへの学習が許諾された絵を少数だけ学ばせる

✅実際のクリーンなAIのデータセット
 →極端に類似する絵がない状態の大量データから共通点を学ばせる

どんなに許諾管理をしても、許諾を出した人がトレパクして提出していればAIは著作権を侵害してしまいます。

それに比べて大量のデータから共通パターンを見つける場合は、そもそも、個性の強い著作権由来の情報は捨てられます。大量のデータを使ったトレーニングは共通点だけを学び、著作権侵害になる様なオリジナリティを破棄します。

つまり、生成AIにとってクリーンではないデータは、過学習という間違って共通パターンではないものを学んでしまうケースです。

なので、50億もの絵を学ばせたから、多くの人の権利を侵害してるというのはよくある誤解です。

これに対して、明らかに似たような絵が大量に混じってるケースがクリーンではないデータセットです。

この場合、共通パターンと勘違して著作権に該当する個性を学んでしまいます。この場合学習元の絵をそのままだしたような絵が出てしまう事もあります。

こういった技術的な問題を考えるとき、一般の人が想像する違法データセットという表現はかなり誤解を招いていると思われます。

技術的に理想的なクリーンなデータセットは、十分に異なった絵が含まれたものになります。実は許諾されているかどうかは、ほとんど関係ありません。もし許諾されてない絵やプライバシーを侵害する写真が少数混じっていても、学習されずに捨てられます。

これとは別に、LoRAなどの追加学習は、共通パターンを認識する仕組みではなく、少数の絵から個性を学習します。LoRAなどを使う場合は、デルタもんの取り組みのように、明確に許諾された安全なデザインのデータを使用すべきです。image to image (i2i)などの画像加工にAIを使う場合も同様に許諾された絵を使うべきです。

これらの問題は法律による学習規制ではなく、出力された絵が著作権を侵害しているかを判定する現行法だけで十分に管理出来ます。出力した絵に依拠性がある場合に、どのような方法で絵を描いたか、悪意があったかが争点になると思います。悪意がなければマイクロソフトのように訴訟費用を肩代わりしてくれるケースもあります。

これは、AIの学習システムには過学習によるエラーも極稀に起こるためです。こういった問題はAIの本質的な問題ではなく、管理ミスによって極稀に発生するエラーの問題です。


この記事が気に入ったらサポートをしてみませんか?