見出し画像

「生成AIに画像を勝手に使われないようにXからBlueskyに避難する」のは完全に無意味です


要約

  1. プログラミングにおける「スクレイピング」を使えばWebサイトから自動的に大量の画像を簡単に取得できる。

  2. スクレイピングは基本的なテクニックであり、生成AI企業などもこれを使って学習データをインターネットから得ている。

  3. イラストの投稿先がXだろうがBlueskyだろうがWeb上からアクセスできるサービスであればどれでも簡単に取得されてしまう。

  4. どうしても自分のイラストを使われたくないなら間に何かをかませるか、スマホアプリなどWebサイトからアクセスできないサービスを使うべき。

はじめに

最近イーロン・マスクがX上の画像をMidjourneyに学習データとして提供するという話が上がり、絵師界隈で「Xに画像を投稿すると無断で生成AIの学習に使われてしまうからBlueskyなど他のサービスに移行します!!」という動きがありました。しかし、ある程度プログラミングやコンピュータサイエンスをやってる人であれば皆「うーん…」ってなると思います。なんていうか、根本的な解決になってないんですよね。

どうやってインターネット上からデータを取得するか

多くの人が「生成AI企業や研究者はインターネット上から大量のデータを取得してAIの学習に利用している」ことを知っていると思いますが、具体的にどうやって実現しているかは分かっていないと思います。

例えばスマートフォン/PCからSafariやChromeといったブラウザでXのWebサイト(https://twitter.com/home)にアクセスしたとします。このとき、Xのサーバー(インターネットを通して世の中の様々なデバイスにデータを送り届けるためのコンピューター)からスマートフォン/PCにWebサイトを表示するための様々なデータが(情報を外部に盗まれないよう暗号化した上で)送信されます。

タイムラインの画面を表示するときは、画面全体のデザインを表示するための設計図、個々のツイートのデータ(テキスト、画像、動画、音声など)が送り届けられ、SafariやChromeといったブラウザが設計図をもとに色々な要素を正しい位置に配置します。ユーザーが画面をスクロールすれば更にツイートを表示するためにサーバーからもっとたくさんのツイートのデータが送られます。


Webサイト-ブラウザ間のデータやり取りのイメージ

つまり、https://twitter.com/homeというURLにアクセスするだけでXのサーバーから自動的にツイートとして表示するための画像などのデータがたくさん送られてくるというわけです。プログラミングを学んだことがある人であれば知っている人も多いでしょうが、スクレイピングというテクニックを使えば手動でブラウザを操作しなくてもこういうやり取りをプログラムで自動的に行えます。「X、Instagram、Bluesky、Googleで『スプラトゥーン』と検索した時に表示される画像を1万件ずつ取得する」みたいなこともできるわけです。一応言っておくと上記のようなスクレイピングは一流の凄腕プログラマーでないと使いこなせないようなテクニックなどではなく、情報系の専門学校や大学に通っている学生なら8割方できるよねっていうレベルのものです。

よって、たとえXだろうがBlueskyだろうがWebサイトからアクセスできるサービスにイラストをたくさん投稿しつつ、それらのイラストを外部の人に勝手に取得されたくないというのは不可能だと思った方が良いと思います。

じゃあどうするよ

対策1:「Webからアクセスできないサービスを使う」

「生成AIの無断学習への対策」として一番効果的だと思うのがこれです。スクレイピングはWebサイトに対して行うものなので、スマホアプリなどに対しては行えません。ですのでWebサイトが存在しないサービスである場合プログラムで自動的にイラストを取得する難易度は著しく上がります。

まあ現状そういうサービスでかつイラストを書かない人にも大きな訴求力があるものがあるかは分かりませんが……。とはいえ、ここまで生成AIに画像を使われたくない!というムーブメントが広がっているんだから、そういうスクレイピングによる被害を気にせず投稿できるコミュニティを作っていこうぜ!みたいな動きがあってもいいんじゃないでしょうか。というか正直こんなに生成AI嫌悪のムーブメントがあるのにこういう方向性の動きが全くないのは何でなんでしょうか…?

対策2:「画像を表示するまでの間にワンクッションあるサービスを使う」

次点で効果がありそうなのが、画像表示にワンクッションあるサービス。たとえばポイピクとかはパスワードを入力しないと表示されなかったりしますし、その他にも「何かボタンを押さないと画像が表示されない」サービスはたまにありますよね。こういったサイトでスクレイピングをしようとするとパスワードの入力やボタンを押す操作まで含めてプログラムで自動化する必要があるため(Webサイトの実装がどうなっているかにもよりますが)、格段にイラストを取られにくくなります。

対策3:「AI学習対策の加工をかける」

最初に引用したツイートにも書いてましたが、「Glaze」など画像データに加工をかけてAIモデルの学習時に邪魔をする技術があるそうですが、ざっと調べた感じまだまだ技術的には発展途上かなという気がします。過度な期待はしないほうが良いと思います。

何で生成AIなんぞのために俺達がこんな面倒な対策をしなければならないんだ!!

…という声があがりそうな気もしますが、先述のWebの仕様やスクレイピングという技術は、20〜30年前、つまりSNSやスマートフォンが普及する遥か前から存在しているものです。誰でも簡単に大量に画像などのデータを自動的に取得できるようなインターネットという土壌の上に我々の生活基盤が建っているということです。生成AIなどが世に出るまで、インターネットから特定の画像を大量に取得するということは別にやろうと思えばできるけど特にメリットがないからやらない、やるにしても個人で使うくらいしか用途がない状態だっただけです(というか以前の記事でも述べましたが(生成)AIという技術自体現在全ての人類がどっぷり依存しきっているものなので今更なくしようがない)。なのでまあしょうがないという面はあるかなあと思います…。

おわりに

今回の記事もわかりやすさを優先して厳密さを欠いたところがありますので、訂正すべきところがあればご教示頂けると幸いです。

この記事が気に入ったらサポートをしてみませんか?