生成AIの無断学習を防ぐ個人HPの作り方
自分の大事な創作物を生成AIのデータセットにされたくないクリエイターの皆様、こんにちは。
Twitterやその他さまざまなプラットフォームが、投稿されたデータを生成AIのデータセットにしている現状を憂いているのではないでしょうか。
このnoteでは、生成AIの基盤モデルに用いるデータセットに対してコンテンツを可能な限り追加させない個人HPの作り方を紹介します。
免責事項
このnoteは「ITでご飯食べてるけどWeb系に詳しくないエンジニア」が書いてます。WordPress初めて触ったのでベストプラクティス等に沿ってないかもしれません。不正確な内容を含む可能性があります。また、クローリングを意図通りに拒否できているかどうかはデータセットを直接見ない限りわかりません。
このnoteの通りにするとどうなるか
FC2ホームページにてWordPressを用いた個人HPを持つことが出来ます。
作成した個人HP内のコンテンツについて、生成AIの基盤モデルに用いるデータセットのためのクローリング(コンテンツを探してダウンロードする一連の動き)を現時点で可能な限り拒否します。
クローラを拒否する方法を公開していないデータセットもあるため、全ての生成AIの基盤モデルのデータセットに使われないとは限りません。
クローラがお行儀よく拒否を受け入れるとは限りません。
クローラ側は「この記事で書かれている手法を取ればクロールしない」と宣言していますが、本当にそうしているかは証明できません。
Google検索にヒットさせるかどうかは選択できます。
Google検索にヒットさせたい場合、SGE(Google検索に搭載された生成AI)からも参照できるようになります。
URLを知っている悪意を持った人間がコンテンツを個別に生成AIに学習させる事には対処できません。
このようなケースに対処したい場合、下記の手段を検討してください。
コンテンツ共通:投稿時に悪意を持った人間を弾けるようなパスワードをかける
画像:NightshadeやGlaze、Mistを利用する
当記事のスコープ外なので詳述しません
WordPressって何?
WordPressとは、簡単に言えば「ブログのような利用しやすい投稿システムを備えた個人HP管理ツール」です。コンテンツの管理しやすさとHPとしてのカスタマイズ性を両立したツールで、類似ツール(CMSと言います)の中でトップシェアを誇ります。
手順の概要
FC2への登録・WordPressのインストール
テーマ「EASEL」のインストール
無断学習拒否用子テーマ「EASEL Anti-AI」のインストール
robots.txtの編集
1.FC2への登録・WordPressのインストール
FC2のアカウントを取得した上で上記リンクの「WordPressを無料登録」のボタンを押してください。
希望のアカウント名(アドレス)とカテゴリーを決めて利用規約に同意しホームページを設置すると、FC2ホームページの管理ページに遷移します。
その中に「WordPressを始める」というバナーがあるため、改めて押して遷移した先で「WordPressを無料登録」のボタンを押してください。
図1のようなWordPressのインストールに伴う設定画面に遷移します。
ユーザー名はアカウント名がそのまま使われるようです。ここで改めてパスワードとメールアドレスを聞かれますが、これはWordPressの管理画面にログインするために使用するものです。
設定したら「WordPressを始める」ボタンを押してください。FC2のサーバー内でWordPressのインストールが始まります。
10分程度経過した後に「WordPressにログイン」を押してください。
図2のようなWordPressへのログイン画面に遷移します。
先程設定したユーザー名とパスワードを入力してログインを押してください。
図3のような画面が出ればWordPressのインストールまでが完了です。
2.テーマ「EASEL」のインストール
WordPressには「テーマ」という概念があります。これはHP全体のデザインを設定するもので、世の中にはさまざまなテーマが公開されています。
このnoteでは「創作・同人サイトに特化した多機能WordPressテーマ」を謳うEASELを利用する方法を記載します。
上記リンクの「ダウンロード」からEASELのzipファイルをダウンロードしてください。
ダウンロード後、WordPress管理画面の左メニューから「外観」→「テーマ」を選択し「新規追加」から「テーマのアップロード」に進みます。
先程ダウンロードしたEASELのzipファイルをアップロードしてインストールします。インストール完了後「有効化」を押します。
ここまで実行したところで一旦HPを見てみましょう。
WordPress管理画面の左上にHPのアドレスが書かれているのでクリックしてください。
図4のようになっていれば成功です。
3.無断学習拒否用子テーマ「EASEL Anti-AI」のインストール
WordPressには「子テーマ」という概念があります。
これは使用しているテーマに対して部分的に修正を行いたい際に使う機能で、親となるテーマがアップデートされても修正部分を保持することができます。
当記事では子テーマを用いて生成AIのデータセットを作成するクローラの一部からのアクセスを拒否します。下記zipファイルをダウンロードし、上述のEASELをインストールしたのと同じ方法でインストール・有効化してください。
なお、EASEL以外でこの子テーマを利用したい場合は付録1を参照してください。また、この子テーマが何をしているのかを知りたい場合は付録2を参照してください。
2024/3/8 追記
Google検索にヒットさせたい場合は上記のかわりに下記を使ってください。
4.robots.txtの編集
Webサイトにrobots.txtという設定ファイルを置くことがあります。これは検索エンジン等のクローラに対してアクセスを許可するか否かを設定するものです。生成AIのデータセットを作成するクローラの一部はrobots.txtを編集することでアクセスを拒否できます。
WordPressはデフォルトではrobots.txtを自動生成しますが、これを意図した形に書き換えるためにプラグインを導入します。
WordPress管理画面の左メニューから「プラグイン」→「新規追加」へ進みます。
右上の「プラグインの検索」に「WP Robots Txt」と入力し、検索結果に出てきたWP Robots Txtをインストール・有効化してください。
左メニューから「設定」→「表示設定」に進み、Robots.txt Contentのテキストボックス内に下記を追記し「変更を保存」を押してください。
User-Agent: Google-Extended
Disallow: /
User-Agent: Googlebot
Disallow: /
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: CCBot
Disallow: /
User-agent:Mozilla/5.0 (compatible; ImagesiftBot; +imagesift.com)
Disallow: /
User-agent:Mozilla/5.0 (compatible; VelenPublicWebCrawler/1.0; +https://velen.io)"
Disallow: /
なお、Googleの検索結果としてヒットさせたい場合は
User-Agent: Googlebot
Disallow: /
を削除してください。ただし、Google検索の生成AIからは参照可能になります。
その先、個人HPとして使っていくために
お疲れ様でした、これにてWordPressの初期設定及び無断学習拒否までが完了しました。
この後はいよいよ個人HPとしてコンテンツを拡充していくターンになりますが、そこについては筆者自身の知見が足りないため他記事を参照していただければと思います。
見た目を編集したければ「WordPress EASEL」等で検索することで沢山の知見を得ることが出来ます。
WordPress自体の使い方、特に投稿の仕方や個人HPとしての体裁の整え方(トップページ等の作り方、コンテンツのタグ付けによる振り分け等)についてはこちらのページが詳細に記載してくださっています。
また、EASELを配布してくださっているガタガタさんによるこちらのページも、特にWordPressで個人HPを作りたい方には良いリファレンスになると思います。
参考にしたページ
各種クローラのブロック方法はこちらのページを参照しました。
なお、他のクローラについて「これもブロックしたい!」というものがある方はコメントください。
子テーマを作成するにあたってはこちらのページを参照しました。
付録1 EASEL Anti-AIの他テーマでの使用
EASEL Anti-AIをEASEL以外を親テーマにして使用したい場合は下記の通りにしてください。
anti-ai.zipを解凍しstyle.cssを開く
「Template: easel」行のeaselを利用したい親テーマの名前に書き換える
圧縮しWordPressへアップロードしてインストールする
付録2 EASEL Anti-AIがしてること
各ページのhead内に下記のmetaタグを追加しています。
<meta name="bingbot" content="noarchive">
<meta name="robots" content="noimageai, noai">
<meta name="googlebot" content="noindex">
2024/3/8追記
EASEL Anti-AI with googleは上記からgooglebotのみ削除しています。
付録3 StopBadBotsプラグイン
StopBadBotsというプラグインで各種クローラからのアクセスを制御することも出来ます。ただし少々上級者向けです。
詳細は下記のページを参照してください。
https://katata.info/2018/04/wp-plugin-stopbadbots-in-japanese/