見出し画像

noteは生成AIの学習でスクレイピング/クロールされているか? - エンゲージメントだけが信じられる -

結論から言いますと、noteは生成AI(LLM AI)の学習に使われているようです。
一時期のPrometheusのBingだとnoteのURLを指定するとなんらかのことが行われている痕跡がありました。
ただ、OpenAI/MSとGoogleは検索のクロールと同時にChatGPT、Bardなどの学習をやっているように見えました。
ChatGPTが古いデータを見れないので断定はできないですが、兄弟・姉妹のPrometheusを見ているとBingのデータを使っていたので。
この検索エンジンと一緒にスクレイピング/クロールされると防ぎようがないです。
いまのインターネットで検索されないととにかくきついです。

その数です。
まず、noteのビュー(PV)の仕様がよくわからん。
これ、noteユーザーでログインしているユーザーだけが見た数字なのか、http通信が発生した回数かがわからん。
ここからは個人的な経験からの推測です。
5年ぐらい前、レンサバでwordpressをやっている時で当時はまだLLMは確立されていなくてdeep learningですが、それでも海外サーバからのアクセスが多いと思っていました。
くせが強くて、日本語でしか書いていないわたしの文章が海外からのアクセスが発生するわけもなくほぼスクレイピングのデータ収集と思われるものでした。
これが1日5PVぐらい発生していました。
いまのnoteの自分のビューを追っていると、おおむね4月以降、数字の変化があるように見えます。
ただ、スキの数は信用していいです。
そうするとエンゲージメント率が狂っているんですよね。
スキの数ではなくて、パーセントの率です。
思っているより多く生成AI(LLM AI)の学習は走っているんじゃないかな。

わたしはビジネスをやっていないからいいですが、ビジネスのマーケティングをやっている方だと、正確な数字がわからなくて仕事にならないと思います。
極端なことを言いますが、スモールビジネスのECショップやHPなんて1日3桁いや2桁ぐらいのPVなんてよくある話です。
ただ、そこからでもいままでは傾向が読み取れました。
いまはそれができない。

結局、信じれられるのはスキのエンゲージメントだけ。
noteだとアカウントがあってログインしていないとスキはつけられないのでbotにはできない。
備忘録的にマーキングでスキをつけている方は読者ですので、そこは気にしなくていいと思います。

この記事が気に入ったらサポートをしてみませんか?