ノベレコ通信【緊急号】

先週6/3より起きていた、ノベレコに置いてハーメルンのデータが収集出来なくなっていた案件の一部始終と、そしてそれに伴う仕様変更、今後の話についてお話しさせていただきます。

現状

ハーメルン様のご厚意により、データ収集機能は回復しております。
ただ、一度途絶えたタイミングでリンク切れになった小説のデータ復旧は、手動でやっておりますので、もうしばらくかかります。

何が起きていたか

6/3より、ハーメルン様側がアクセス規制を強化し、ノベレコもそれに引っかかりました。

ノベレコが外部サイトの情報を取得する方法は、外部サイト側が公式に用意しているデータ提供の仕組みを使っているか、スクレイピングという人力ではなく機械でHPを定期的に見に行ってその内容をチェックする仕組みを使っているかの2種類があるのですが、ハーメルン様の情報を取得する方法は後者でした。

機械的にやるということは、やろうとすれば人間がやれる速度の数百倍以上の速度でアクセスが出来ると言うことであり、ちょっと調整をミスると所謂F5アタックとかのような、過剰なアクセスでサイトに迷惑をかけることが容易になってしまうし、
人力で見れる範囲のものとは言えデータを取っていってるワケなので、そういうことをしてそうなところは積極的にブロックする理由が出来る訳です。

リンク切れがいっぱい!

運営側が規制強化でデータが取れなくなっていることに気づいたのは6月6日でした。

同日、ハーメルンを作っている人から直接声明。

現状のハーメルン作品の登録数

確認してみると、サイト開設からの二年半でノベレコに登録されていたハーメルン作品は1751件!
サイト内登録作品の約6割近くに匹敵。

そして、これらの作品の更新状況をチェックするために、毎日2周ほどハーメルンをアクセスしていたので、
つまり毎日3000件以上のアクセスを行っていたことになり……これは……そりゃ……怒られるだけの量なのでは……?と不安になる運営。

向こうから拒絶される恐れのある方法でデータを収集していた為、怒られても仕方ないのではあるが、いきなりサイトに登録されているデータの6割が機能不全になると運営の危機にも繋がってしまう。

大手サイトではあるが、ハーメルン様は窓口が明確な個人運営サイト。
真摯に「ご迷惑をおかけしております。こういう目的でこういうことやっています。負荷がなるべくかからないような方法に致しますので、アクセス許可をいただけないでしょうか」とお話しすれば返事がある可能性はあるのではないか……そんな不躾な頼みに一縷の望みを託し、メールを送った運営。


そして返ってきたメールは、

クローリングについては、通常利用者の多い日中時間帯を避けていただき、午前3時~5時台を目安に実行いただけますと幸いです。

許された!?!?!?

にじファン崩壊の際にハーメルンを作ったこと自体がもはや神と崇めるべき偉業であるというのに、不躾なお願いにまで応じてくださるとか、これはもうただの神ではない……仏………最早足を向けて眠れません。

詳細な変更点

そういうわけで、負荷をかけないようにしつつ深夜帯にやってくださいね、というご指示を守る為、サイトの仕様のうち以下の部分を変更しました。

・データの更新を行うのを午前三時台と午後八時台から、午前三時台のみに変更

これにより、実質的に当日の更新分ではなく、前日の更新分を反映する形となりました。

・登録された全件の状況を毎日自動的に取得するのではなく、前日に更新された分だけを取得更新するように変更

これにより、リンク切れの作品や新話投稿無しに編集を行なった作品が即座には反映されなくなりました。
小説家になろうの作品情報は現状毎日全件取得しているので、なろうに掲載している作品に関してはこの変更点はありません。

・登録作品更新日カレンダーに記録されるものが、最終更新日ではなく、6/8以降にサイト側で取得された更新日に変更

実質的に当日ではなく前日までの更新を反映するようになった代わり、更新状況についての記録を行うようになりました。


上記の通り、自動更新の規模を縮小しました。

……つまり、現状登録されているハーメルンのリンク切れ作品は、ハーメルン様側の負荷にならないよう、時間をかけて、ゆっくりと、手動で1700件以上の更新状況の確認をしていく必要がある為、こちらの復旧はもう数日お待ちいただきますようお願い致します。


今後とも【Web小説サーチエンジン】ノベレコをよろしくお願い致します。

あと開発支援も募集中ですので、1700件以上の処理を人力で行うことになった管理人を応援していただけるのであれば、何卒……

この記事が気に入ったらサポートをしてみませんか?