Fess のクローリングがうまくいかないとき

Fess で一部のサイトではどう設定してもクローリングがうまくいかないことがある。おそらく Javascript が使われていることが関係しているようだ。

例えば note では特定ユーザーの投稿をクローリングしても、ある一定数以上で止まってしまう。

そういうときに強引に解決する方法は、あからじめスクレイピングによって全ページの URL を取得しておくことだ。そして Fess の「ウェブクロール設定」で以下のように設定する。

・URL:取得した URL すべて
・クロール対象とする URL:取得した URL すべて
・検索対象とする URL:(note の場合)https://note.com/{ユーザー名}/n/.*
・深さ:0

これでクロールを実行すればいい。

どんどん対象ページが増えていくと手間だが、そうでない場合はこういう手もある。

参考:
Playwrightを利用したクロール | 今日のひとこと
https://www.chazine.com/archives/4381


この記事が気に入ったらサポートをしてみませんか?