Fess のクローリングがうまくいかないとき
Fess で一部のサイトではどう設定してもクローリングがうまくいかないことがある。おそらく Javascript が使われていることが関係しているようだ。
例えば note では特定ユーザーの投稿をクローリングしても、ある一定数以上で止まってしまう。
そういうときに強引に解決する方法は、あからじめスクレイピングによって全ページの URL を取得しておくことだ。そして Fess の「ウェブクロール設定」で以下のように設定する。
・URL:取得した URL すべて
・クロール対象とする URL:取得した URL すべて
・検索対象とする URL:(note の場合)https://note.com/{ユーザー名}/n/.*
・深さ:0
これでクロールを実行すればいい。
どんどん対象ページが増えていくと手間だが、そうでない場合はこういう手もある。
参考:
Playwrightを利用したクロール | 今日のひとこと
https://www.chazine.com/archives/4381
この記事が気に入ったらサポートをしてみませんか?