ヘッドレスでスクレイピングを行う。

2023年4月8日 11:01

今までちょっとした動的サイトのクスクレイピングはphantomjsを使っていた

だが、無料プランだと1時間おきで行っても月のlimitに引っかかる場合が多くなったので、他のツールを使いたいなと思い、chatGPTに訪ねた。

(Scrapyって動的サイトスクレイピングできたっけ…)

※scrapy使えば並列でクローリングができるっぽい
https://qiita.com/polikeiji/items/94062c1d9ef2f86a0c27

一番上に出ていたpuppeteerを今回は使ってみる。
最終的にはlambdaにて定期実行をしてクローリングできたら嬉しい。
使い方をchatGPTに聞いてみる。

丁寧に教えてくれる

これのとおりに実装を行う。

node scraping.js で実行するとスクショが取れた。はっや

これで、html要素を取得して、特定の情報を取得できるようにすれば、自分の求めてたものになりそうです。

結局、Lambda上でやるには、それ専用のライブラリをインストールする必要がありました。

この記事が気に入ったらサポートをしてみませんか？