ヘッドレスでスクレイピングを行う。
今までちょっとした動的サイトのクスクレイピングはphantomjsを使っていた
だが、無料プランだと1時間おきで行っても月のlimitに引っかかる場合が多くなったので、他のツールを使いたいなと思い、chatGPTに訪ねた。
※scrapy使えば並列でクローリングができるっぽい
https://qiita.com/polikeiji/items/94062c1d9ef2f86a0c27
一番上に出ていたpuppeteerを今回は使ってみる。
最終的にはlambdaにて定期実行をしてクローリングできたら嬉しい。
使い方をchatGPTに聞いてみる。
これのとおりに実装を行う。
node scraping.js で実行するとスクショが取れた。はっや
これで、html要素を取得して、特定の情報を取得できるようにすれば、自分の求めてたものになりそうです。
結局、Lambda上でやるには、それ専用のライブラリをインストールする必要がありました。
この記事が気に入ったらサポートをしてみませんか?