お手製のRubyクローラー@Mac

課題:SEOのために、自分とこのサイトの情報と、競合サイトの情報を知りたい。

何年か前に対応した時は、SEOspiderを使ったのだけど、いつの間にか有料ツールになってて、お値段が£149(2万円オーバー)する。しかも年間使用料で。
https://www.screamingfrog.co.uk/seo-spider/

やりたいことは「サイト内の全ページのURLとTitle,Description,H1をリストにして出力」なので、いまどきの開発言語ならそんなに難しくなかろう、と思い、手を出した。

というわけで、見よう見まねで作ったソフトがコレ。

テスト環境:
Mac 10.14
ruby 2.5.3
追加モジュールはanemone、nokogiri(だけだったと思う)

使用方法:
1.scrape_web_spider.rbをダウンロードして適当なフォルダに格納する。
2.macのターミナルでcdで格納フォルダに移動する。
3.コマンドを打つ。
ruby scrape_web_spider.rb https://note.mu/
4. 処理が始まります。
ターミナル上に処理中のURLが表示されます。
5.全ページの処理が完了後に、CSVファイルを出力して、終了。

気になっていること:
yahoo.co.jpをクロールしようとすると、失敗する。(なんでー?)
自分とこのサイトと、競合サイトはクロールできたので、良しとする。

この記事が気に入ったらサポートをしてみませんか?