golangでスクレイピングを行うgoqueryの使い方と注意点
Go言語を使用してウェブスクレイピングを行う場合はgoqueryというライブラリが便利です。
jQueryのような文法を使用してHTMLドキュメントを解析し、操作することができます。
goqueryの使い方
goqueryのインストール
最初にgoqueryライブラリをインストールする必要があります。以下のコマンドを実行してインストールします
go get github.com/PuerkitoBio/goquery
ウェブページの取得
ウェブページのHTMLを取得するためには、net/httpパッケージを使用してHTTPリクエストを行います。
package main
import (
"fmt"
"log"
"net/http"
"github.com/PuerkitoBio/goquery"
)
func main() {
res, err := http.Get("http://example.com")
if err != nil {
log.Fatal(err)
}
defer res.Body.Close()
if res.StatusCode != 200 {
log.Fatalf("status code error: %d %s", res.StatusCode, res.Status)
}
doc, err := goquery.NewDocumentFromReader(res.Body)
if err != nil {
log.Fatal(err)
}
doc.Find("div.content").Each(func(i int, s *goquery.Selection) {
title := s.Find("h1").Text()
fmt.Printf("Title: %s\n", title)
})
}
スクレイピングの注意点
法的な問題
スクレイピングする際は対象のウェブサイトの利用規約を確認し、違法にならないように注意してください。
特に、スクレイピングによってサーバーに過度な負荷をかける行為や、著作権で保護されたコンテンツの抽出は問題となることがあります。
スクレイピングの倫理
ユーザーエージェントを偽装する、アクセス頻度を制御する、スクレイピングしたデータの利用方法について倫理的に慎重に考慮するなど、責任あるスクレイピングを心がけてください。
ロボット排除標準
robots.txtファイルを確認し、ウェブサイトの所有者がスクレイピングを許可しているかどうかをチェックしてください。
このファイルはウェブサイトのルートに配置されており、どのエージェントがどのページにアクセスできるかを指定しています。
golangをもっと詳しくなりたい方に
初めてのGo言語
Go言語の入門から応用まではこの一冊で網羅されています。説明も順序立てて説明されており完成度の高い参考書となっています。
詳解Go言語Webアプリケーション開発
こちらはGo言語の基礎知識を得たあとに読むことをすすめる本となっています。ハンズオン形式で手を動かしながら実装をしていくことができるため、実際の開発を意識しながらGo言語を学ぶことができます。
以下の記事では他にも筆者が実際に読んでおすすめしたい本をまとめています。
【Go入門】Golang基礎入門 + 各種ライブラリ + 簡単なTodoWebアプリケーション開発(Go言語)
まだGo言語の勉強を始めていない方、全くの初心者の方にはこちらのUdemy教材が最もおすすめです。
この教材ではgolangの基礎について網羅的に学ぶことができます。ただ見て学ぶだけでなく、講座の中でアプリ作成まで行うことで学んだことの理解をさらに深めることができます。
現役シリコンバレーエンジニアが教えるGo入門 + 応用でビットコインのシストレFintechアプリの開発
個人的に最も勉強になったのは「現役シリコンバレーエンジニアが教えるGo入門 + 応用でビットコインのシストレFintechアプリの開発」という教材です。
本格的なレクチャーに入る前に、なぜGoなのか、なぜFintechなのかについて説明されていることで、Goの概念や意味について大枠から理解することができます。
以下の記事では筆者が実際に受講したおすすめUdemy教材をまとめています。
この記事が気に入ったらサポートをしてみませんか?