note.comの『robots.txt』を読み解く
webスクレイピングなどでwebサイトをクローリングする際に行わなければならないことの一つに「robots.txt」の記載内容の確認が挙げられます。
ここではnote.comのrobots.txtについて実際にどの様に記載されているのか読み解きながら、その内容を確認していきたいと思います。
予備知識:「robots.txt」とは
robots.txtとは、サイトを巡回するクローラーの動作をコントロールするために記述するテキストファイル(.txt)のことです。
予備知識:robots.txtと「.htaccess」との違い
robots.txtと似たようなものに「.htaccess」というファイルがありますが、.htaccessには強制性があるという違いがあります。
note.comのrobots.txtの場所
https://note.com/robots.txt
記載内容
# See http://www.robotstxt.org/robotstxt.html for documentation on how to use the robots.txt file
#
# To ban all spiders from the entire site uncomment the next two lines:
# User-agent: *
# Disallow: /
User-agent: *
Disallow: /*/message
Disallow: /*/terms/specified
Disallow: /*/menu/*
Disallow: /admin/*
Disallow: /_nourlname*
Disallow: /settings/*
Disallow: /library/*
Disallow: /embed/*
Disallow: /intent/*
User-agent: Livelapbot
Disallow: /
User-agent: Yahoo Pipes 1.0
Disallow: /
Sitemap: https://note.com/sitemap.xml.gz
記載内容の検証
# See http://www.robotstxt.org/robotstxt.html for documentation on how to use the robots.txt file
#
# To ban all spiders from the entire site uncomment the next two lines:
# User-agent: *
# Disallow: /
まず前半のコメントアウトされた部分にはrobots.txtの凡例が書いてあるようです。
User-agent: *
Disallow: /*/message
Disallow: /*/terms/specified
Disallow: /*/menu/*
Disallow: /admin/*
Disallow: /_nourlname*
Disallow: /settings/*
Disallow: /library/*
Disallow: /embed/*
Disallow: /intent/*
ここの部分ではクローリングを拒否するURLが記載されています。
「ログインした状態でないと見れない個人用のページ」や「運営管理用と思われるページ」が拒否設定となっているみたいです。
これを逆に言うと、ここに指定されていないURLは別にクローリングお断りという訳では無さそうです。
User-agent: Livelapbot
Disallow: /
User-agent: Yahoo Pipes 1.0
Disallow: /
ここでは拒否するクローラーについて2つ指定されています。
・Livelapbot
・Yahoo Pipes 1.0
この2つのクローラーについてweb検索で評判を見ると、どちらもあまり行儀が良くない動作をする(していた?)クローラーみたいです。
他のクローラーは指定されていないということは、特にクローリング自体を拒絶しているわけでは無さそうです。
Sitemap: https://note.com/sitemap.xml.gz
robots.txtの最後の部分にはサイトマップについて記載がされています。
note.comのサイトマップは.gzファイル形式に圧縮されているみたいですが、この.gzファイルは7zipなどのソフトで解凍し開くことができます。
開いてみたサイトマップの中身↓
今回のまとめ
今回はnote.comのrobots.txtの内容についてみていきました。
分かったこととしては、note.comは個人用ページや運営者用ページはクローリングを拒否しているものの、その他のページについては特に記載は無く、また一部の特殊なクローラーを除きけば一般的なクローラを拒否している訳でもないということでした。
次回以降について
robots.txtが大丈夫そうだったので、近いうちにwebスクレイピングによるnote.com分析をやっていきたいと思います!
フォロー・マガジン登録お待ちしています!
よろしければサポートお願いします。サポート? サポート……、サポート!よろしくおねがいします!?