note.comの『robots.txt』を読み解く

karupoimou

2020年2月20日 00:41

webスクレイピングなどでwebサイトをクローリングする際に行わなければならないことの一つに「robots.txt」の記載内容の確認が挙げられます。

ここではnote.comのrobots.txtについて実際にどの様に記載されているのか読み解きながら、その内容を確認していきたいと思います。

予備知識：「robots.txt」とは

robots.txtとは、サイトを巡回するクローラーの動作をコントロールするために記述するテキストファイル（.txt）のことです。

予備知識：robots.txtと「.htaccess」との違い

robots.txtと似たようなものに「.htaccess」というファイルがありますが、.htaccessには強制性があるという違いがあります。

.htaccessとは？ - Qiita`htaccess` と言う単語自体はちょくちょく聞いたりしてたんですが、そもそも `htaccess` 自体が何なのかqiita.com

note.comのrobots.txtの場所

https://note.com/robots.txt

記載内容

# See http://www.robotstxt.org/robotstxt.html for documentation on how to use the robots.txt file
#
# To ban all spiders from the entire site uncomment the next two lines:
# User-agent: *
# Disallow: /

User-agent: *
Disallow: /*/message
Disallow: /*/terms/specified
Disallow: /*/menu/*
Disallow: /admin/*
Disallow: /_nourlname*
Disallow: /settings/*
Disallow: /library/*
Disallow: /embed/*
Disallow: /intent/*

User-agent: Livelapbot
Disallow: /

User-agent: Yahoo Pipes 1.0
Disallow: /

Sitemap: https://note.com/sitemap.xml.gz

記載内容の検証

# See http://www.robotstxt.org/robotstxt.html for documentation on how to use the robots.txt file
#
# To ban all spiders from the entire site uncomment the next two lines:
# User-agent: *
# Disallow: /

まず前半のコメントアウトされた部分にはrobots.txtの凡例が書いてあるようです。

User-agent: *
Disallow: /*/message
Disallow: /*/terms/specified
Disallow: /*/menu/*
Disallow: /admin/*
Disallow: /_nourlname*
Disallow: /settings/*
Disallow: /library/*
Disallow: /embed/*
Disallow: /intent/*

ここの部分ではクローリングを拒否するURLが記載されています。

「ログインした状態でないと見れない個人用のページ」や「運営管理用と思われるページ」が拒否設定となっているみたいです。

これを逆に言うと、ここに指定されていないURLは別にクローリングお断りという訳では無さそうです。

User-agent: Livelapbot
Disallow: /

User-agent: Yahoo Pipes 1.0
Disallow: /

ここでは拒否するクローラーについて２つ指定されています。

・Livelapbot
・Yahoo Pipes 1.0

この２つのクローラーについてweb検索で評判を見ると、どちらもあまり行儀が良くない動作をする（していた？）クローラーみたいです。

他のクローラーは指定されていないということは、特にクローリング自体を拒絶しているわけでは無さそうです。

Sitemap: https://note.com/sitemap.xml.gz

robots.txtの最後の部分にはサイトマップについて記載がされています。

note.comのサイトマップは.gzファイル形式に圧縮されているみたいですが、この.gzファイルは7zipなどのソフトで解凍し開くことができます。

開いてみたサイトマップの中身↓

今回のまとめ

今回はnote.comのrobots.txtの内容についてみていきました。

分かったこととしては、note.comは個人用ページや運営者用ページはクローリングを拒否しているものの、その他のページについては特に記載は無く、また一部の特殊なクローラーを除きけば一般的なクローラを拒否している訳でもないということでした。

次回以降について

robots.txtが大丈夫そうだったので、近いうちにwebスクレイピングによるnote.com分析をやっていきたいと思います！

フォロー・マガジン登録お待ちしています！

よろしければサポートお願いします。サポート？　サポート……、サポート！よろしくおねがいします！？