スクレイピングしていいのかプログラムで確認してみた【python】(robotparser)
私のYouTubeチャンネルではプログラミングについての動画を投稿してきました。
その中でよく再生されているのがPython関係、特にスクレイピング関連の動画です。
どうやらみなさんスクレイピングが大好きのようですね。
実は私はほとんどスクレイピングを使いません。
理由は3つあります。
1つ目はスクレイピングの対象となるwebサイトがスクレイピングしても良いのか調べるのがめんどくさいということです。
robots.txtと利用規約のチェックが地味に大変なのですよね。
2つ目はスクレイピングしたいと思うサービスはだいたいスクレイピングを禁止しているということです。
というかスクレイピングを許可しているサイトってあるんですかってくらいに見つからないです。
3つ目はスクレイピングしたいwebサイトではAPIが用意されていることがほとんどだからです。
なので私は基本的にはスクレイピングを使わずにAPIを使って情報を取得しています。
こっちのほうが確実だし、安全ですからね。
スクレイピングって使い方を間違えると大変なことになる可能性があります。
知っている方も多いと思いますが、よく例で上がるのがこの1件。
この件では逮捕された男性は最終的には起訴猶予処分となりましたが、誰しも逮捕なんてされたくはありません。
スクレイピングを使うならば、ちゃんとルールを守る必要があるのですが、先程述べたようにrobots.txtや利用規約を読むのってめんどくさいです。
そんなときにpythonの標準モジュールでrobotpaserというものを知りました。
これはrobots.txtの内容を解析し、そのwebサイトがスクレイピングを許可しているのかどうかを調べてくれるものです。
とても便利そうなので、ちょっと使ってみた感想を今回お話したいと思います。
よかったら最後までご覧ください。
今後もプログラミングや英語に関した記事を書いていきたいと思いますので、よければサポートよろしくお願いします!