Pythonの基礎＃18「Webクレイピング1」

2019年5月29日 23:23

Webのコンテンツをpythonを使ってダウンロードすることができます。このようにWebサイトから情報を抽出するコンピュータの技術を「Webクレイピング」と言います。Pythonでは、以下のモジュールがあります。

・webbrowser：ブラウザで指定したURLページを開く
・Requests：ファイルやWebページをダウンロードする
・Beautiful Soup：HTMLをパースする
・Selenium：ブラウザを起動して制御していく。フォームに入力したりマウスをクリックしたりするシュミレートができる

import webbrowser as wb

wb.open('http://www.yahoo.co.jp')

上記でYahooのトップページがブラウザで開きました。

Requestsモジュールは、インストールする必要があるので、コマンドラインからインストールします。

pip3 install requests

import requests
res = requests.get('https://www.python.jp/')
res.status_code == requests.codes.ok
print(res.text[:250])

requests.codes.okは取得成功を意味するコードです。requestsオブジェクトのstatus_code属性で取得が成功したかどうか判別できますね。

今日は、ここまで。

この記事が気に入ったらサポートをしてみませんか？