Pythonの基礎#18「Webクレイピング1」
Webのコンテンツをpythonを使ってダウンロードすることができます。このようにWebサイトから情報を抽出するコンピュータの技術を「Webクレイピング」と言います。Pythonでは、以下のモジュールがあります。
・webbrowser:ブラウザで指定したURLページを開く
・Requests:ファイルやWebページをダウンロードする
・Beautiful Soup:HTMLをパースする
・Selenium:ブラウザを起動して制御していく。フォームに入力したりマウスをクリックしたりするシュミレートができる
import webbrowser as wb
wb.open('http://www.yahoo.co.jp')
上記でYahooのトップページがブラウザで開きました。
Requestsモジュールは、インストールする必要があるので、コマンドラインからインストールします。
pip3 install requests
import requests
res = requests.get('https://www.python.jp/')
res.status_code == requests.codes.ok
print(res.text[:250])
requests.codes.okは取得成功を意味するコードです。requestsオブジェクトのstatus_code属性で取得が成功したかどうか判別できますね。
今日は、ここまで。
この記事が気に入ったらサポートをしてみませんか?