見出し画像

Pythonの基礎#18「Webクレイピング1」

Webのコンテンツをpythonを使ってダウンロードすることができます。このようにWebサイトから情報を抽出するコンピュータの技術を「Webクレイピング」と言います。Pythonでは、以下のモジュールがあります。

・webbrowser:ブラウザで指定したURLページを開く
・Requests:ファイルやWebページをダウンロードする
・Beautiful Soup:HTMLをパースする
・Selenium:ブラウザを起動して制御していく。フォームに入力したりマウスをクリックしたりするシュミレートができる

import webbrowser as wb

wb.open('http://www.yahoo.co.jp')

上記でYahooのトップページがブラウザで開きました。

Requestsモジュールは、インストールする必要があるので、コマンドラインからインストールします。

pip3 install requests
import requests
res = requests.get('https://www.python.jp/')
res.status_code == requests.codes.ok
print(res.text[:250])

requests.codes.okは取得成功を意味するコードです。requestsオブジェクトのstatus_code属性で取得が成功したかどうか判別できますね。

今日は、ここまで。




この記事が気に入ったらサポートをしてみませんか?