見出し画像

Pythonの基礎#19「Webクレイピング2」

今日は、Webページから情報を取得する「Beautiful Soupモジュール」についてです。
まず、Beautiful Soupモジュールのインストールから始めます。Macのコマンドプロンプトからインストールします。

pip3 install beautifulsoup4

昨日のrequestsオブジェクトと一緒に使って、グーグルの検索結果からaタグを取得してみましょう。

import requests, webbrowser,bs4

res = requests.get('https://www.google.com/search?q=python3')
soup = bs4.BeautifulSoup(res.text,'lxml')
for a in soup.find_all('a'):
     print(a.get('href')) 

・requestsモジュール、bs4(Beautiful Soup)モジュール、webbrowserモジュールをインポート
・グーグルで「python」を検索した結果をrequestsモジュールで取得
・Beautiful SoupでHTMLをバースし、要素を抽出
・aタグを取得し、href属性を表示

この記事が気に入ったらサポートをしてみませんか?