【python学習日記⑤】BeautifulSoup

Requestsを使って、HTMLコードを入手できました。次は、データを取得します。しかし、このままでは取得できません。なぜなら、Requestsで入手したデータはString型になっており、タグも文字として認識されます。

つまり、タグから情報が欲しいと思ってもマークアップされていない状態でのテキストでは情報は入手できません。そのため、HTMLを理解するためにBeautifulSoupを利用します。

BeautifulSoupの入手方法はまずコンソール上でインストールをします。コマンドプロンプトを開き、以下を入力します。

pip install beautifulsoup4

次はRequestで入手したURLをbeautifulSoupで解析します。

url = "入手するページ"
r = requests.get(url)

soup = BeautifulSoup(r.text)

soupにHTMLとしてのコードができました。これでタグを指定するだけで情報を入手することができます。例えば、aタグを入手したい場合は

soup.find("a")

で入手することができます。しかし、このままでは一番最初のaタグの情報しか入手できません。では、どうやってすべてのaタグを入するのか。findの文をfind_allにするだけで、入手可能になります。

以上で、情報を取得するまでができました。これで、スクレイピングの基礎の基礎できるようになりました。後は、もっと細かくタグを指定する方法などを勉強していきます。

この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?