【Colab公開】PythonとBeautiful Soup 4を使ったWebスクレイピング

2023年8月28日 01:06

Web上には様々な情報が豊富に存在しています。その情報を取得する手段としてスクレイピングを用いることができます。

Colab実行環境上にPythonのBeautiful Soupを用いたノートブックを作成しました。サンプルのHTMLから様々なパターンで情報を取得することができます。

Colabノートブック上ではサンプルのHTML上でさまざまな要素を検索、取得しています。

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, "html.parser")
h1 = soup.find("h1")
print(h1)
<h1 class="main-heading">Welcome to My Website</h1>
 
 
a_all = soup.find_all("a")
print(a_all[0])
<a class="link" href="https://www.example.com" id="link1">Visit Example.com</a>
 
print(a_all)
[<a class="link" href="https://www.example.com" id="link1">Visit Example.com</a>,
 <a class="link" href="https://www.sample.com" id="link2">Visit Sample.com</a>]
 
text_area = soup.find("textarea", id="text-area2")
print(text_area.text)
Here's some content in the second text area.

また、pandasを用いてHTML上のtable要素から表形式のデータを取得する方法も紹介しています。

import pandas as pd

dfs = pd.read_html(html)
dfs[0] #pd.read_htmlの結果はリスト形式です。
	Header 1	Header 2
0	Row 1, Column 1	Row 1, Column 2
1	Row 2, Column 1	Row 2, Column 2
2	Row 3, Column 1	Row 3, Column 2

Pythonには様々なライブラリが存在し、その中でもBeautiful Soup 4はWebスクレイピングを簡単に行うための強力なツールです。Beautiful Soup 4はHTMLやXMLなどのマークアップ言語からデータを取得し、解析するための機能を提供します。

この記事では、Beautiful Soup 4を使った基本的なWebスクレイピングの手法について参考となるノートブックを紹介しました。ノートブックを用いることで初心者の方でもインタラクティブに理解できるようにしています。さまざまなシナリオでどのようにBeautiful Soup 4を活用できるかを学び、効率的な情報収集の手段としてWebスクレイピングを活用しましょう。

また、自社の管理下にないサイトに対してスクレピングをする際には利用規約などを確認しスクレイピングが許可されていることを確認の上、サーバーの負担にならないよう適切にアクセス頻度を抑える必要があることに留意してください。

この記事が気に入ったらサポートをしてみませんか？