pythonで簡単なスクレイピングを実装しました!~2020.06.22~

こんにちは!kittyomoです!

今日はスクレイピングに関して学びました!そのことについて簡単に日記として記していきたいと思います!

・まずはインストール!

$ pip install requests
$ pip install beautifulsoup4

インストールが完了したらpythonが使える環境で実装します!

私は最近環境構築したjupyter notebookで実装しました。

import requests 
from bs4 import BeautifulSoup

これでインポートが完了です。

#スクレイピングしたいURL
url = "https://scraping-for-beginner.herokuapp.com/ranking/"
html = requests.get(url)
html_data = BeautifulSoup(html.content , 'html.parser')#html.contentのデータを解析してhtml_dataに渡している
print(html_data)

・要素を一つだけ取り出す方法

#html_data.find("タグ名")で指定した要素を一つ見つけて取り出す
html_data.find("li")

・テキストのみを抽出する方法

#html_data.find("タグ名").textでテキストだけ取得することができる
html_data.find("li").text

・要素をすべて抽出する方法

#html_data.find_all("タグ名")で指定した要素をすべて見つけて取り出す
html_data.find_all("li")

・すべてテキストのみ抽出

#テキストのみをすべて取得したい場合はfor文を使用する
for elements in html_data.find_all("li"):
   print(elements.text)

・クラスを指定することも可能

#classやidを指定して検索することも可能
active = html_data.find(class_ = "active")
active

・指定したテキストの抽出

#activeのliのみ抽出
active.find_all("li")

以上です!

皆さんいかがでしたか??

スクレイピング意外と簡単にできますよね!HTMLのデータ構造をわかっているとなおいいのかなって思います。

これをきにHTMLとかCSSも勉強してみてもいいんではないでしょうか??

本日はこれでおしまいです。

でわ!


この記事が気に入ったらサポートをしてみませんか?