pythonで簡単なスクレイピングを実装しました!~2020.06.22~
こんにちは!kittyomoです!
今日はスクレイピングに関して学びました!そのことについて簡単に日記として記していきたいと思います!
・まずはインストール!
$ pip install requests
$ pip install beautifulsoup4
インストールが完了したらpythonが使える環境で実装します!
私は最近環境構築したjupyter notebookで実装しました。
import requests
from bs4 import BeautifulSoup
これでインポートが完了です。
#スクレイピングしたいURL
url = "https://scraping-for-beginner.herokuapp.com/ranking/"
html = requests.get(url)
html_data = BeautifulSoup(html.content , 'html.parser')#html.contentのデータを解析してhtml_dataに渡している
print(html_data)
・要素を一つだけ取り出す方法
#html_data.find("タグ名")で指定した要素を一つ見つけて取り出す
html_data.find("li")
・テキストのみを抽出する方法
#html_data.find("タグ名").textでテキストだけ取得することができる
html_data.find("li").text
・要素をすべて抽出する方法
#html_data.find_all("タグ名")で指定した要素をすべて見つけて取り出す
html_data.find_all("li")
・すべてテキストのみ抽出
#テキストのみをすべて取得したい場合はfor文を使用する
for elements in html_data.find_all("li"):
print(elements.text)
・クラスを指定することも可能
#classやidを指定して検索することも可能
active = html_data.find(class_ = "active")
active
・指定したテキストの抽出
#activeのliのみ抽出
active.find_all("li")
以上です!
皆さんいかがでしたか??
スクレイピング意外と簡単にできますよね!HTMLのデータ構造をわかっているとなおいいのかなって思います。
これをきにHTMLとかCSSも勉強してみてもいいんではないでしょうか??
本日はこれでおしまいです。
でわ!
この記事が気に入ったらサポートをしてみませんか?