pythonで簡単なスクレイピングを実装しました！～2020.06.22～

2020年6月22日 23:25

こんにちは！kittyomoです！

今日はスクレイピングに関して学びました！そのことについて簡単に日記として記していきたいと思います！

・まずはインストール！

$ pip install requests
$ pip install beautifulsoup4

インストールが完了したらpythonが使える環境で実装します！

私は最近環境構築したjupyter notebookで実装しました。

import requests 
from bs4 import BeautifulSoup

これでインポートが完了です。

#スクレイピングしたいURL
url = "https://scraping-for-beginner.herokuapp.com/ranking/"
html = requests.get(url)
html_data = BeautifulSoup(html.content , 'html.parser')#html.contentのデータを解析してhtml_dataに渡している
print(html_data)

・要素を一つだけ取り出す方法

#html_data.find("タグ名")で指定した要素を一つ見つけて取り出す
html_data.find("li")

・テキストのみを抽出する方法

#html_data.find("タグ名").textでテキストだけ取得することができる
html_data.find("li").text

・要素をすべて抽出する方法

#html_data.find_all("タグ名")で指定した要素をすべて見つけて取り出す
html_data.find_all("li")

・すべてテキストのみ抽出

#テキストのみをすべて取得したい場合はfor文を使用する
for elements in html_data.find_all("li"):
   print(elements.text)

・クラスを指定することも可能

#classやidを指定して検索することも可能
active = html_data.find(class_ = "active")
active

・指定したテキストの抽出

#activeのliのみ抽出
active.find_all("li")

以上です！

皆さんいかがでしたか？？

スクレイピング意外と簡単にできますよね！HTMLのデータ構造をわかっているとなおいいのかなって思います。

これをきにHTMLとかCSSも勉強してみてもいいんではないでしょうか？？

本日はこれでおしまいです。

でわ！

この記事が気に入ったらサポートをしてみませんか？