【python学習日記③】

2021年2月4日 19:45

前置きが長くなっておりますが、早速勉強したことをアウトプットしていきます。

スクレイピングの順序

１．RequestsでHTMLを取得する
まずは、Requestsライブラリを使って、WebページのHTMLを取得していきます。urllibというライブラリでもHTMLは取得できますが、今回はRequestsを使っていきます。

２．取得したHTMLを解析する
Requestsで取得したHTMLは文字型(String)で表記されます。つまり、マークアップされていない状態です。そのため、BeautifulSoupを用いて、HTMLを理解するための解析を行います。

解析をすることで、どのタグの情報が欲しいかを選ぶことができるようになります。

３．自分が欲しい情報を取得する

ここまで来たら、欲しい情報をHTMLの構造から取得します。取得する際には開発者ツール（ディベロッパーツール）を使うことをおススメします。使い方は読みたいページの右クリックを押して、「検証」を押します。

WindowsではCtrl+shift+Iで開くことができます。

以上がスクレイピングの手順です。今回は、Anacondaを用いて練習していきます。

この記事が参加している募集

#最近の学び

184,914件

この記事が気に入ったらサポートをしてみませんか？