【python学習日記③】
前置きが長くなっておりますが、早速勉強したことをアウトプットしていきます。
スクレイピングの順序
1.RequestsでHTMLを取得する
まずは、Requestsライブラリを使って、WebページのHTMLを取得していきます。urllibというライブラリでもHTMLは取得できますが、今回はRequestsを使っていきます。
2.取得したHTMLを解析する
Requestsで取得したHTMLは文字型(String)で表記されます。つまり、マークアップされていない状態です。そのため、BeautifulSoupを用いて、HTMLを理解するための解析を行います。
解析をすることで、どのタグの情報が欲しいかを選ぶことができるようになります。
3.自分が欲しい情報を取得する
ここまで来たら、欲しい情報をHTMLの構造から取得します。取得する際には開発者ツール(ディベロッパーツール)を使うことをおススメします。使い方は読みたいページの右クリックを押して、「検証」を押します。
WindowsではCtrl+shift+Iで開くことができます。
以上がスクレイピングの手順です。今回は、Anacondaを用いて練習していきます。
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?