レッツゴースクレイピング


スクレイビングかと思ってたらスクレイピングだった。


これを参考。


取得対象はこのサイト


htmlから情報を抽出するときは、XPathを指定して抽出する。要するにほしい情報が入ったhtmlのパスを指定すればいいよう。


ほしい部分の情報はChromeのデベロッパーツールを使ってページのソースをみて、右クリック→XPathのコピーで取得した。ネストしててほしい部分を探すのが少し大変だった。きっとうまい探し方があるのだらう。


こんだけのコードで、

import urllib.request
import lxml.html

url = "https://aws.amazon.com/jp/aws-jp-faq/#top-five"
html = urllib.request.urlopen(url).read()
tree = lxml.html.fromstring(html)
result = tree.xpath('//*[@id="aws-page-content"]/div/div/main/section/div[3]/div[2]/div/div/div/div/div[1]/div/div/div/div/div[2]/div/p[1]/b')
for elem in result:
   print (elem.text)


あっさりとれた

Q. 自動音声電話によるアカウント認証 (電話認証)に失敗したのですが、どうしたら良いですか?




この記事が気に入ったらサポートをしてみませんか?