python+seleniumで動画検索

2020年6月21日 17:14

seleniumっていうのはブラウジングを自動化するツールで、pythonとかのプログラミング言語と組み合わせれば動的なサイトでもちゃんと動くスクレイパーがサクッと書けます

実は私はseleniumの使用歴が数日程度のただの初心者ですが、それなりに使えている（つもり）ので扱いやすくできてるツールなのでしょう
それでも、ハマったポイントがいくつかあったので備忘録として残すことにしました

なんでseleniumを使いだしたかというと・・・

利用規約に抵触する可能性があるので名前を伏せますが、とある大手動画投稿サイトはWeb APIを公開しているのですが、利用申請しても一日当たりの利用可能なクエリ数上限が小さくて動画検索とかに使うとあっという間に使い切ってしまいます
割り当てを増やすこともできますが、割り当て追加の理由とかを英語で書いて提出して審査を受けないといけないので面倒です

ということでWeb APIの使用を極力減らすためにseleniumで検索をするスクリプトを書いてみたわけです

seleniumとWebDriverのインストール

python、selenium、WebDriverのインストールの仕方は他所でもいっぱい書かれているのでここでは言及しません
よくseleniumをpipで入れろっていう解説サイトが多いですが、anacondaを使っている人はcondaで入れましょう

今回はWebDriverとしてchromedriverをD:\Application\chromedriver.exeへインストールしました

簡単なサンプル

とりあえず、一例としてyoutubeを開いて、そのページの内容を抽出するコードを書いてみましょう

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support.expected_conditions import presence_of_element_located
import time

driver = webdriver.Chrome(r"D:\Application\chromedriver.exe")
wait = WebDriverWait(driver, 20)

url = "https://www.youtube.com/"
driver.get(url)

# "ytd-video-renderer"タグが現れるまで待機
tag_name = "ytd-rich-grid-video-renderer"
wait.until(presence_of_element_located((By.TAG_NAME, tag_name)))

# 各要素を表示
for elem in driver.find_elements_by_tag_name(tag_name):
   print(elem.text)
time.sleep(5)
driver.quit()

これだとページを開いたときに表示されている分だけしか取得されないですが

body = driver.find_element_by_tag_name("body")
body.send_keys(Keys.END)

とかを適当なところにいれると、Endキーを押したときのようにページの最後までスクロールさせてもう少し読み込ませたりできます

elem.textじゃなくて、htmlのソースが欲しいなら以下のように書けます

elem.get_attribute("innerHTML")

これでとりあえず動くのですが、実はブラウザがサーバーから受け取った情報が全部htmlに反映されているわけではないので、さらに情報が欲しいときはもう少し頑張らないといけません

Ajaxの通信内容を覗く

javascriptを使ってちょっとずつ情報を読み込むサイトはかなり多いですが、そういうサイトでブラウザがサーバーから受け取った情報をそのままプログラムに渡せたら嬉しいですね
こういうのは、webdriverの機能としてついているもんだと思っていたのですが、調べた限りではそういう情報はみつからず、代わりにBrowsermob-Proxyというのを使ってHAR (HTTP Archive) formatのデータを抽出するのが一般的なようです
Browsermob-Proxyはjavaで書かれた通信ログを取り出せるプロクシサーバーで以下のサイトから入手できます
https://bmp.lightbody.net/

また、pythonからBrowsermob-Proxyを扱えるようにするラッパーは以下のサイトから入手できます
https://github.com/AutomatedTester/browsermob-proxy-py

インストールできたら、ちょっとスクリプトを書いてみましょう
Browsermob-ProxyはD:\Application\browsermob-proxy-2.1.4にインストールしました

from browsermobproxy import Server
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

server = Server(r"D:\Application\browsermob-proxy-2.1.4\bin/browsermob-proxy.bat")
server.start()
proxy = server.create_proxy()

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument("--proxy-server={0}".format(proxy.proxy))

driver = webdriver.Chrome(r"D:\Application\chromedriver.exe", chrome_options=chrome_options)
proxy.new_har("youtube", options={'captureHeaders': True}) 

driver.get("https://www.youtube.com/")
time.sleep(5)
body = driver.find_element_by_tag_name("body")
body.send_keys(Keys.END)
time.sleep(5)
print(proxy.har)

これをそのまま実行するとchromeが警告を出してきてページが開けません
これは、browsermob-proxyのインストールフォルダにあるssl-supportフォルダ内のca-certificate-rsa.cerをブラウザの証明書に追加すれば解決するようです
具体的な手順でいうと、スクリプトをデバッグモードで実行し、ブラウザが起動したあとくらいにブレークポイントを仕掛けてスクリプトを止めておいて、ブラウザの設定>セキュリティ>証明書の管理>信頼されたルート証明機関>インポートで先ほどのファイルを選択すればOKです
一回やっておけば次からはしなくて大丈夫です

あと、プロクシのポート番号を指定したい場合はこう

server = Server(r"D:\Application\browsermob-proxy-2.1.4\bin/browsermob-proxy.bat", options={"port": port_number})

キャプチャ内容がもっと欲しい場合は proxy.new_har の options を{'captureHeaders': True, 'captureContent': True, 'captureBinaryContent': True} とかすればより多くの情報が保存されますが、けっこうなサイズになるので必要に応じてオプションを指定してください

これでデータが拾えるようになったのですが、まだハマりポイントがありました

base64エンコードされたjsonに関して

harの中に、例えば以下のようなデータがあったら

"content": {
  "size": 21194,
  "mimeType": "application/json;charset=utf-8",
  "text": "R0AREABC8CAAAcEAAAAB/wAB/IAPSA0BBVZpcmVvBTIuNS4zQQSHKP//..."
  "encoding": "base64",
  "comment": ""
},

とりあえず text の内容を base64 デコードすればjsonのデータが得られそうな気がするのですが、base64デコードするとバイナリデータが返ってきて結構悩みました

実はレスポンスのヘッダー部分に

{
  "name": "content-encoding",
  "value": "br"
},

と書いてあって、これはBrotliというアルゴリズムで圧縮されているという意味のようです
gzipとかなら圧縮してるんだなとすぐ分ったでしょうけど、Brotliは最近使われだした圧縮フォーマットらしくて全く知りませんでした

Brotliのライブラリはcondaでうまくインストールできなかったのですが、以下のサイトからpythonのバージョンに合わせて適切なwhlファイルを入手してきて、アーカイバで開いてスクリプトのフォルダの下に解凍しました

base64デコードした後で、Brotliでdecompressするとちゃんとjsonフォーマットのデータが得られました

import brotli

brotli.decompress(base64.b64decode(text)).decode(encoding="utf_8")

この記事が気に入ったらサポートをしてみませんか？