第2回 PythonでWEBスクレイピング→HTMLファイルとして保存
おはようございます。KUROMAMEです。
本日もPythonのWEBスクレイピングを実践していきます。
前回までのコードはこちらです。
1.import requests
2.res = requests.get('収集したいページのURL')
3.print(res.text)
これでWEBページのHTMLの情報が全て抜き取れましたね。今回は、
・抜き取った情報をHTMLファイルとして保存していきます。
それでは早速、先ほどのコードに追記していきましょう
1.import requests
2.res = requests.get('収集したいページのURL')
3.#print(res.text)
4.with open('保存したいhtml名(今回はyahoo.html)','w')as file:
5. file.write(res.text)
すると・・・下記のエラーコードが発生しました。
UnicodeEncodeError: 'cp932' codec can't encode character '\xa9' in position 34569: illegal multibyte sequence
どうやらWindowsを使用すると上記のようなエラーコードが発生しやすいみたいですね。 解決方法の参考サイト↓
今回は
4.with open('保存したいhtml名(今回はyahoo.html)','w')as file:
の'w'の後ろに,encoding="utf-8"を追記しました。
4.with open('保存したいhtml名(今回はyahoo.html)','w',encoding="utf-8")as file:
すると
「yahoo.html」のファイルが新規で作成され、上記のようにhtmlが全て詰まったデータが出来ました。
今回と前回の記事で
1.WEBページを丸々抜き取る
2.それをHTMLファイルに保存する
までできましたね。
次回をお楽しみにしててください。
この記事が気に入ったらサポートをしてみませんか?