第2回 PythonでWEBスクレイピング→HTMLファイルとして保存

おはようございます。KUROMAMEです。

本日もPythonのWEBスクレイピングを実践していきます。

前回までのコードはこちらです。

1.import requests

2.res = requests.get('収集したいページのURL')

3.print(res.text)

これでWEBページのHTMLの情報が全て抜き取れましたね。今回は、

・抜き取った情報をHTMLファイルとして保存していきます。

それでは早速、先ほどのコードに追記していきましょう

1.import requests

2.res = requests.get('収集したいページのURL')

3.#print(res.text)

4.with open('保存したいhtml名(今回はyahoo.html)','w')as file:

5.  file.write(res.text)

すると・・・下記のエラーコードが発生しました。

UnicodeEncodeError: 'cp932' codec can't encode character '\xa9' in position 34569: illegal multibyte sequence

どうやらWindowsを使用すると上記のようなエラーコードが発生しやすいみたいですね。 解決方法の参考サイト↓

今回は

4.with open('保存したいhtml名(今回はyahoo.html)','w')as file:

の'w'の後ろに,encoding="utf-8"を追記しました。

4.with open('保存したいhtml名(今回はyahoo.html)','w',encoding="utf-8")as file:

すると

スクリーンショット 2020-11-07 070904

「yahoo.html」のファイルが新規で作成され、上記のようにhtmlが全て詰まったデータが出来ました。

今回と前回の記事で

1.WEBページを丸々抜き取る

2.それをHTMLファイルに保存する

までできましたね。

次回をお楽しみにしててください。

この記事が気に入ったらサポートをしてみませんか?