プログラミング「超」初心者が、PythonでWEBサイトの文字を拾って、Excelに自動転記する試み【独学10日目】
概要
初めにお断りしておくが、これはノウハウを伝える記事ではない。プログラミング「超」初心者が、独学で得た情報を記す趣旨だ。結論から言うと、PythonでWEBサイトの文字を拾って、Excelに自動転記するにはスクレイピングのスキルが必要なことが分かった。
勉強時間
15:00~15:40
使用した教材
Google、YouTube
詳細
前回までの学習では、実際に実務で使っているExcelファイル間のデータ転記をやってみた。そして、今回やりたいのは、WEB上の「生徒管理システム」から氏名や生徒番号を取得し、Excelファイルに転記すること。いちいちコピペをしていたが、この作業が自動化できたら、かなり助かる。
そこで、「Python web上の文字 Excel」などどググってみる。たくさんの検索結果が出るが、Excel間の転記のことしか書いていない。
しかし、4~5記事を読みこむと、どうやらwebスクレイピングする必要があることが分かった。「これならできそう!」と思わせてくれたのはこちらのブログだ。
僕が理解した範囲で、手順は次の2段階だ。
1.いったん「生徒管理システム」をスクレイピングし、氏名や生徒番号が記載されたExcelファイル1を作る
2.ファイル1を、Pythonで実務用のExcelファイルに自動転記
段階1は、次のとおり行う。
1.PythonでWEB上の「生徒管理システム」にログイン
2.生徒氏名や番号が記載されたページからHTMLファイルをダウンロード
する。
3.HTMLファイルを解析して必要な部分のデータだけ抜き出す。
4.抜き出したデータを編集してEXCEL表形式で保存する。
そのために、次のモジュールを使う
WebからHTMLファイルをダウンロードするモジュール
HTMLを解析して、必要なデータを抜き出すモジュール
段階2は、openpyxlモジュールを使って、自動転記するだけ。
以上、理屈上は、2段階を経ればできることが分かった。
次にやること
webスクレイピングについて、ひとまず動画で学ぶ。教材としては、YouTubeかUdemyのコースがいいと思う。もしくはその両方。分からないところを補い合いつつ、WEBスクレイピングの基礎をマスターしようと思う。
この記事が気に入ったらサポートをしてみませんか?