【2日目】クローリングとスクレイピング、そしてPythonを僅かにかいつまむ【THE PIANO】
こんばんは。
きょうは一日雨かなと思ってましたが夕方になると雨はあがり陽がさしていました。そしてそんなに肌寒くもなく窓をあけて半袖で過ごすのに快適な気候でした。
(なぜタイトルに「PIANO」が含まれているのか気になった方は、1日目の記事に説明がありますので、よかったらご覧ください)
さてさて、買おうか迷ってた以下の本は、結局買いました!
そして昨日今日で、ざざっと流し読みしました。
読んだ感想としては情報量が膨大で理解が全然追いついてません。
そもそもの知識不足なこともあり、コマンドやスクリプトの類は9割ちんぷんかんぷんです。なので、どういった操作が自動化できるかを知っておいて、必要な時になったらその時考えればいいかなとゆるく考えています。
大きな気づきとしては、収集したデータの利用には著作権や利用規約・個人情報に注意すること、そして収集するサイトへの負荷も配慮することが必要だったことです。
そして、クローラーを使って情報を収集することを「クローリング」、その収集した情報の中から、必要な情報だけを抽出することを「スクレイピング」と呼ぶことも分かりました。
あと、それらを実行するには Python(というプログラミング言語)が適しているということも。理由は、比較的シンプルな言語なのでわかりやすく、標準ライブラリ(※1)が充実しているので効率的に使えるから、とのことでした。
といっても自分に使いこなせるかはこれからの自分次第ですが。
なお、きょう実際に手を動かしたことは、パソコンに仮想環境(VirtualBox)を用意し、その環境の中にUbuntu(Linux系OS)を用意することまででした。
あと、以下のサイトも参考というのはおこがましいですが、学びになりそうだったのでメモさせていただきます。
(古い記事も含まれているのは承知です)
もし他におすすめのサイトがあればコメントで教えてもらえると嬉しいです。
ざっくりですが、知りたい情報をWEBサイトから集めて、その集めた情報から必要なものだけ抜き出すという仕組みがあることは分かりました。そしてその情報を整理してデータベースに蓄積していくというところまでは。
そしてきょうある疑問が新たに芽生えました。
「その蓄積したデータベースの内容を自分のWEBサイトにどうやって表示させるのか」です。
この部分の仕組みが全然検討つきません。
(HTMLとCSSの知識だけでは無理ですよね)
まだ、全っ然手を動かしていないのに、そこまで知るのは早いのかもしれませんが、せっかちな自分としては全体の流れを知りたく。
本日は以上です。
とりとめない内容となりましたが、最後までお読みいただきありがとうございました!
この記事が気に入ったらサポートをしてみませんか?