ウェブスクレイピングとは? クローリング? API?
noteを始めるようになってよく聞くようになった「謎の言葉」を年末最後に勉強したいと思います。今年は有意義な年になりました。
WEBスクレイピングとは
ウェブサイトのHTMLから必要なデータをとってくること。
スクレイパとは
WEBスクレイピングする時に使うプログラムのこと。
クローリングとは
プログラムが複数のWebサイトを巡回し情報を取得すること。
クローラとは
クローリングするプログラムのこと。(スパイダーともいう)
スクレイピングとクローリングの違いは
□ 焦点の置き方が違う
・情報の抽出に焦点をおいた「スクレイピング」
・WEB上の巡回に焦点をおく「クローリング」
「クローリングの中でスクレイピングを行う」などと使うことがある。
スクレイピングするときに確認すること
・APIがあるか
APIとは?「noteならnoteのシステムで使える仕組み」のこと。
既存のAPIがあれば、それを使う事ができる。
・著作権法に抵触しないか
取得したデータを使うには、注意が必要のようです。
順序
❶ Webページを取得する
❷ スクレイピングする
❸ 抽出したデータを保存する
この続きは来年勉強します。
では皆様良いお年を!
なにとぞ なにとぞー