見出し画像

ウェブスクレイピングとは? クローリング? API?

noteを始めるようになってよく聞くようになった「謎の言葉」を年末最後に勉強したいと思います。今年は有意義な年になりました。

WEBスクレイピングとは

画像5

ウェブサイトのHTMLから必要なデータをとってくること。

画像1

スクレイパとは

画像6

WEBスクレイピングする時に使うプログラムのこと。

画像2

クローリングとは

画像8

プログラムが複数のWebサイトを巡回し情報を取得すること。

画像3

クローラとは

画像8

クローリングするプログラムのこと。(スパイダーともいう)

画像2

スクレイピングとクローリングの違いは

□ 焦点の置き方が違う

画像10

・情報の抽出に焦点をおいた「スクレイピング」
・WEB上の巡回に焦点をおく「クローリング」

「クローリングの中でスクレイピングを行う」などと使うことがある。

スクレイピングするときに確認すること

画像9

・APIがあるか

APIとは?「noteならnoteのシステムで使える仕組み」のこと。

画像12

既存のAPIがあれば、それを使う事ができる。

・著作権法に抵触しないか

取得したデータを使うには、注意が必要のようです。

画像11

順序

画像13

❶ Webページを取得する
❷ スクレイピングする
❸ 抽出したデータを保存する

この続きは来年勉強します。

では皆様良いお年を!

画像14



なにとぞ なにとぞー