![見出し画像](https://assets.st-note.com/production/uploads/images/113152208/rectangle_large_type_2_76c6a78c7b518fed57ff823f8f360e8c.png?width=1200)
データ収集の技術
Webクローラーとは?
インターネット上のあらゆる場所からコンテンツ(公開されているテキスト・画像・動画など)をクローリングし、情報を収集する。
目的
Web上の全てのWebページの内容を学習し、必要な時にその情報をクローリングできるようにすること
★クローリング
プログラムを経由して、Webサイトに自動的にアクセスし、データを取得すること
これらのbotは、ほとんどの場合、検索エンジンによって運営されている。
検索エンジンは、Webクローラーが収集したデータに検索アルゴリズムを適用することで、ユーザーの検索クエリに応じて関連するリンクを提供し、ユーザーがGoogleやBing、またはその他の検索エンジンに検索を入力した後に表示されるWebページのリストを生成する。
Webクローラーボットとは?
巨大なデータベースであるインターネット上にある情報を整理するロボットのこと。
Webクローラーボットは、特定の既知のWebページから始めて、そのページから他のページへのハイパーリンクをたどり、その他のページからさらに別のページへのハイパーリンクをたどり、というように作業を進める。
https://www.cloudflare.com/ja-jp/learning/bots/what-is-a-web-crawler/
クローラーとは?
クローラーとは、インターネット上を巡回し、Webサイト・画像・動画などのデータを収集・保存するプログラムのことです。GoogleやBingなどの検索エンジンごとに種類があり、「サーチボット」「検索ロボット」などとも呼ばれています。クローラーが巡回することは、「クローリング」と呼びます。
クローラーの仕組み
クローリングされるとGoogleやBingの検索結果に、自分のWebサイト・画像・動画などが表示されます。検索エンジンに良質なコンテンツだと認められれば、自社サイトを上位表示することも可能です。
クローラーがWebサイトをデータベース化し、検索エンジンの検索結果に表示されるまでの仕組みは、以下の通りです。
検索エンジンのデータベースに登録されているWebサイトからリンクを辿る
リンクからインターネット上を巡回し、クローリングするWebサイトに移動する
Webサイトを解析し、収集した情報をデータベースに登録する
データベースに登録された情報をランク付けし、各ページの順位を決める
検索エンジンが、各ページの順位に応じて結果を表示する
クローラーは、上記手順を繰り返すことで、データベース内に情報を蓄積していきます。自社サイトの検索順位をあげたいなら、日々ページを更新し、最新の情報をクローリングしてもらうことが大切です。
この記事が気に入ったらサポートをしてみませんか?