見出し画像

【暴露】スクレイピングを使ったトレンドブログはアウト?危険なツールを紹介

SEのMOGU(@piyotan_system)と申します。

今日は、スクレイピングについて記事を書きました。

このスクレイピングとは、Web サイトで公開されている情報の中から特定の情報だけを抽出するコンピューターソフトウェア技術のことです。

ネット上には「スクレイピング」を検索するだけで、多くの情報がありますが、ブログで利用する場合は、どのような立ち位置になるのでしょうか。

先にお伝えすると

  • 利用規約で触れている場合は違反

  • サーバーに負荷をかけ業務妨害

  • 抽出したデータを無断で公開・販売

これらに該当する場合は違法とみなされます。

でも、「誰にもバレないから大丈夫」と言った気持ちで、現在もツールを使用しトレンドブログを書いている人も多いのではないでしょうか?

スクレイピングで色々なデータを集めたいけど、スクレイピングは違法について耳にしたことがあり、実際のところはどうなんだろ?と考えている事業者もいらっしゃるのではないでしょうか?

やはり確証を得ないまま、スクレイピングを使った事業を行うのは、正直不安ですよね。

そこでこの記事では、過去に使われていた違法性のある「スクレイピングツール」を紹介しつつ、どこまでなら使用できるのか、どこから違法になるのか、詳しくお伝えします。

スクレイピング

Web業界では、危険な人が扱うと諸刃の剣とも言われているスクレイピングですが、実は一般的に使われています。

  • 競合他社の調査

  • 価格監視

  • 市場調査

これら以外にも、「株価データ」などにも使われています。

スクレイピングはブログでも使える

今の時代は、ネット検索→スクレイピング練習サイトが出てきますので、基本的な使い方をネット上で学べる環境です。

よくブログのお師匠様が、SEOを意識したワードの選び方のような量産記事を見かけますが…

スクレイピングでデータを抽出させる方法を教えてあげれば良いのにとも思います。

ブログ添削?中身のない有料記事?などを頼るより、よっぽど効率的に競合サイトのデータを調査できます。

作業効率UP

弊社は、「有名人ではない一般人のブログの稼ぎ方」という本を出版予定なのですが

そもそもブログ初心者が、新規ドメインを購入して、ただ記事を書くだけの作業では、大規模のサイトに勝負するなんて無理があります。

それではブログを諦めるしかないと判断する人はいますが、私なら、スクレイピングを使い情報を集めて、効率よく記事を書くことを選択します。

スクレイピングの違法性

スクレイピングに関して、総務省も使用していることを公表していますが、冒頭でもお伝えしたとおり、著作権、利用規約を守らない場合、抽出したデータを無断で公開・販売した場合などは違法です。

スクレイピングで逮捕者?

岡崎市立中央図書館事件をご存知でしょうか?

2010年3月頃に岡崎市立図書館の蔵書検索システムにアクセス障害が発生し、利用者の一人が逮捕された事件である。利用者に攻撃の意図はなく、また、根本的な原因が図書館側のシステムの不具合にあったことから論議を呼んだ。逮捕された人物が取調べの後、Librahackというサイトを立ち上げて解説をしたことから、Librahack事件とも呼ばれる。

出典: 岡崎市立中央図書館事件『ウィキペディア(Wikipedia)』

スクレイピングをした利用者は「偽計業務妨害罪」の容疑で逮捕され、後に起訴猶予処分となりました。

どこまでなら使用できるのか

例えば、統計や学習でデータとして利用する場合は、スクレイピングしたデータをそのまま公開しなければ問題はありません。

楽天ショップやAmazonで取得したレビューを、そのまま自分のブログなどでコンテンツ公開するのはアウトです。

しかし、そのレビューをデータマイニングするのはセーフです。私は、このように判断して使用をしています。

無料で使えるwebスクレイピングツール

ウェブデータにアクセスする方法は多種多様ですが、スクレイピンツールを選択する前に、いくつかの点を考慮することが必要です。

ここでは、代表的なツールを3つ紹介します。

Octoparse

個人や企業にもデータ抽出サービスを提供する日本語スクレイピングツール

Parsehub

Webドキュメントを読み取り、分析した結果を関連データに変換するAIを用いたツール

Webscraper

Webscraperは、Chromeの拡張として提供されているスクレピングツール

違法性のあるスクレイピングツール

上記のように安全に使えるスクレイピングツールはネット上で公開されていますが、危険性の高いツールも一部存在します。


まず、こちらの画像を見てください。危険性の高いツールの管理画面のトップ画面になります。こちらのツールは80万で販売されているものです。正直ネタなのか?と思いました。

ここから先は

916字 / 4画像

¥ 280

この記事が気に入ったらサポートをしてみませんか?