ライブドアをクローラー | ニュース記事の写真をスクレイピング

ライブドアとは?
ライブドアニュースは、幅広いジャンルのニュースをいち早くお伝えします。わかりやすさ、読みやすさにこだわり、記事の核心をまとめた要約をつけています。新聞社、通信社、雑誌など「多くの情報提供元から配信される記事・写真を、まとめて閲覧できるサービス」です。
スクレイピングツールの概要
ScrapeStormとは、強い機能を持つ、プログラミングが必要なく、使いやすく人工知能Webスクレイピングツールです。違う基盤のユーザーに二つのスクレイピングモードを提供し、1-clickで99%のWebスクレイピングを満たします。
ScrapeStormにより、大量のWebデータを素早く正確的に取得できます。手動でデータ抽出が直面するさまざまな問題を完全に解決し、情報取得のコストを削減し、作業効率を向上させます。

スクレイピング結果をプレビュー

1抽出されたデータ

1抽出された写真

1.タスクを新規作成

(1)URLをコピーする
目標分野のリストページURLをコピーしてください。今回はIT 経済のニュースページを例としてスクレイピング手順を紹介します。詳細には下記のチュートリアルをご参照ください。

2URLをコピー

(2)タスクを新規作成する
ホームページのスマートモード窓口から新規作成しますか、持っているタスクをインポートすることもできます。詳細には下記のチュートリアルをご参照ください。
URLを正しく入力する方法

3新規作成

5ページボタン

2.タスクを構成する

(1)自動識別
ScrapeStormは自動的にページのリスト要素とページボタンを識別できます。

(2)詳細ページ
ニュースの写真をスクレイピング為に、ニュースの詳細内容ページに移動してください。

6詳細ページに行く

(3)事前操作
ライブドアの記事内容の表示には「記事を読む」をクリックする必要があります。事前操作をクリックして、「クリック」コンポを生成してください。

5事前操作

(4)フィールドの追加と編集
フィールドの追加で記事内容を選択して、スクレイピングができました。また、必要に応じてフィールドの名前の変更または削除、結合できます。写真を取得するには、「フィールトの追加」をクリックして、記事全文を青矩形で選択、フィールドを自動的に生成します。そして、生成したフィールドを右クリックして、抽出タイプの「外部HTML」を選んでください。
フィールドの設定の詳細には下記のチュートリアルをご参照ください。
抽出されたフィールドを配置する方法

7フィールドの追加と編集

3.タスクの設定と起動

(1)起動の設定
必要に応じて、スケジュール、アンチブロック、自動エクスポート、写真のダウンロード、スピードブーストを設定できます。
スクレイピングタスクを配置する方法については、下記のチュートリアルをご参照ください。
スクレイピングタスクを配置する方法

9起動

(2)しばらくすると、データがスクレイピングされる。

10データ抽出

4.抽出されたデータのエクスポートと表示

(1)エクスポートをクリックして、データをダウンロードする

11エクスポード

(2)必要に応じてエクスポートする形式を選択します。
ScrapeStormは、Excel、csv、html、txt、データベース、ローカルなどさまざまなエクスポート方法を提供します。ライトプラン以上のユーザーは、WordPressに直接投稿することもできます。
抽出結果のエクスポート方法の詳細には下記のチュートリアルをご参照ください。
抽出されたデータのエクスポート方法

12ファイルの選択


この記事が気に入ったらサポートをしてみませんか?