マガジンのカバー画像

初心者Scrapy

4
運営しているクリエイター

記事一覧

【Scrapy初心者】コマンドで簡単なHTML取得を学ぶ

【Scrapy初心者】コマンドで簡単なHTML取得を学ぶ

今回は、スパイダーの中身を考えていきたいと思います。

class ScrapyBlogSpiderSpider(scrapy.Spider): name = 'topics' allowed_domains = ['news.yahoo.co.jp'] start_urls = ['https://news.yahoo.co.jp/']

クラス名がへんなので、変更してみた。
その

もっとみる
【Scrapy初心者】最初につまずいたとこ

【Scrapy初心者】最初につまずいたとこ

インストールは簡単にできたのだが、pythonで起動させようとファイルを追加した際にごちゃごちゃになったので、その整理図

Scrapyを起動させるまでは、多数他のブログあるので探してみてください。
https://doc-ja-scrapy.readthedocs.io/ja/latest/intro/tutorial.html

ファイルの関係値crawl.py

from scrapy.cr

もっとみる
【Scrapy初心者】HTML収集のコツ

【Scrapy初心者】HTML収集のコツ

単体ページ無いでピンポイントでCSSセレクタを活用して収集ができたと思うが、使えるようにするには、グループで取得する必要がある。

今回は、こちらのペジを参考にします。

どう実装したらよいか考えてみよう

こちらのサイト、最新記事がメインエリアに時系列でならんでいる一般的なブログ形式ですね。まずは、htmlを覗いてみましょう。

クロームでhtmlを開いてタグを選択すると該当するエリアが青なるの

もっとみる
【Scrapy初心者】連番収集の仕組み

【Scrapy初心者】連番収集の仕組み

スクレイピングするものは、ページ単体だけでなく、複数ページにまたがるのがほとんどだと思う。今回は、複数ページ、連番をどう収集するか?を考えてみます。

参考:10分で理解する Scrapy

ここに記載されているソースで考えていきます。

import scrapyfrom ten_min_scrapy.items import Postclass ScrapyBlogSpiderSpider(s

もっとみる