Pythonによるスクレイビングの方法(Scrapy)
初投稿です。最近Python、開発環境インストールからスクレイピングするまで実行できたので簡単な手順を参考に記載します。かなりざっくりです汗。詳細は別サイトご参考ください。別サイトでは長々と説明がありますが、基本これだけで可能でした。抜け漏れありそうで不安。スクレイピングの際は対象サイトの利用規約などを要確認です。スクレイピングOKと名乗るサイトもあります。
VS Codeのインストール
Pythonのインストール
Scrapyモジュールのインストール
環境設定1(Scrapyのパス入手)
方法1
VS Codeのターミナル上で”py”でEnter
対話モードで”import scrapy”Enter
対話モードで”print(scrapy.file)”Enter
cで出力されたパス名をコピー
exit()でEnter対話モード終了
方法2
Windows上でScrapyのフォルダーを探す
Scrapyフォルダー内の__initial__.pyを探す
パス名をコピー
環境設定2(VS Code設定)
VS Code上の左下のSetting画面を開く
検索に”Extra Path”でEnter
Add item(項目の追加)でコピーしたパスを入力(但しパス両端の””は省く)
Scrapyのプログラム作成と実行
プロジェクトの作成
スパイダーファイルの作成
パースの関数内に下記3か所を入力①items内の関数インポート、②xpath、③返り値yield(ターミナルに出力されます)(yield)
Itemファイルのセレクタオブジェクトの定義
Seetingファイルの作成(クロールの設定)
settingファイル内で下記3か所入力あるいはコメントイン
ROBOTSTXT_OBEY = True(違反行為防止)
DOWNLOAD_DELAY = 3(ダウンロード負荷軽減)
FEED_EXPORT_ENCODING = "utf-8”(入手情報可視化)(デフォルトかもしれません)
スパイダーの実行
ターミナルに”cd <プロジェクト場所>”で作成したプロジェクトフォルダーに移動
ターミナルに”scrapy crawl scrapingwork”でEnter
結果を待つ。サイトの情報がターミナルに表示されたらOK。(流れが分かればあとはfor文で連続サイト入手やxPath、CSSの勉強だと思ってます)
この記事が気に入ったらサポートをしてみませんか?