マガジンのカバー画像

Webスクレイピング(Python)

10
運営しているクリエイター

記事一覧

スクレイピングで全プロ野球選手の画像データを取得する

スクレイピングで全プロ野球選手の画像データを取得する

1.使用言語・ライブラリ・環境言語:Python3.9.10
標準ライブラリ:time
外部ライブラリ:BeautifulSoup4.10.0・requests2.27.1・selenium4.1.0
端末:mac book air (macOS Monterey 12.3)
エディタ:Visual Studio Code

2.抽出方法を考える(1) NPB(日本野球機構)の選手一覧から画像を

もっとみる
Webスクレイピングでlifehackerの新着記事を取得する

Webスクレイピングでlifehackerの新着記事を取得する

1.使用言語・ライブラリ・環境言語:Python3.9.10
標準ライブラリ:re
外部ライブラリ:BeautifulSoup・requests
端末:mac book air (macOS Monterey 12.3)
エディタ:Visual Studio Code

Google Colaboratoryなら、初めからBeautifulSoupもrequestsも利用可能。環境構築も不要です

もっとみる
Pythonを使ってお気に入りサイトのRSSを取得する➂ バッチファイルで自動処理

Pythonを使ってお気に入りサイトのRSSを取得する➂ バッチファイルで自動処理

前回、以下機能を実装したPythonのプログラムを作成しました。
今回は作成したプログラムを、PCを自動起動して自動処理してくれるようにしてきたいと思います。

・複数サイトのRSSフィードを取得
・欲しいキーワードがタイトルかサマリ(記事の要約)に含まれるものを
 絞り込んで中間データを作成
・CSVファイルに保存
※CSVファイルが既にある場合は、保存記事との重複を確認し、
 不要データは削除

もっとみる
Pythonを使ってお気に入りサイトのRSSを取得する➁ 対象を絞る

Pythonを使ってお気に入りサイトのRSSを取得する➁ 対象を絞る

前回、PythonでRSSを取得する方法を記載しましたが、今日は取得したRSSから欲しい記事だけを選別する方法を書いていきます。

1. 今回の目的(情報の選別・効率化)RSSリーダーアプリって便利ですよね。

Feedlyや、Inoreader(僕はこれを使っています),feederなど。
ただ、登録したサイトの新着記事がずらーっと並ぶので、結構欲しい記事を探して読むのが面倒というのが実態。

もっとみる
Pythonを使ってお気に入りサイトのRSSを取得する①

Pythonを使ってお気に入りサイトのRSSを取得する①

Webサイトには、新着情報を配信するRSSという仕組みを利用しているところがあります。

これをPythonを使って、取得するということを今日は書いていきます。
なお、ここに正規表現や、ファイル書き込み、更にバッチファイル等と組み合わせれば自動的に新着情報を取得するということも可能です。

RSSリーダーを使っているけど、興味がない記事もわんさか表示されてしまう・・・という私自身の悩みを解決するた

もっとみる
Python+DjangoでSNSを作る~Day1 WebサイトとHTML

Python+DjangoでSNSを作る~Day1 WebサイトとHTML

このシリーズは、「PythonのFlameWorkであるDjango(ジャンゴ)というパッケージを使って、Webアプリを作ってみよう。」という記事です。
本当は他に作ってみたいアプリがあるのですが、いきなりだと難しいと思うので、簡単なもの作ってローカル環境で動かすようにし、Webにもアップしてみる、ところまで書こうと思います。

1.Webサイトの仕組みWebサイトの仕組みを、ご存知の方もいると思

もっとみる
Pythonでスクレイピング その➂ ~実践編 次の頁もいただいちゃいます

Pythonでスクレイピング その➂ ~実践編 次の頁もいただいちゃいます

前回の記事では、Webページから株価情報等を取得して、CSVファイルに書き込んでいき、更に表やグラフ形式で視覚的に確認するという方法について記載しました。(前回記事)
ご自分でも、好きなサイトから実際にデータを取得するということを色々試していただくとどんどん理解が深まると思います。

今回は、ニュースサイトから記事タイトルとURLを取得する、更に別ページにある過去記事も併せて取得して全記事を取得す

もっとみる
Pythonでスクレイピング その➁ ~実践編-CSV読み書き・表・グラフ描画まで

Pythonでスクレイピング その➁ ~実践編-CSV読み書き・表・グラフ描画まで

みなさまいかがお過ごしでしょうか。
私は顎関節症気味です。色々な原因はあるようですが、脳を休めないとあかんようです。←
今日は実践で応用して使っていただけそうな、プログラムを紹介・解説していきます。加えて、プログラミングで押さえるべきポイントでも紹介した条件式・ループ処理にも触れます。

1.日経平均株価・TOPIX・ダウ平均を抽出する「Yahoo!ファイナンスの以下の部分から、日経平均株価・TO

もっとみる
PythonでWebスクレイピング(その➀)~まずはWebから抽出してみる

PythonでWebスクレイピング(その➀)~まずはWebから抽出してみる

正直、基礎をひたすらやってもつまらないです。笑
一番いいのは、何かを作ってみて、「ここどうなってるんだろ?」というところを自分なりに調べて理解し、メモっておく。
そして、また何かに取り組む。
この繰り返しです。

1.Pythonでスクレイピングをしてみよう今日は、比較的簡単だと思うスクレイピングをやりながら、簡単に何をやっているかを説明。そして、後日基本となる部分を掘り下げる記事を追加していこう

もっとみる
Googleで画像検索したファイルを保存~Python+Seleniumでブラウザ操作も自動化(Webスクレイピング)~

Googleで画像検索したファイルを保存~Python+Seleniumでブラウザ操作も自動化(Webスクレイピング)~

久しぶりにPython・Webスクレイピングの記事を。
Webサイトの中にはJavaScript等により、動的に表示が内容が変わるものがあります。

例えば、Googleで画像検索をすると、以下のように画像が表示されます。

右横のスクロールバーを下げていくと、また新たに画像が表示されます。

このように動的にサイトのHTML情報が更新される場合、BeautifulSoupだけでスクレイピングはで

もっとみる