見出し画像

ベースをつくる

なんでもそうだけど,ベース(基礎)をつくることって,時間がかかる.
でも,それが後々に効いてくることがある.

なんでこんなことを書くかというと,
いま,将来的に楽をするために企業データを一生懸命集めているからだ.
だけど,これが非常に時間がかかる.

スクリーンショット 2020-12-16 23.43.04

こんな感じに,気になる企業の各Q(四半期)ごとの総収入を集めて,
PSR(Price to Sales Ratio:株価売上高倍率)をみているのだが,
これを手打ちしていくのが非常に時間がかかって面倒である.

「いかに効率的にするか」

長く続けていくためには,工夫が必要だし,楽をしたい(笑)
ということで,スクレイピングについて勉強をすることにした.

スクレイピングとは,

ウェブスクレイピング(英: Web scraping)とは、ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。ウェブ・クローラーあるいはウェブ・スパイダーとも呼ばれる。 通常このようなソフトウェアプログラムは低レベルのHTTPを実装することで、もしくはウェブブラウザを埋め込むことによって、WWWのコンテンツを取得する。
(wikipediaより引用)

ということである.
簡単に言えば,ウェブサイトの中にある欲しい情報を指定して持ってこれるようなものである(自己解釈)

例えば,スプレッドシートでは,

=IMPORTXML(“URL”, “XPathクエリ”)

という関数を使うことで,指定した"URL"のページにある,"XPathクエリ"の情報を自動的に反映させることができる.
"XPathクエリ"はざっくりというと,ウェブサイト上の各情報の住所(要素)を指し示すものである(自己解釈).

これを使うことで,次の写真の青い文字(右端の列)のような形で,
自分が指定した場所の値を最新の情報で持ってくることができる.

スクリーンショット 2020-12-17 0.02.44

したがって,1度過去データを打ちこんでしまえば,
それ以降の新しいデータはコピペをするだけで良くなる!
しかも,情報を集めるために別のウェブサイトに飛ぶ必要もなくなり,
簡潔に完結する.
なんと素晴らしいことか.


だが,情報を集めたい企業が増えるにつれて,ある問題が生じた.
それは,

情報の読み込み(スクレイピング)に時間がかかりすぎる

ということである.


今後は,この問題を解決すべく,
Pythonを用いてスクレイピングをする,
という方法を学び,ベースをつくっていこうと思う.

できれば,就職までに.


この記事が気に入ったらサポートをしてみませんか?