見出し画像

Googleスプレッドシート IMPORTXML で簡易にスクレイピングっぽいことをする

yahooのトップ 主要ニュースをスプレッドシートに書き出し的なことをしてみます。そんなメモ。

https://news.yahoo.co.jp/

1.Xpath コピーする

2.スプレッドシートにメモ

//*[@id="uamods-topics"]/div/div/div/ul/li[1]/a
がXpath

3.スプレッドシートでIMPORTXML書く

https://support.google.com/docs/answer/3093342?hl=ja

構文

IMPORTXML(URL, XPath クエリ)

こんな感じになる。

でも、これだと、Xpathをいちいち全部コピペしたり、[1]の数字書き換えるのがめんどくさい。

なので、たとえばこんな風にしたり。

ダブルコーテーションで囲ってるので 'uamods-topics' のようにシングルクォーテーションに書き換えてある。バックティックではエラーになるはず。

なんかこう、もっと良い書き方があるような気もするが......。


ページがいっぱいある場合 オブジェクト的にも書ける

塗りつぶしばっかでわかりにくいか。

A列にURLが入ってて、それをC1でこんな風に書いてる。

={IMPORTXML(A1,Xpath);
IMPORTXML(A2,Xpath);
IMPORTXML(A3,Xpath);
(略)
IMPORTXML(A17,Xpath);}


複数ページはあるけど、Xpathは同じという時に使える。
これはU氏に教えていただいた。大感謝。


そんなメモ。


#Googleスプレッドシート
#IMPORTXML
#Xpath
#スクレイピング




いただいたサポートで、書籍代や勉強費用にしたり、美味しいもの食べたりします!