見出し画像

Webスクレイピング勉強②~WEB情報取得&CSV出力~

前回と同様に以下動画で勉強。

1.ページ内の情報を取得する

①一つずつ取得

ページ内の「今西航平」という情報はid = 'name'で定義されている

IDがnameの情報を取り出し、その中のテキストデータを出力する。

element = browser.find_element(By.ID, 'name')
element.text

取得できた

他の要素も同じ要領で取得可能

趣味は\nで区切られているが、repralce関数で別記号に置き換え可能

②リストとして取得

表の構造としては、こんな感じ

見出し部分は「th」で定義されているため、タグがthの物を取得する

elem_th = browser.find_elements(By.TAG_NAME,'th')

そうするとthの文字がリストとして格納される。

3番目は生年月日

※HTMLおさらい

elem_th = browser.find_elements(By.TAG_NAME,'th') #thタグの要素を取得
keys = [] #格納用のリストを初期化
for elem_th in elem_th: #取得したthタグの要素分ループ
 key = elem_th.text #テキストを抽出
 keys.append(key) #要素をリストへ格納する

出力してみるとリストに格納されたことがわかる

同様にtdの要素も抽出する

2.CSV出力する

①pandasのデータフレームへ項目と値を格納

import pandas as pd
df = pd.DataFrame()
df['項目'] = keys
df['値'] = values

dataframeについてはこちらに詳しく記載されていました。

②CSV出力

下記コマンドでCSV出力。indexが不要であればFalseを指定

df.to_csv('講師情報.csv', index=False)

ファイルが出来ているので中身を確認する。

Python、簡単に色んな事ができてすごいけど、簡単すぎるが故になかなか記憶に定着していない感があるな。

この記事が気に入ったらサポートをしてみませんか?