記事一覧
【ドライバ不要】javascriptが動作するサイトをSeleniumでスクレイピングする
多くのウェブサイトがJavaScriptを活用してデータを読み込むようになり、シンプルなスクレイピングツールでは対応できないことがあります。
今回は、Seleniumを使ってJavaScriptが動作するWebサイトのスクレイピングをし、さらにDockerを組み合わせた環境を整えることで、ドライバーの動作不良を回避する環境を作り上げます。
まず、seleniumのdocker imageを利用する
【Colab公開】PythonとBeautiful Soup 4を使ったWebスクレイピング
Web上には様々な情報が豊富に存在しています。その情報を取得する手段としてスクレイピングを用いることができます。
Colab実行環境上にPythonのBeautiful Soupを用いたノートブックを作成しました。サンプルのHTMLから様々なパターンで情報を取得することができます。
Colabノートブック上ではサンプルのHTML上でさまざまな要素を検索、取得しています。
from bs4 i
GCP VM Managerでバッチ処理
Compute Engineでアプリケーションを運用しています。現在バッチ処理はcronを用いていますが、SSHしないと状態が確認できません。
今回はVM Managerを使ってSSHせずにバッチ処理します。
実行スクリプトを作成する定期実行するスクリプトを作成します。
#!bin/bash# [batch.sh]apt upgrade
スクリプトを「batch.sh」というファイル名で保存
GCPで平日日中しか稼働しないサーバーの稼働時間チェックを設定する
Cloud Monitoringのアラートで、有効/無効を切り替えることで実現できました。
Pythonクライアントを使って実装します。Cloud FunctionやCloud Schedulerを組み合わせることで定期的にアラートの有効/無効を切り替えます。
Sample Code以下のコードで切り替えることができます。
# アラートを有効にするfrom google.cloud impo
Tableau ServerでSSOとパスワード認証を併用する
SSOとパスワード認証を使い分けるケースTableauを使っていてワークブックを作成する人に直接サーバーにアクセスしてもらいたい時ありませんか?
例えば、外部のデータサイエンティストが作成したTableauファイルを納品してくれる場合です。1回限りでTableauをメールでもらって自分でサーバーに入れるのもいいのだけれども、何回も続くと億劫になります。
その場合、社外にアカウントを発行すれば良