見出し画像

[Python/統計]Google Colab初心者がオープンデータ活用してみた

最近業務でちょこっとGoogle Colaboratoryなるツールを使っています。
深津さんのTweetを見て、何かしら役に立てるならと投稿してみます。
ここではCOVID-19に関するオープンデータを活用して、データのグラフ化ができるところまでをゴールとします。

Google Colaboratoryとはなんぞや?については、この辺をご覧ください。
このサイトによると、↓の通りらしいです。

端的にまとめると、Google Colabとは、Jupyter Notebookを必要最低限の労力とコストで利用でき、ブラウザとインターネットがあれば今すぐにでも機械学習のプロジェクトを進めることが可能なサービスです。

Google Colabの良いところは「環境設定が簡単」なところと、300万行を超えるようなデータでも高速処理することができる点です。

Google Colaboratoryの追加

はじめに、Googleアカウントを準備してください。
次にGoogleドライブへアクセスし、下記のようにアプリを追加します。

スクリーンショット 2020-03-30 15.55.15

Google Colaboratoryを検索し、赤丸部をクリックしてください。

スクリーンショット 2020-03-30 15.55.30

下記画面が表示されるので、「ドメインインストール」か「個別インストール」どちらかをクリックします。(ドメイン管理者でない場合は個別インストールを選択してください。)

スクリーンショット 2020-03-30 15.55.47

スクリーンショット 2020-03-30 15.56.28

これでインストールは完了です。Google Colaboratoryが新規追加できることを確認してください。

スクリーンショット 2020-03-30 15.56.44

オープンデータの取得と確認

次に視覚化・分析の対象となるオープンデータを取得します。
今回は東京都の新型コロナウイルス感染症対策サイトでアクセスできる下記のデータと北海道のオープンデータポータルを使ってみます。

これらのサイトから陽性患者に関するCSVファイルをダウンロードしましょう。ダウンロードが完了したら中身を確認します。

東京都CSV
スクリーンショット 2020-03-30 16.24.31

北海道CSV
スクリーンショット 2020-03-30 16.24.47

(微妙に構成が違うところがイケてないですが...)

Colabでの操作を簡易にするため、このデータを2点いじります。

1. リリース日・公表日のデータ表記を統一
ExcelかNumbersかGoogleスプレッドシート上で北海道CSVの「リリース日」を"YYYY-MM-DD"形式に変更してください。
ここでは列を追加し、追加した列でリリース日の頭から10文字を抽出(LEFT関数)し、その後列全体を値貼り付け&リリース日列を削除して「公表_年月日」列を作成しました。スクリーンショット 2020-03-30 16.31.01

2. 使いそうな列名を統一
「居住地」と「患者_居住地」など、東京都CSVと北海道CSVで列名が異なっているので統一します。下記のように北海道CSVを修正しました。スクリーンショット 2020-03-30 16.31.29

オープンデータの格納

大量のデータを処理する場合、本来はBig QueryやMySQLなどのデータベースツールへの格納がオススメですが、今回は簡単に実践できるようにCSVのままGoogleドライブへ格納して利用していきます。

スクリーンショット 2020-03-30 16.41.08

こんな感じです。今後しっかりデータ分析をしていきたい方はこのキャプチャのようにデータを取得した日付を入れておくことをオススメします。


Google Colabの操作① ファイルの作成

ここまでできたら早速Google Colabを触っていきましょう。
まずはとにもかくにもファイルの作成です。

「新規」→「その他」から、「Google Colaboratory」を選択してください。スクリーンショット 2020-03-30 16.43.28

これだけでファイルの作成は完了です。

Google Colabの操作② ホスト型ランタイムに接続

赤枠部分の▼をクリックし、「ホスト型ランタイムに接続」を選択します。スクリーンショット 2020-03-30 16.45.29

Google Colabの操作③ ドライブのマウント

次にさきほど格納したCSVにアクセスできるようにドライブをマウントします。

画面右のフォルダマークをクリックし、スクリーンショット 2020-03-30 16.47.20

「ドライブをマウント」を選択します。スクリーンショット 2020-03-30 16.48.00

↓の画面が表示されるので「GOOGLE ドライブに接続」を選択してください。スクリーンショット 2020-03-30 16.48.33

アカウントを選択すれば、↓のように「drive」フォルダが表示されます。スクリーンショット 2020-03-30 16.49.54

Google Colabの操作④ データセットの作成

ここから本格的にColabを使っていきます。
まず最初にColabは「コード」と「テキスト」から出来上がっており、コード部分にPythonで処理を記載することでデータを高速に処理することができると覚えてください。

ここから先は

1,963字 / 7画像

¥ 500

サポートいただいたお金はすべて事業の推進に利用させていただきます。 お読みいただいただけでも大変励みになります。 ありがとうございます!