見出し画像

Googleプロフェッショナル認定証(データアナリティクス)で「準備」について学んでみた:コース3修了(全8コース中)

みなさん、こんにちは。

データサイエンスに興味があって、
Googleのデータアナリティクス・
プロフェッショナル認定証コースを
受講しています。

今回は、全8コースのなかで
3つ目のコースを修了しました。

過去2回分の感想は以下のnoteに書きました。

3つ目のコースの内容は、
おもにデータを「準備」することについて。

とくに記憶に残っているのは、
LinkedInを活用した人脈づくりが
オススメされていたこと。

しかもアカウントのセットアップまで
課題にはいっているので、とても
アメリカらしいなって思いました。

今回は、3つ目のコースのなかで
印象的だった内容をザックリとご紹介!


データ形式を理解する

データ分析においては、さまざまな種類の
データ形式を扱うことなります。

いままでまったく聞いたことがなかったのは、
「離散データ」と「名義尺度」という2つのデータ形式。

離散データとは、値に制限があるデータ。

たとえば、当月のチケット販売枚数が
あてはまります。

名義尺度とは、質的データの一種で、
一定の順序を持たずに分類されたデータ。

たとえば、新規顧客があてはまります。

これらのデータの形式を理解することで、
データを正しく準備できるようになります。

ついにKaggleに触れる!

Kaggleは、世界中のデータサイエンティストが
集まるオンラインコミュニティ。

データ分析コンペティションなんかも
開催されていて、腕試しができます。

ぼくはいつかKaggleに積極的に参加したいと
考えており、憧れの場所。

このコースでは、Kaggleのデータセットに
ふれることができました。

少しずつKaggleに
慣れていけるのが良かったです。

また、特に印象的だったのは、
良いデータソースを見極めるための3つの質問。

・作成したのは誰か?
・それは信頼できる組織か?
・最後に更新されたのはいつか?

質の高いデータを選ぶことで、
より正確な分析結果を得ることができます。

BigQueryで分析する

BigQueryは、Googleが提供するクラウド型の
データウェアハウスサービス。

大量のデータを高速処理できます。

このコースでは、Googleのサンドボックス
というオンラインツール(無料)のなかで
BigQueryを使い、公開されている
データセットから情報を抽出してみました。

たとえば、「ニューヨークに植えられている木の
データセット」を使って、街路樹の種類や本数
のデータをつかいました。

SQLを使ってデータを抽出するのは、
なかなか面白い体験で、これからが楽しみです。

まとめ

3つ目のコースは、約9.5時間で修了。

これで、トータル27.5時間の学習を
完了したことになります。

データサイエンスの道は長くて大変ですが、
一歩一歩着実に進めていきたいと思います。

次はいよいよ、「データをクリーンに」
することについてのコース。

楽しみだけど、ちょっとドキドキです。

というのも、データをクリーンにすることは
データアナリストの仕事の大部分を
占めるらしいので、
自分がデータアナリストの仕事の
相性があっているかどうかの一種のテストに
なりそうだからです。

どんな内容が待っているのか、お楽しみに!

この記事が参加している募集

いいなと思ったらチップを贈って応援しよう!