見出し画像

Googleデータアナリティックス - 20週目 データの整理・分析

Googleデータアナリティックスという、データ分析を仕事にしたい人向けの講座を受講してます。全6か月分、計30週分のコースで優秀なデータアナリストになろうという内容です。

今回はデータを実際に分析し、明確かつ客観的な答えを導き出す (データの整理、SQLを使ったデータの分割・結合、演算の実行)という学習を始めました。問いかけ・準備・処理・分析・共有・行動の内、分析に相当するプロセスです。

データの整理・分析

データの整理・分析
問いかけ・準備・処理・分析・共有・行動
Rでのラングリング
インポート→整理→ラングリング(変換→可視化→モデリング)→共有

これまでに学習したこと

データ分析に必要な構造化思考
クリーンデータの作成・データ完全性の確保
基礎的なExcel・SQLの使い方

これから学習すること

データを実際に分析し、明確かつ客観的な答えを導き出す
(データの整理、SQLを使ったデータの分割・結合、演算の実行)
データを可視化する
ケーススタディーを完成させる

実生活に取り入れているデータ整理

学習したことを時間で記録している。 学習時間の記録にはアプリでの入力、およびそのデータをサーバーに送信しデータベースに登録、
またそのバックアップを作成するという処理が行われる
データを整理するためどのように処理をするか・SQL文を書くかを具体的に知りたい

データ分析において難しいのが、データの特徴を表す注目するべき指標を見つけることです。この過程ではある程度試行錯誤をする必要があり、R言語ではラングリング(変換→可視化→モデリングを繰り返す)と呼ばれています。

簡単なことは、何を分析するべきか構造化志向に当てはめて明確にすること、および平均・中央値といった基礎的な統計量を算出してみること、データの型をまず確認することです。これらの準備を入念に行うと、難しい過程を簡単にすることができます。

Googleスプレッドシートを使ったデータ整理

1、「データ」タブから整理する
2、SORT・FILTER関数を記述する

SQLを使ったデータ整理

#コメディー映画、かつ興行収入が3億ドル以上のものを降順で表示
SELECT *
FROM "movie_data.movies"
WHERE Genre = "Comedy" AND Revenue > 300000000
ORDER BY Release_Date DESC
#音楽のジャンルを名前順に整理
SELECT *
FROM "Genres"
ORDER BY Name
SELECT *
FROM "Tracks"
WHERE Composer = "Chris Cornell"
ORDER BY GenreId DESC(降順)
ORDER BY GenreId ASC(昇順)

この記事が気に入ったらサポートをしてみませんか?