ニューヨーク大学大学院留学:Module２出発前夜_BigData課題メモ

2024年6月7日 04:48

NYU Stern MSBAモジュール２で明日(今日)から１週間NYUキャンパスに行ってくる。
フライト前夜なのに、まだ明日締め切りの課題が終わっておらず、スーツケースのパッキングもまだノータッチのまま課題に取り組む。
モジュール２の４大テーマと主なトピック/キーワードをメモ。

Big Data
-GCP / Big query / Pyspark / Data proc / Hadoop
-Assignment: Pre-module quiz 3

Dealing With Data Using Python
-Google Colab, MySQL Workbench / Github
-Assignment: Python file 2

Databases for Business Analytics
-MySQL Workbench / Slack / Google Colab for Python / Github
-Assignment: Pre setup Wrokbench 1

Decision Models
-Excel's Built-in Solver / Oracle’s Crystal Ball add-on
-Assignment x 4

Big DataのGoogle Cloud Platformでのクラウドコンピューティングのセットアップでエラーが出まくり、全然進まずかなりてこずったが、Quota(GCPのCPUとかのリソース管理の単位的なもの？)の制限を下げてClusterを作成する事がやっと出来た。
１週間前のオンライン授業でみんなが余裕で質問してたところにやっとたどり着いた。。
GCPは詳しくなりたいが、用語や仕組みが意味わからな過ぎて調べながら探りながらやっている。

---Big Dataの扱い方：GCP環境構築の課題メモ---

やった事
■VM/Big query
-GCP VMインスタンスを作成
-VMインスタンス-SSHコマンド(wget)でビッグデータをWebから取り込む
-Cloud Storageでバケットを作成し、ＶＭインスタンスからコマンド(mv or cp)でここに移動させる
-Big Queryでデータセット作成、テーブル作成、してデータをStorageのバケットから取り込んでSQLで色々やる
-SQLで新しいテーブルを作成して、CSVにしてまたバケットに保存

■Dataproc / PySpark / Jupyterlab
-Dataprocでクラスターを作成
-Web insterfaceでDataproc クラスターからJupyterlabにアクセス
-PySparkファイルを開き、Rename。→Cloud Storageのバケットにipynbファイルが作成される
-PySparkのTerminalでデータをWebからコマンドで取り込み、バケットに移動させる

-PySparkのクエリでデータを取り込み、クエリを書いて色々やる
-作成したクラスタをDelete.(そうしないと高額請求が来る)

、、、よく分からないけど、用語と流れを覚えてひたすら手を動かして馴染ませるしかない。

Dataprocってなに？
Hadoopってなに？
PySparkってなに？
この辺りも調べたが手を動かさないとつかめないと思う。
あとはChat GPTに頼ってばかりのコーディングをしっかり自分でやらないと。。

もう朝だけど、今から課題の問題を提出して、ちょっと寝て、スーツケースのパッキングをして、仕事して、バッチリフライトを向かえる。
前回のモジュール１では飛行機の中でも課題をやっていたが、今回は絶対に飛行機で寝る。

この記事が気に入ったらサポートをしてみませんか？