見出し画像

お手軽にビッグデータの世界へPySparkをローカル環境で楽しむための環境構築手順を作成しました

こんにはYUKIです。

今回は様々な人がビッグデータの世界を簡単に触れられるように分散処理フレームワークであるSparkとPythonを組み合わせたPySparkの環境構築をまとめました。

setting.ipynb


上から順番に手順をこなしていくことによって、環境構築ができるようになっています。
少し玄人向けですが、環境構築から楽しめます。

今回はホストのマシンに直接インストールするタイプになっていますが、Mysqlをメタデータストアとして設定したり、分析用のログ出力をしたりするための手順が盛り込まれています。

Docker.ipynb

お手軽に始めたい方は環境設定されたDockerを使って構築することも可能です

きっと普段使っているPythonの世界にプラスの効果があるはずです。

PySparkの基本を学びたい方

「データサイエンスのための前処理入門PythonとSparkで学ぶビッグデータエンジニアリング(PySpark) 速習講座」

PySparkを使ってデータ管理(データマネジメント)を真面目にやりたい方

「【PythonとSparkで始めるデータマネジメント入門】 ビッグデータレイクのための統合メタデータ管理入門」



この記事が気に入ったらサポートをしてみませんか?