見出し画像

Apache Spark とは【入門】

Apache Spark とは

簡単に言うとたくさんのコンピュータを使ってめっちゃ早く計算するためのライブラリ群です。かしこまった言い方をすると・・・

Apache Spark は並列分散処理の基盤上にて、インメモリで処理を行うためのコンピューティングフレームワークです。

並列分散処理とは

並列分散処理とは、複数のコンピュータが協力して処理を行うことです。

1 人で作業するより、10 人で分担したほうが速いよねっていう話です。ただし、あまりにも簡単な作業の場合、分担作業をする間に一人でやったほうが早い点には注意してください。

ビッグデータ分析において Spark の立ち位置は ETL, SQL クエリエンジン(Spark SQL)に当たります。詳細は以下の記事をご覧ください。

ref


この記事が気に入ったらサポートをしてみませんか?