Amazon Redshiftとは

2023年8月27日 22:30

今回の記事では、AWSのデータウェアハウスサービスであるAmazon Redshiftについて解説します！

Amazon Redshiftとは？

Amazon Redshiftは、リレーショナルデータベースの構造を持つデータウェアハウスサービスです。これはデータ分析のためのサービスで、S3などに保存された大容量のデータを取り込んで、SQLクライアントやBIツールを利用してアクセスし分析を行います。
データウェアハウスサービスは、大量のデータを集中的に保存・管理するためのサービスで、そのデータに対して高速な分析を実行できるように設計されています。

Redshiftのデータ格納の方式

Amazon Redshiftは「列指向ストレージ」という特徴的なデータ格納の方式を採用しています。伝統的なリレーショナルデータベースは「行指向ストレージ」を使用しており、データは行単位でディスクに保存されます。
一方、列指向ストレージではデータが列単位でディスクに保存されるため、特定の列に関するクエリを実行する際に高速に動作します。この特性は、分析用途のクエリが特定の列に集中する傾向があるため、データ分析に特に適しています。

Redshiftの構造

Redshiftはリーダーノードとコンピュートノードという2つのノードから構成されています。

リーダーノード：

SQL接続を受け付けるノードで、クエリのコーディネートやクエリの最終結果の集約などの管理タスクを担当するノードです。

コンピュートノード：

実際のデータの計算と処理を担当するノード。リーダーノードからのクエリ指示に基づき、実際にデータを処理します。

DS2ノード：

高容量のHDDストレージを備えるノード。大量のデータを保存するのに適しています。

DC2ノード：

高速なSSDストレージを備えるノード。高いI/O性能が求められる場合に適しています。

RA3ノード：

最新のコンピュートとスケーラブルなストレージを組み合わせたノード。大量のデータと高いクエリ性能のバランスをとるために設計されています。

スライス：

コンピュートノード内のデータの論理的な部分。各スライスは均等な量のデータを持ち、クエリの処理を分散させる役割を持っています。

その他のRedshift関連用語

Redshift Spectrum：

Amazon S3に格納されているデータを、Redshiftクエリを使用して直接分析する機能。データ移行の手間を省くことができます。

クラスター：

リーダーノードとコンピュートノードを1つのまとまりとしたもの。
一つのクラスター内には複数のノードが存在し、それらのノードでデータの保存やクエリの実行を行います。

同時実行スケーリング：

ピーク時のクエリ要求を迅速に処理するための機能。短時間でクラスター容量を自動追加することで、大量のクエリ要求にも迅速に対応できます。

このように、Amazon Redshiftはデータ分析のための強力なサービスを提供しており、様々な機能や特徴を持っています。正確で高速なデータ分析を行いたい場合、Redshiftは非常に有効な選択肢となります。

この記事が気に入ったらサポートをしてみませんか？