見出し画像

AWS machine learning (機械学習) 勉強記② AWSのストレージ

こんにちは、れお太郎です!
AWS MLS勉強記第二回になります。

前回の記事はこちらです

まずは、受験準備のコースを学習して、受験範囲の知識を身に着けていこうと思います。


勉強するコース

AWS skill builderのこちらのコースを勉強したいと思います。
日本語の動画と解説があるため、勉強も捗りそうですね。

Exam Readiness: AWS Certified Machine Learning - Specialty (Japanese) (Na) 日本語実写版

問題形式

試験時間:170分 問題数:65問 のようです。
1問にかけられず時間は約2~3分ですね。
Pearson VUEのテストセンター形式です

分野1:データエンジニアリング

分野1に関して、私の自分の言葉でまとめつつ頭を整理していこうと思います。

機械学習ではデータがめちゃめちゃ重要!
なので、このデータをどうやって保存するかもめちゃめちゃ重要!
そこで出てくるのがデータレイクです

データレイク

wikipediaとChatGPTで調べてみました

データレイク (Data lake) は構造化/非構造化データやバイナリ等のファイル含めたデータを一元的に格納するデータリポジトリ。一般的に、データレイクはレポート、可視化、分析、機械学習に利用されるエンタープライズのデータのコピーや返還後のデータを一カ所に集約する。データレイクはリレーショナルデータベースの構造化データ(列と行)や、半構造化データ(CSV、ログ、XMLJSON)、非構造化データ(Eメール、ドキュメント、PDF)、バイナリデータ(画像、音声、映像)を含めることができる。

Wikipedia「データレイク」より
https://ja.wikipedia.org/wiki/%E3%83%87%E3%83%BC%E3%82%BF%E3%83%AC%E3%82%A4%E3%82%AF

要は様々なデータを一か所に保管する場所です!
このデータレイク機能を果たすのが、とAmazon S3とAWS Lake Formationの二つのサービスのようです。

Amazon S3

AWSのストレージサービスがAmazon S3!
(少し違うかもしれないが)一般的に使うもので例えるとGoogleドライブとかdropboxとか、そんなイメージでデータを保存できるサービスだと考えればよさそうです。

Amazon Simple Storage Service (Amazon S3) は、業界をリードするスケーラビリティ、データ可用性、セキュリティ、およびパフォーマンスを提供するオブジェクトストレージサービスです。あらゆる規模や業界のお客様が、Amazon S3 を使用して、データレイク、ウェブサイト、モバイルアプリケーション、バックアップおよび復元、アーカイブ、エンタープライズアプリケーション、IoT デバイス、ビッグデータ分析など、広範なユースケースのデータを容量にかかわらず、保存して保護することができます。Amazon S3 には、特定のビジネス、組織、コンプライアンスの要件を満たすために、データへのアクセスを最適化、整理、設定できる管理機能があります。

AmazonS3 ユーザガイドより
https://docs.aws.amazon.com/ja_jp/AmazonS3/latest/userguide/Welcome.html

Amazon S3のストレージクラス

S3には使用頻度・耐久性・料金をもとに様々なストレージクラスがあるようです。これらを表にしてまとめてみました!

ストレージクラスの比較

ポイント
・IAは(Infrequent Access)の略、頻発でないときに使う!
・Glacierは日本語だと氷河🧊氷河期くらい頻度が低い!
・One Zone-IAは、単一ゾーンなので料金は低いけれど、可用性が低くなるため、無くなっても良いものに使うのが良いこと!
・S3 Intelligent-Tieringは厳密には変動するが、試験対策としてはこの位置

AWS Lake Formation

Lake Formationはデータの保存場所であるS3のデータの管理をしやすくするためのサービスみたいです!

ここで、S3とLake Forationの違いに関してChatGPTに聞きました。


S3以外のストレージサービス

データのストレージはS3とお伝えしましたが、S3以外にもストレージサービスがあります!

Amazon EFS(Elastic File System)

EFSはファイルストレージサービスです!
複数のEC2インスタンスから同時にアクセス可能なファイルベースのストレージのようです。
可用性は非常に高く、複数のアベイラビリティゾーンにまたがって利用できる用です。
イメージとしては複数のPCにまたがる共有フォルダのイメージです。

Amazon EBS(Elastic Block Store)

EBSはブロックレベルのストレージサービスで、EC2に接続して使用します。
特定のEC2にローカルでせず属されているので、イメージとしては各PCの個人フォルダのイメージでしょう。

Amazon FSx

FSxはAmazon FSx for Windows File ServerとAmazon FSx for Lustreの2種類が存在します。
Windowsとの互換性があるのが特徴でWindowsコンピュータでよく使われる形式のファイルシステムを提供することができるようです。

Amazon のストレージ比較表

ここまでのストレージの違いを比較表にしてみました!

まだ、分野1.1の部分しかまとめられていないのですが、これだけで2時間以上かかっています。
そして、一部知ったかで書いている点はご了承ください笑

次回へ続く!


この記事が気に入ったらサポートをしてみませんか?