アナリストメモ

2024年4月27日 05:24

①　DataSyncはローカルから高速で移動できる
②　elasticserche serviceはメモリ負荷防止のために
　　シャードがノード間で均等に分散できているか
　　古いインデックスやシャードの数を減らす
　　※　シャードそれぞれでメモリを消費してしまうため
③　EMRとは、apache～をサポート親和性がある
　　※　apache～のETLサービスはEMR、そうじゃないならGlueぽい
④　Hiveメタストア…どうやらglue data catalogのようなもの
⑤　Glue Studio…GUIでETLを設定できる、初心者向きらしい
⑥　Glue ワークフロー…ETL、クローラ、トリガー等自動化
　　　　　　　　　　　※オーケストレーション
⑦　Amazon MWAA…Apache airflow（glueワークフローのapache版ぽい）
　　　　　　　　　　のAWSマネージドサービス
⑧　Apache Spark DataFramesとs3 selectを組み合わせるとめちゃくちゃ
　　早いらしい、解説は理解できないが、ハイパースーパーなんちゃらかんちゃらみたいな感じでいろいろすごそうだった。
⑨　毎日実行される一連のathenaクエリ（15分くらい）を効率よく実行する　
　　には、lamdaは「start_query_execution」でAthena実行が可能で
　　stepfunction でクエリを実行し完了をwaitで待機して次のクエリを実行できる
⑩　GRANT SQLコマンドでテーブルの一部の列だけ結果が出ない設定ができる
　　アクセス権の対処ができる
⑪　s3 selectは、特定のデータのみを抽出できる機能でapache parquetに相性がいい
⑫　glue data catalogが遅い時、クローラジョブを同時に複数実行することで、時間を短縮できる
⑬　redshiftのマテリアライズドビュー（クエリ結果を事前に記録しておく）はクエリエディタv2の機能
⑭　S3に新しいパーティションを追加したとき、「create_partition API」を呼び出すとよい
⑮　kds→kdf→redshift　はkdfがredshiftと相性がいいのでリアルタイム分析できる
⑯　EMRを使っているとき、使用後に終了しない方法
　　→　KeepJobFlowAliveWhenNoStepプロパティをTrueにしておく
⑰　athneaパフォーマンスが悪い時（s3パーティション問題）
　　→　Glueパーティションインデックスを作成する
　　　　athneaパーティションプロジェクションを使用することで
　　　　パーティションをathenaで自動推定するためクエリが早くなる、
⑱　AWS Glue接続…データと接続する
⑲　Redshift data apiを使うことで、eventbridgeにその実行をイベント呼び出しできる
⑳　S3の半構造化データのCDCをキャプチャするには、Lambdaを使う
㉑　App flow…Saasアプリケーションとawsサービス間でデータ転送ができる
　　サービス
㉒　Lambdaとglueの構成をオーケストレーションするなら、stepfunctionで作るとよい
　　※　glueワークフローは、lambda関数を呼び出せないから不向き
㉓　s3 object lambdaエンドポイント…リクエストごとに独自のコードで実行できる
㉔　databrew…データの準備とクリーニングができる
㉕　GlueジョブのDynamicFrameのgroupFilesオプションは、個々のファイルを一つのふぁいるとして扱える
　　useS3ListImplementationオプションは、メモリ効率をよくする効果がある
㉖　glueのジョブ実行時間はジョブのプロパティからdpu数で大きい値にする
　　ジョブメトリクスを有効にすることで、必要なDPU数が確認できる
㉗　小さいファイルをアップする程度ならpythonでpandasとか使ったほうがコスト的によい
㉘　S3バケットをredshiftへ読み込むとき効率のいいやり方として
　　複数のオブジェクトを記載したマニフェストファイルを作成して、それでcopyする
　　ローディングする前にステージングテーブルを作って、整合性チェック、クレンジングをやりやすくする
㉙　quicksiteが使えないときは、ユーザのアクセス権に問題がある、redshiftへのアクセス権がない
㉚　Athenaでsparkを使用できるのはデータソース
㉛　quicksiteはS3バケットへアクセスできないといけない
athenaとは根本的に接続されているものなのでそこの考慮は不要
32 stepfuctionで一気に並列にデータ加工する時はmapを使う
33 athenaはほかのdbにもクエリできるフェでレーディドクエリ

この記事が気に入ったらサポートをしてみませんか？