アナリストメモ

① DataSyncはローカルから高速で移動できる
② elasticserche serviceはメモリ負荷防止のために
  シャードがノード間で均等に分散できているか
  古いインデックスやシャードの数を減らす
  ※ シャードそれぞれでメモリを消費してしまうため
③ EMRとは、apache~をサポート親和性がある
  ※ apache~のETLサービスはEMR、そうじゃないならGlueぽい
④ Hiveメタストア…どうやらglue data catalogのようなもの
⑤ Glue Studio…GUIでETLを設定できる、初心者向きらしい
⑥ Glue ワークフロー…ETL、クローラ、トリガー等自動化
           ※オーケストレーション
⑦ Amazon MWAA…Apache airflow(glueワークフローのapache版ぽい)
          のAWSマネージドサービス
⑧ Apache Spark DataFramesとs3 selectを組み合わせるとめちゃくちゃ
  早いらしい、解説は理解できないが、ハイパースーパーなんちゃらかんちゃらみたいな感じでいろいろすごそうだった。
⑨ 毎日実行される一連のathenaクエリ(15分くらい)を効率よく実行する 
  には、lamdaは「start_query_execution」でAthena実行が可能で
  stepfunction でクエリを実行し完了をwaitで待機して次のクエリを実行できる
⑩ GRANT SQLコマンドでテーブルの一部の列だけ結果が出ない設定ができる
  アクセス権の対処ができる
⑪ s3 selectは、特定のデータのみを抽出できる機能でapache parquetに相性がいい
⑫ glue data catalogが遅い時、クローラジョブを同時に複数実行することで、時間を短縮できる
⑬ redshiftのマテリアライズドビュー(クエリ結果を事前に記録しておく)はクエリエディタv2の機能
⑭ S3に新しいパーティションを追加したとき、「create_partition API」を呼び出すとよい
⑮ kds→kdf→redshift はkdfがredshiftと相性がいいのでリアルタイム分析できる
⑯ EMRを使っているとき、使用後に終了しない方法
  → KeepJobFlowAliveWhenNoStepプロパティをTrueにしておく
⑰ athneaパフォーマンスが悪い時(s3パーティション問題)
  → Glueパーティションインデックスを作成する
    athneaパーティションプロジェクションを使用することで
    パーティションをathenaで自動推定するためクエリが早くなる、
⑱ AWS Glue接続…データと接続する
⑲ Redshift data apiを使うことで、eventbridgeにその実行をイベント呼び出しできる
⑳ S3の半構造化データのCDCをキャプチャするには、Lambdaを使う
㉑ App flow…Saasアプリケーションとawsサービス間でデータ転送ができる
  サービス
㉒ Lambdaとglueの構成をオーケストレーションするなら、stepfunctionで作るとよい
  ※ glueワークフローは、lambda関数を呼び出せないから不向き
㉓ s3 object lambdaエンドポイント…リクエストごとに独自のコードで実行できる
㉔ databrew…データの準備とクリーニングができる
㉕ GlueジョブのDynamicFrameのgroupFilesオプションは、個々のファイルを一つのふぁいるとして扱える
  useS3ListImplementationオプションは、メモリ効率をよくする効果がある
㉖ glueのジョブ実行時間はジョブのプロパティからdpu数で大きい値にする
  ジョブメトリクスを有効にすることで、必要なDPU数が確認できる
㉗ 小さいファイルをアップする程度ならpythonでpandasとか使ったほうがコスト的によい
㉘ S3バケットをredshiftへ読み込むとき効率のいいやり方として
  複数のオブジェクトを記載したマニフェストファイルを作成して、それでcopyする
  ローディングする前にステージングテーブルを作って、整合性チェック、クレンジングをやりやすくする
㉙ quicksiteが使えないときは、ユーザのアクセス権に問題がある、redshiftへのアクセス権がない
㉚ Athenaでsparkを使用できるのはデータソース
㉛ quicksiteはS3バケットへアクセスできないといけない
     athenaとは根本的に接続されているものなのでそこの考慮は不要
32   stepfuctionで一気に並列にデータ加工する時はmapを使う
33  athenaはほかのdbにもクエリできるフェでレーディドクエリ

この記事が気に入ったらサポートをしてみませんか?