気まぐれデータエンジニア

リモート環境を揃えるのに使ったお金の総額を振り返る（とその効果）その１

コロナ禍になる前から揃えていたものは除きますが、快適なリモートワークライフを送っておりま…

YUKI SAITO

3年前

6

PySparkでデータの差分チェック

こんにちは。@yuki_saito_enですこの記事は Pythonその4 Advent Calendar 2020 24日目クリ…

YUKI SAITO

3年前

1

クラウドで1200テーブル/dayのETLを低スペックなシステム(クラスター)で捌く時に考慮…

この記事はデータ基盤 Advent Calendar 2020 20日目の記事になります今回は、オンプレで動…

YUKI SAITO

3年前

1

PySpark 小ネタ select as で externalテーブルを作る

小ネタわざわざテーブル定義を作りたくない。でも後続のHiveでETLしたい。そんな時には、以下…

YUKI SAITO

3年前

1

システム間連携とAPI連携

システム間連携データ基盤のように基盤の処理をつくっていると、どうしてもデータを他のシス…

YUKI SAITO

3年前

4

EMR(Pyspark)でavro形式のファイルを読み書きしAthenaで参照する

この記事はDMMグループ Advent Calendar 2020 15日目の記事です。 PySparkさんよぉPySpark周…

YUKI SAITO

3年前

参照整合性に苦しめられる

Referential integrity 参照整合性。複数のテーブル間におけるデータの一貫性と正確性のこと。どちらも同じ結果を返すとしたら、どちらの方がクエリを打ちやすいだろうか？以下太字のところ select * from a join b on <b>a.id =b.</b> select * from a join b on <b>a.id =b.hogepeke</b> RDBの世界だったらよかったんだまともにRDSの設計をすると、主キーだ外部キーだ