マガジンのカバー画像

気まぐれデータエンジニア

31
データエンジニア なことを発信していきます データレイク、Spark、Presto、etc...
運営しているクリエイター

2020年12月の記事一覧

リモート環境を揃えるのに使ったお金の総額を振り返る(とその効果) その1

コロナ禍になる前から揃えていたものは除きますが、快適なリモートワークライフを送っておりま…

YUKI SAITO
3年前
6

PySparkでデータの差分チェック

こんにちは。@yuki_saito_enです この記事は Pythonその4 Advent Calendar 2020 24日目クリ…

YUKI SAITO
3年前
1

クラウドで1200テーブル/dayのETLを低スペックなシステム(クラスター)で捌く時に考慮…

この記事はデータ基盤 Advent Calendar 2020 20日目の記事になります 今回は、オンプレで動…

YUKI SAITO
3年前
1

PySpark 小ネタ select as で externalテーブルを作る

小ネタわざわざテーブル定義を作りたくない。でも後続のHiveでETLしたい。 そんな時には、以下…

YUKI SAITO
3年前
1

システム間連携とAPI連携

システム間連携 データ基盤のように基盤の処理をつくっていると、どうしてもデータを他のシス…

YUKI SAITO
3年前
4

EMR(Pyspark)でavro形式のファイルを読み書きしAthenaで参照する

この記事はDMMグループ Advent Calendar 2020 15日目の記事です。 PySparkさんよぉPySpark周…

YUKI SAITO
3年前

参照整合性に苦しめられる

Referential integrity 参照整合性。 複数のテーブル間におけるデータの一貫性と正確性のこと。 どちらも同じ結果を返すとしたら、どちらの方がクエリを打ちやすいだろうか? 以下太字のところ select * from a join b on <b>a.id =b.</b> select * from a join b on <b>a.id =b.hogepeke</b> RDBの世界だったらよかったんだ まともにRDSの設計をすると、主キーだ外部キーだ

データなリリース手順を考える

ちょっと殴り書きぽいですが。。。 チェックリストをした時はどうしてもどんなテストをしたか…

YUKI SAITO
3年前
2

アイゼンハワー マトリクス

現代人のなやみ日々たくさんのタスクがふってきて、そんな時に使ってる手法としてアイゼンハワ…

YUKI SAITO
3年前
2

【過去スライド】Data Platform

AWSにしましたというところから。 大変だったクラウドへの移行もそろそろ佳境〜 そんなスラ…

YUKI SAITO
3年前

【過去スライド】未来のデータエンジニア

結局のところGCPではなくAWSに決めました。 最大の要因は以下 移行の人的コスト(元々データ…

YUKI SAITO
3年前