データエンジニアリング

これ読んだ

gcpだとbigqueryらしい。合ってた

データレイク、データウェアハウス、データマート、ETLの意味がわかった

データレイクに無加工でコピーするのが良いらしい

時系列のAPIデータソースを取り込むベストプラクティスはあまりのっていなかった

実践

データレイクはデータソースに一対一対応させろ、加工するなと書いていたけど、その考え方でやったら、今実装してるやつがシンプルになった

テーブルを分ける -> プログラム、データソース、その他色々を分けられる

1つのプログラムで2つのデータソースを同時に扱おうとしていたけどシンプルにできた

俺のベストプラクティス

1つのデータソースに1テーブル

思ったこと

こういうプログラムあまり作ったことないから、コード量は大したこと無いのに、なかなか作れなかった

これに限らず、botは小さいプログラムがたくさん動くみたいな感じになりがちな気がする。なんかそこに頭が対応できていない

複雑度イメージ

静的型付け言語の1プログラム -> pythonとかの1プログラム -> webくらいの複雑さ(サーバー、フロント、バッチとか) -> botで必要なシステム

プログラミング言語って1つのプログラム内で複雑なことをやるのには向いてるけど、小さいプログラムたくさんパターンはその力を使いづらい気がする

今のところのベストプラクティス

  • シンプルなプログラムの集まり

  • DBで通信する

  • データエンジニアリング

こういうのに近いのかも

こういうの見れば良いのかな