Airbyte使ってみた
Airbyteとは
Airbyteとは、さまざまなデータソースからデータをデータウェアハウスやデータレイク、データベースに統合することができるオープンソースのデータ統合エンジン。AirbyteはELT(Extract, Load, Transform)EとLの部分で、データソースからデータを抽出して、目的の場所にロードした後に、必要に応じて変換処理を行うことができる。
インストール
git clone https://github.com/airbytehq/airbyte.git
cd airbyte
./run-ab-platform.sh
※localhost:8000でアクセス
初期ユーザーとパスワードは airbyte / password
.env で書き換え
CSVからMysqlへのデータ登録を試してみる
CSVコネクターの設定
gcsの場合 Service Account JsonはJsonをそのまま貼り付け、URLはgs://で始まるURLを指定
Reader Optionsは区切り文字やヘッダー、必要なカラムを指定
MySQLコネクターの設定
設定
#主に確認した箇所
Replication frequency:レプリケーションの頻度(手動ならmanualを選択)
Activate the streams you want to sync:同期したいカラム
Normalization & Transformation:Normalized tabular dataを選択しておかなければ、データは同期されない
同期の実行
正常に同期ができれば指定したデータベースの中に、ストリームの指定した名前が付いたテーブルが作成され、CSVのデータがMySQLにレプリケーションされたことが確認できる。