見出し画像

Airbyte使ってみた

Airbyteとは

Airbyteとは、さまざまなデータソースからデータをデータウェアハウスやデータレイク、データベースに統合することができるオープンソースのデータ統合エンジン。AirbyteはELT(Extract, Load, Transform)EとLの部分で、データソースからデータを抽出して、目的の場所にロードした後に、必要に応じて変換処理を行うことができる。

インストール

git clone https://github.com/airbytehq/airbyte.git 
cd airbyte 
./run-ab-platform.sh 

※localhost:8000でアクセス
初期ユーザーとパスワードは airbyte / password
.env で書き換え

CSVからMysqlへのデータ登録を試してみる

CSVコネクターの設定

接続コネクター一覧



GCS上のCSVファイル設定

gcsの場合 Service Account JsonはJsonをそのまま貼り付け、URLはgs://で始まるURLを指定
Reader Optionsは区切り文字やヘッダー、必要なカラムを指定

MySQLコネクターの設定

MySQLの接続情報を指定


設定


転送元である作成したCSVコネクタを選択
転送先である作成したMYSQLコネクタを選択


#主に確認した箇所
Replication frequency:レプリケーションの頻度(手動ならmanualを選択)
Activate the streams you want to sync:同期したいカラム
Normalization & Transformation:Normalized tabular dataを選択しておかなければ、データは同期されない

同期の実行

sync now


正常に同期ができれば指定したデータベースの中に、ストリームの指定した名前が付いたテーブルが作成され、CSVのデータがMySQLにレプリケーションされたことが確認できる。