trocco®開発ログ 2022/05「転送先にZoho CRMを追加、他」
マネージド ETL&ワークフローサービスの trocco® を開発している primeNumber社エンジニアの上原です(自己紹介記事)。trocco® はデータエンジニアの方々の様々な手間を削減し、より価値ある業務に集中していただくためのプロダクトです。BigQueryなどを中心にした分析基盤構築をサポートします。
今回は trocco® で2022年の5月にリリースした機能をいくつか紹介します。
trocco® とは?
https://trocco.io/lp/index.html
trocco® は、MySQL や S3 などのデータを BigQuery を始めとしたデータウェアハウス(DWH)に統合し、分析基盤を構築するためのデータエンジニアリングサービス です。大企業からスタートアップまで様々な企業にご利用いただいており、お客様からは「trocco® 無しでは分析基盤構築は考えられない」など、嬉しいフィードバックを多々頂いてます。
trocco® が解決する課題
BigQuery などを利用して分析基盤を構築する会社は増えていますが、多くの場合、データ統合(MySQL や S3 のデータを BigQuery に転送する)のパイプラインはデータエンジニアの方が自前で開発しています。安定したパイプラインを構築・運用するのは非常に手間がかかり、データエンジニアがより戦略的な業務に時間を割きにくいという課題がありました。
trocco® を利用することで、データ統合部分をまるっと任せることができます。
現在はデータ統合だけでなく、データエンジニアリング周辺の様々な業務までカバー領域を広げていて、分析基盤構築については全てを trocco® に任せられる状態を目指しています。
リリース機能 1 「転送設定: 転送先にZoho CRMが追加」
まずは、trocco® のメイン機能である、データ転送機能の改修を紹介します。
データ転送機能の「転送先」でZoho CRMが指定可能になりました。
trocco® では、データ転送の多くにおいて、OSS の Embulk を利用しています。
Embulk はプラグインアーキテクチャ構造になっており、転送元/転送先それぞれ Embulk のインターフェースに従って Java や Ruby で plugin を開発することで、データ転送を行うことができます。
今回の改修では Java で Embulk の plugin を作成し、trocco® と連携して転送が行えるよう実装しました。
転送元/転送先サービスの追加に関しては特にユーザーからの要望が多く、随時お客様へのヒアリングを行って開発しています。
リリース機能 2 「データマート: Redshift,Snowflakeにて、自由記述モードが追加」
trocco® には、DWHに対して直接クエリを実行し、集計テーブルの作成などを行うことができる「データマート」機能があります。
BigQuery のスケジューリング・クエリに相当する機能で、日別の集計テーブルを作成したり、NULL値を除外した別テーブルを作成するなどの用途でご利用いただいています。
今回のアップデートでは、データマート機能のクエリ設定で任意のクエリを自由に実行できる「自由記述モード」が指定可能になりました。
こちらもお客様から数多く要望をいただいた、重要度の高い機能改修です。
trocco® の改善チームでは GitHub のプロジェクトボードを使い、タスクの優先度をメンバーがひと目で分かるよう管理をしています。そのため、今回のような重要度の高いタスクについては迅速にメンバーをアサインして対応に当たることができます。
リリース機能 3 「データカタログ: クエリエディタでスキャン量が表示されるように」
分析者が DWH 上のデータをより楽に分析できるように、trocco® では様々なメタデータの可視化を行うデータカタログ機能を開発しています。
データカタログ機能では画面右側でクエリエディタを開き、BigQuery のクエリを実行することができます。今回のアップデートではクエリエディタにクエリを入力した際に、予想スキャン量が表示されるようになりました。
trocco® のサーバーサイドは Rails、フロントエンドは React (TypeScript) で開発されています。
ここではクエリエディタの state の変更をトリガーに、BigQuery の API を叩いています。
このような非同期処理の実装はリクエスト数の制限やエラーハンドリングなど注意しなければいけない点が多いですが、UI / UX の改善に大きく寄与するためやりがいも大きいです。
Data Engineering Study #14 開催
データ分析基盤について学ぶ Data Engineering Study が今月も公開されました。今回は最新トレンドのModern Data Stackを取り扱っています。
primeNumber からは CPO の小林が登壇しています。
新入社員インタビュー公開🎉
3月に入社した森田北斗さんのインタビュー記事が公開されました。primeNumber への転職を決めた理由や普段の仕事内容についてお話しています。
primeNumber: 会社紹介
現在募集中のエンジニア職種
もちろん、カジュアル面談からでもOKです!