見出し画像

Databricksへのdbtの導入がさらに簡単になりました -- Deploying dbt on Databricks Just Got Even Simpler

Databricksブログの翻訳です。(2021.12.6)

Databricksにとって、ユーザーの生産性を向上させることほど嬉しいことはありません。今回、dbtのネイティブアダプタを発表することを嬉しく思います。Databricksでは、SQLを使って堅牢なデータパイプラインを開発することが、これまで以上に簡単にできるようになりました。

dbtは、新しいタイプの「分析エンジニア」がシンプルなSQLを使用してデータパイプラインを構築できる人気のオープンソースツールです。すべてがディレクトリ内にプレーンテキストでまとめられているため、バージョン管理、デプロイメント、テストが容易に行えます。

今日、新しい専用のdbt-databricksアダプタがパブリックプレビューで利用可能になり、dbtの開発者はpip install dbt-databricksを実行するだけで始めることができるようになりました。このパッケージはオープンソースであり、dbt Labsとdbt-sparkを実現した他の貢献者によって導かれた素晴らしい仕事の上に構築されています。ODBCドライバへの依存を排除してインストールを効率化しただけでなく、dbtの「convention over configuration」を採用してパフォーマンスを最大限に高めています。

  • dbtのモデルはデフォルトでDeltaフォーマットを使用します。

  • インクリメンタルモデルは常にDelta LakeのMERGEステートメントを活用しす。

  • ユニークキー生成などの高負荷なクエリがPhotonで高速化されました。

dbtとDatabricks Lakehouse Platformの全体的な統合を継続的に改善するため、このアダプタのさらなる改良が予定されています。記録的なパフォーマンスと標準SQLの完全サポートにより、dbtで構築されたデータパイプラインを含むデータウェアハウスワークロードの実行に最適な場所となります。

また、Databricksのお客様が市場で最高のデータおよびAIツールを発見し統合するためのワンストップショップであるPartner Connectに、dbt Cloudを追加する予定であることにも興奮しています。dbt Cloudはdbt Labs製のホスティングサービスで、データアナリストやデータエンジニアが共同でdbtプロジェクトの構築とプロダクション化を行うことを支援するサービスです。1月より、Databricksのお客様であれば、Partner Connectからdbt Cloudの無料トライアルを開始し、自動的に両製品を統合することができるようになる予定です。とはいえ、この2つの製品はすでに素晴らしい連携を実現していますので、今すぐdbt CloudとDatabricksを接続することをお勧めします。

dbt Labsといえば、本日から始まる彼らのカンファレンス「Coalesce」でお会いできるのを楽しみにしています。Reynold Xinはdbt LabsのCPOであるDrew Baninとファイアサイドチャットを行い、Ricardo PortilloはdbtとDatabricksを活用した金融サービス向けのデータパイプライン構築について講演を行う予定です。dbt CommunityのSlackで#coalesce-databricksで会話に参加してください。皆様のご意見をお待ちしています。

Databricksとdbtの連携については、Githubリポジトリで新しいリリースを随時更新していきます。



この記事が気に入ったらサポートをしてみませんか?