見出し画像

Databricks Lakehouse Fundamentals 試験に合格した話

ここ2週間で、Snowflakeのハンズオントレーニングを立て続けに3コース受講し、それぞれ修了バッジを獲得しました。各体験談は以下のnoteにまとめています。

獲得したバッジたち。スリスリ


目標はSnowPro Core試験に合格することなので、Snowflakeに関してはもう一つハンズオンに取り組む予定ですが、ここで一旦休憩し、競合テクノロジーであるDatabricksについても学ぶことにしました。

そこで、Databricksの入門資格である Lakehouse Fundamentals のコースに取り組み、試験に合格することができたので、このnoteではその体験談について書いていきます。

LinkedInの資格部分にも載せられます!

Databricksとは?

データウェアハウスとデータレイクの良い点を融合させたデータレイクハウスプラットフォーム。構造化データ、半構造化データ、非構造化データを全て扱える。データに関する一気通貫したユースケースをサポートするが、Sparkがベースとなっているため特に機械学習ユースケースに強く、データサイエンティスト、データエンジニアと相性が良い。

Pistachioまとめ

Databricksの日本語の情報はまだまだ少ないと感じますが、Databricksの社員さんがQiitaに記事をアップされているのを見つけました!私のまとめよりもっと詳細に説明されているので、ご興味ある方はぜひご覧ください。


試験概要

  • 無料

  • 設問は20問

  • 80%以上正答で合格

  • 問題はプールされている問題から毎回ランダムに20問出題される

  • セルフ受験方式(試験官はいない)

  • 何度でもチャレンジOK


所要時間


「そうだ、Databricksの勉強をはじめてみよう!」と思い立ってから、試験に合格するまで約2時間半でした。

以下で紹介するビデオを見るのに1時間、試験を受けるのに1時間半くらいです。私は正答率が70%台を推移し続けた末に、4度目の挑戦でやっと受かりましたw


試験準備

  • Step1: この試験の準備コースに登録する。

    • 無料で登録できる。

    • 準備コースにはYoutubeにアップされている公式ビデオが4本含まれている。

ビデオの内容に含まれているトピック 🎥

★ データレイクハウスとは?(データウェアハウス、データレイクとの違い)
★ Databricks Lakehouse Platformの概要
★ Databricks Lakehouse Platformのアーキテクチャとセキュリティ
★ Databricks Lakehouse Platformのワークロードとユースケース

  • Step2: 公式ドキュメントをざっと読む

    • 私はずぼらなので、このステップはすっかり飛ばして、ビデオを見たら「さあ試験だー!」とまっしぐらに試験に向かいましたが、よく分からない問題もあって、結局に4回も受けなおしてしまいました。(その度に公式ドキュメント読み直し(-_-;))

    • 試験は何度でも受けられるので、私のように分からない点だけピンポイントで公式ドキュメントを読む、でも良いと思いますが、時間に余裕があればどんな内容が書いてあるかくらいは目を通せばよかったなと思ってます。

    • じゃあどの公式ドキュメントを読めばいいの?という話ですが、こちらの海外のブログによくまとまっていました。

  • Step3 単語集で抜け漏れが無いかチェックする

    • これも試験中にぐぐって見つけた海外の方の記事ですが、試験に出てくる単語が網羅されています。

    • 試験前にさっと眺めて、理解できていない用語・サービス名があれば下調べしておくと本番の試験のときに焦りません。

    • ※ Quizlet自体は有名なサービスなので、全単語を閲覧したい場合はアカウント登録してください。私もアカウント持ってますが、今回はログインせずに見れる部分だけ眺めました。

    • https://quizlet.com/708101190/databricks-lakehouse-fundamentals-certification-flash-cards/

  • Step4 試験を受ける!

    • 準備コースのリンクに、"Take the quiz and get your badge"というボタンがあるのでクリック。頑張ってください!


ハマった点

  • ビデオのナレーター女性が早口

    • アメリカで英語で仕事をしてる私にとっても、結構早く感じました。文章と文章の間の合間がなく、即座に次の話題に入っていきます。

    • 理解が追いつかない部分は巻き戻して再生しましたが、Youtubeの動画なので0.75倍速にすればよかったと思います。

  • オープンソースプロジェクトの名前がいっぱい出てくる

    • Databricksの創業者は Apache Spark, Delta Lake, MLFlowから来ている。

    • Databricksが提供・関連しているオープンソースのリストはこちら。

    • RedashがDatabricksに買収されていたのは知りませんでした!

  • Delta Lake とData Lakeがややこしい

    • 概要も技術も違うのは分かっているのですが、ネーミングがややこしいですね。。最初Delta Lakeの文字を見たときは、「Data Lake」の誤字では?と思ってしまいました。(笑)


学びになった点

Databricksの試験に挑戦するまでは、正直、DatabricksにはSnowflakeの競合サービスというイメージしかありませんでした。

もちろん両者で似通った機能もありますが、今回の学習を通して、Databricksは

  • オープンソースプロジェクトから始まっている点

  • 特に機械学習やデータサイエンス、データエンジニアリングのユースケース向けに設計されている点

  • 早期から非構造化データも扱えるようになっていた点

がSnowflakeと大きく異なると感じました。

もし私がベンダーを選定する立場だったら、これらの違いは知っておいて損はないだろうなと思います。

DatabricksとSnowflakeにおけるクエリエンジンのパフォーマンスの違いは今回の試験の範囲ではありませんでしたが、私はデータ分析が専門なのでここの違いは個人的に気になります。(このトピックだけで10本くらいnoteがかけるくらい、両社のベンチマークの戦いは激熱です。)

今後も勉強を続けていきたいと思います!


最後までお読みいただきありがとうございました!
スキ・フォローよろしくお願いします☺

この記事が気に入ったらサポートをしてみませんか?