見出し画像

🧱Databricksの生成AI機能をまとめてみた

前回の記事では、Snowflake視点での生成AI機能のまとめを書いたので、今回はDatabricks視点での生成AI機能をまとめていきたいと思います☺


👣Databricksの歩み


Databricksは2013年に設立されました。Apache Sparkの開発に携わったカリフォルニア大学バークレー校のプロジェクトから生まれたこともあり、共同創業者はなんと7人(!)もいます。

映画の撮影かな? - Forbesより

その中でも、対外的な発信で良く見かける(と個人的に思う)のは

CEO - Ali Ghodsi と Chief Architect - Reynold Xin のお二人です。

Aliはイランの裕福な家庭の出身で、彼が子供の頃からイラン・イラク戦争の後に続いた革命に巻き込まれ、富裕層だったAliの家族は迫害の対象となってしまったそうです。

そこで一家揃ってスウェーデンに移住し(亡命という言い方のほうが正しいかもしれません)博士課程までをスウェーデンで過ごします。エンジニアとして非常に優秀だった彼はカリフォルニア大学バークレー校に招聘され、2009年からベイエリアを拠点としています。

そこで共にSparkを開発する仲間と出会います。当初はオープンソースプログラムとして多くの企業に素晴らしい効果を実感してもらいたいという純粋な気持ちで配布し始めたそうですが、皮肉なことに無料では逆に利用してもらえず、スタートアップとして再出発し収益化をはかることにしたそうです。

興味深いのは、2013年のDatabricks設立から数年の間に、AWSやClouderaなどの大企業がSparkの革新性に気づき、Databricksを介してではなく(オープンソースプログラムとして提供していたため)自社製品にSparkを取り入れてしまってたことです。

優秀なエンジニアたちのピュアな思いから無料で配布されたプログラムが、産みの親である開発者たちよりも早く大手の収益化に使われていたと思うと、なんだかやるせないですね…

しかし、創業者たちと同じく優秀で先見の明のあった投資家たちのサポートにより、Databricksの技術資産を保守・成長させつつビジネスとしても進化させるための取り組みが多く行われてきたようです。

また、AWSの競合であるMicrosoftがDatabricksの将来性に目を付け、いち早くパートナシップを結んだこともDatabrickにとっては追い風となりました。

その結果、Databricksはデータレイクハウス × AI × MLの領域で確固たる地位を築いています。

DatabricksはもうすぐIPOするというの噂が絶えませんが、そんな中2023年9月にシリーズIとなる5億ドルの資金調達を行いました。スタートアップでシリーズIラウンドの調達というのはかなり稀な話だなあと思いました。もうIPOも秒読みなのではないでしょうか。

さて、正直7人も共同創業者がいると、内部の諍いが起こったりしないのかなあと不要な心配をしてしまいます。だって、プライベートで7人も全然違うバックグラウンドの友達がいたとして、11年間もずっと仲良くできますか?(私はきっと無理ですw)

そんな頼まれてもいない余計なお世話を考えていたところ、その問に答えるタイムリーな動画がスタンフォード大学よりアップされていました。

Aliいわく、共同創業者の関係においては「信頼」が何よりも重要だと言っていました。きっと7人とも優れた人間性をお持ちなのですね。純粋にすごいと思います。

コラム:Aliの危機管理対策

CEOであるAliは幼少期からの苦労がきっかけで、昨日まで当たり前だったことが今日から一変してしまうことの恐ろしさを理解しています。(やはり紛争や革命などの経験は自身の思想に大きく影響しますよね…)

そのため、Databricksは2017年から年に一度、"Sky Is Falling (空が落ちてくる)"という訓練を行っているそうです。これは様々な災害や金融危機などのシナリオを想定し、その際の職務責任を明確にし、行動方針を共有することだそうです。

この試みにより、Databricksはコロナ禍の景気後退にも慌てることなく行動を起こすことができ、不必要な支出をカットし、従業員のレイオフをすることは無かったそうです。

🤖Databricksと生成AI


さて、前置きがめちゃくちゃ長くなってしまいましたが、本題に入りましょう。

Databricksはデータエンジニアリング・データサイエンスのユースケースから始まった会社だけあって、AIを語る上で避けては通れない機械学習(ML)領域はそもそもDatabricksの十八番です。

例えば、機械学習の開発で必要になってくる実行環境やモデルや運用などの管理ができる有名なライブラリ、ML FlowはDatabricksが開発しました。オープンソースプラットフォームとして誰もが使えるようになっていますが、一番最初にエンタープライズ機能群に取り入れたのはもちろんDatabricksです。

そんなDatabricksの近年の生成AIの取り組みを2点取り上げたいと思います。

1) MosaicMLを13億ドルで買収

買収は2023年6月に行われました。MosaicMLは独自のLLMであるMPTを提供しているほか、企業がLLMを開発できるプラットフォームを提供しています。

これにより、セキュリティ等様々な考慮事項のあるエンタープライズ企業では自社のデータをOpenAI等の外部に流出させることなく、自社環境内でLLMを開発できるようになります。

ちなみに13億ドルでの買収金額についてですが、Databricksは前述のシリーズI投資の一つ前のラウンド、2021年シリーズHでは16億ドルの投資を受けています。

ちょっと計算すると、あれ、ほぼ受けた投資の全額でMosaicMLを買っている!ということになりますね。巨額のM&Aです。

それだけ大金を積んででも買いたかったMosaicMLの可能性…やはり"エンタープライズAI"は昨今のトレンドを語る上で外せないキーワードですね。

MosaicMLの詳細はこの10分の動画がとても良くまとまっていました👇

ちなみに、DatabricksはMosaicMLを買収する直前に、独自のLLMであるDollyをリリースしています。こちらもオープンソースとなっており、Databricksの開発者精神が伺えます。

すでに自社LLMを持ちつつもMosaicMLを買収した背景には、LLMを提供するだけではなく、各企業がカスタムLLMや生成AIアプリを作成することを支援するというゴールがあるようです。

この記事の面白かった部分の引用です。

“I’m buying the factory that can create this,” he said. “I’m not buying Tesla Model X. If the Tesla Model X has some malfunction or something, it’s okay. I’m buying the factory that can produce those Tesla cars and can produce more and more of them together.”

「私はこれを作れる工場を買っているのです」と彼は言った。「テスラ モデルXを買っているわけではありません。テスラ モデルXに故障などがあっても大丈夫です。私はテスラ車を生産でき、一緒にどんどん生産できる工場を買っているのです。」

2) RAGアプリケーションツール群のリリース

2023年12月のプレスリリースにて、Databricksユーザーがエンタープライズデータを利用して高品質なLLMアプリを構築するためのツール群がリリースされたことが発表されました。

このツール群には以下のものが含まれます。

この発表により、Databricks利用企業がより自社データを活かしてAIの取り組みを推進することができるようになります。

💥Databricksの競合は?


機械学習ユースケースに始まり、今ではデータガバナンスやデータ分析領域にも対応範囲を広げていて前途洋々なDatabricksですが、どのような競合企業がいるのでしょうか。

火を見るよりも明らかなのは、Snowflakeです。Snowflakeはデータウェアハウスユースケースから始まった会社で、設立は2012年とDatabricksとほぼ同時期に創業しました。

Databricks側から視点での対Snowflakeに関しては

🔥公式の競合ページがあったり
🔥Snowflakeのベンチマークテスト結果に対してさらに対抗するブログ記事が発表されたり
🔥2023年度は両社の年次カンファレンスが全く同じ時期に開催されたり

などなど…両社の闘いは日に日に熱さを増しています。

他にはMicrosoft Fabricも今後要注意になってくるのではと個人的には考えています。前述の通り、MicrosoftはDatabricksの将来性を見越して早いうちにパートナシップを組んでおり、DatabricksのワークロードはAzure上でシームレスに実行することができています。

しかし相手はMicrosoft、パソコンやOffice365がエンタープライズ企業の多くで導入されているだけあって、そこを踏み台にFabricをどんどん売っていきたいという動きが透けて見えます。

Microsoftからすると、今Azure上で実行されているDatabricksのワークロードをAzure MLに置き換えたりAzureのDatabaseに移行することでもっと価格を抑えることができますよという戦略を取ることができるのではないかと思います。

パートナーだと信頼していた企業に手のひらを返されるのは辛いですね…(というまた余計な心配)

ただMicrosoft Fabricはまだ日の浅いソリューションなので、昨今のDataricksにおける幅広いユースケース増強の様子を見ると、あまり心配するほどでもないのかもしれません。

これからのDatabricks × AI の動向に目が離せません!🎉


最後までお読みいただきありがとうございました!
スキ・フォローよろしくお願いします☺


この記事が気に入ったらサポートをしてみませんか?