Snowflake×生成AIが激アツだよ🔥
Snowflakeは革新的なデータウェアハウスのサービスを提供する会社としてスタートしましたが、ここ近年、急速にGenerative AI & LLM (Large Language Model)の領域で存在感を増しています。
このnoteでは、大注目なSnowflake × 生成AIついて紹介していきたいと思います🙋♀️
Snowflake Cortexとは🧠
Cortexとは、企業がSnowflake内でデータを分析し、AIアプリケーションを構築できるフルマネージドのサーバーレスサービスです。
フルマネージドであるため、複雑なGPUベースのインフラな管理を必要としない一方で、Snowflakeのデータ、リソース、セキュリティ・ガバナンスモデルを活用し、データ分析とアプリ構築に専念できるのが魅力です。
Cortexで利用できるサーバレス関数はLLM関数とML関数の二種類があり、それぞれSQL/Pythonコードで呼び出して利用できます。
LLM関数
回答の抽出:非構造化データから情報を抽出する。
センチメント検出:テーブル全体のテキストのセンチメントを検出する。
テキスト要約: 長い文書をまとめてより迅速に利用できるようにする。
翻訳:テキストを大規模に翻訳する。
例えばこちらの7分のデモ動画🎥👇では、
コールセンターの品質管理のためにドイツ語でやりとりされた顧客との会話を一括で翻訳関数を使って英語に翻訳し、テキスト要約関数で要約し、途中でRAGを使って社内Wikiを読み込んだ上でチャットボットを作成し、コールセンター業務のオペレーションを効率化させるデモが紹介されています。
ML関数
予測:過去の時系列データでトレーニングを行い、季節性やスケーリングなどを自動的に処理することによってその時系列の未来を予測します。
異常検知:時系列データの外れ値を特定します。データパイプラインのモニタリングなどで活用できます。
Contribution Explorer:2つの異なるユーザー定義時間間隔にまたがる特定のメトリクスの変化に寄与するディメンションを迅速に特定します。
分類(パブリックプレビュー):データを事前定義されたクラスまたはラベルに分類することで、データのパターンに基づいてより適切な推奨を作成できるようにします。
上記はSnowflakが開発している関数ですが、汎用関数としてLlama 2などのオープンソースLLMも利用できるようになっており、RAGベースのAIアプリケーションを開発できたりもするそうです。
RAGアプリの開発についてはこちらのデモが分かりやすかったです👇🤩
Snowflake Cortexはサンプルコードと共にハンズオンも用意されているので、興味のある方はぜひ触ってみてください!
参考記事👇
まだまだあるよ! Cortexワクワク新機能🥰
次の3つはまだGAしていませんが、今年リリースされるであろう注目の機能たちです。
ドキュメントAI
データ抽出ユースケースのためのLLMを活用した機能です。様々なドキュメントを処理して質問に対する回答を得ることができます。
こちらのデモ👇がとても面白くて、手書きのPDFドキュメントをAIで学習させたOCR的な機能を使ってデータ化し、使いやすいユーザーインターフェースに基づいてユーザーが知りたい結果をすぐに得ることができています。
Snowflake Copilot
個人的にはこれがアツいです!一言で言うと、SQLの書き方を知らなくても自然言語でどんなデータが必要が質問すれば、クエリを自動で書いてくれる & なぜそのクエリになったのか教えてくれる機能です。めっちゃ便利!
ユニバーサル検索
Snowflake Copilotを利用するには、ユーザーがインプットした内容を解釈する際に、裏でどのテーブルや列名が意図されたのかを特定する必要がありますが、そこで出てくるのがユニバーサル検索です。
Snowflake内のデータベースオブジェクトだけではなく、Snowflakeマーケットプレイスや公式技術ドキュメントにも対象を広げてユニバーサル検索を行うことができます。
Snowflake Arctic (LLM)❄
2024年4月25日、Snowflakeが自前のLLMを発表しました😲
上記のリンクには各社のLLMとの比較が掲載されており、他社と比較してもエンタープライズAIとして効率的な評価がされていることが分かります。
SnowflakeがLLMを提供するということは、Open AIのGPTシリーズやAnthropicのClaude、MetaのLlama、NVIDIAのNeMoといった競合に戦いを挑むことになります。まさにAI戦国時代そのものですね!
Linkedinに投稿されていたこちらの動画👇(15分)で言及されていますが、真にオープンということで誰にとってもアクセスしやすいLLMを目指しているというのが良いなと思いました。
現在すでにHugging Faceで利用可能になっており、今後AWS、Azure,、NVIDIAなどのプラットフォームで利用可能になるそうです。詳しく知りたい方はこちらのブログもどうぞ!
AI関連で最近買収した会社💰
これだけ勢いを増してきているSnowflakeですが、裏では様々なAI関連スタートアップの買収が行われてきました。
こちらのブログ👇でも紹介されていた3社について特に紹介したいと思います。
Neeva:大規模な検索テクノロジーを提供している会社。この機能が上述のユニバーサル検索に役立っている。検索って地味なように見えてパワフル、そして裏の実装は難しいんですよね。割と各社こぞって検索エクスペリエンスの向上には力を入れている気がします。ちなみに現Snowflake CEOのSridhar Ramaswamyはこの会社の共同創業者です。
Streamlit: データアプリケーションを簡単に構築できるサービス。Pythonや機械学習やデータウェアハウスとの親和性が非常に高く、美しいアプリを短時間で作れる。Snowflakeのカンファレンスやデモ動画に頻繁に登場するAdrien TreuillieはStreamlitの共同創業者です。
Applica:非構造化データの活用に必要な機能を提供するポーランドに拠点を置く会社です。プレスリリースだけでは買収が完了したのかどうかが不明ですが、この企業の機能があればDocument AIやユニバーサル検索に役に立つのではないかと思います。
なぜAI?勝手に理由を考えてみたよ🤓
最後に、なぜSnowflakeがAIや機械学習の領域に進出しているのかを考えてみたいと思います。
Snowflakeはストレージとデータ処理リソースを切り離すアーキテクチャを持つデータウェアハウスのサービスです。従来のデータベースのようにストレージとコンピュート層が一体ではないため、様々な用途に合わせて処理を同時実行・スケールしやすい構成になっています。
そのユニークなアーキテクチャにより、従来のデータベースやデータウェアハウスではペインポイントを抱えていた企業がこぞってSnowflakeに移行しており、データウェアハウスとしてのSnowflakeの人気は確固たるものになっています。
すでにデータウェアハウスとして大成功しているSnowflakeですが、どうしてAI領域に進出しているのでしょうか?
理由は二つあると勝手に考えています。
一つ目は、Snowflakeのワークロードをさらに増やし、利益を向上させるためです。
Snowflakeは従量課金型サービスで、実行した仮想ウェアハウスの数・サイズ・実行時間に基づいて課金されます。(厳密にはストレージコストもかかりますが、割合が低いためここでは割愛します。)
これは、Snowflakeを利用する企業側からすると、非常にメリットのある課金体制です。使った分だけお支払い、とても理にかなっているように思います。AWSなども同じ課金体制になっているサービスが多いので、これ自体が目新しいわけではありません。
しかし、Snowflake側からすると、従量課金モデルは非常に売上予測が立てにくい体制になっています。営業チームが営業をかけたのちに、お客様企業がSnowflakeを導入したとしても、使ってもらえなければ売上はゼロだからです。
https://www.snowflake.com/blog/sales-compensation-in-a-consumption-pricing-world/
この、使ってもらえなければ売上がゼロというのがポイントで、Snowflakeが上場企業として継続的に利益を上げていくためには、お客様のユースケースをとにかく増やして、Snowflake(の仮想ウェアハウス)をどんどん使ってもらうというが非常に重要ということになります。
そこで出てくるのがAIや機械学習領域のユースケースです。データウェアハウスとしてのユースケースはもう飽和しきっている状態なので、
データウェアハウスに格納されているデータ資産とAIを活用して、いかに次の5年、10年のビジネスに役立てることができるかを考えましょう。というのがSnowflakeの打ち出したいメッセージなのだろうと思います。
二つ目の理由は、競合製品であるDatabricksに追いつくためです。
DatabricksもSnowflakeと同じくクラウドネイティブなデータウェアハウスなのですが、データサイエンティスト・データエンジニア向けに作られた製品だけあって、機械学習のユースケースに非常に強いです。
SnowflakeはUIがとても良く、ビジネスユーザーにも使いやすいため多くの顧客を獲得していますが、機械学習(モデル開発、実行基盤、ノートブックとの連携など)、オープンソース指向といった文脈では後れをとっています。
さらに、Databricksと比較してSnowflakeのほうが高いという声もあり(注:これは現場ではたまに耳にするコメントですが、実際に検証してみないと一概には言えないです。)
SnowflakeとしてはDatabricksを意識して、Databricksの十八番であるAI, 機械学習といった機能を拡充していっていのではないかと思います。
Snowflake × AIの未来がこれからも楽しみです!😄
👇Databricks編もあるので良かったらどうぞ!
最後までお読みいただきありがとうございました!
スキ・フォローよろしくお願いします☺
この記事が気に入ったらサポートをしてみませんか?