見出し画像

分析環境構築の方法を考える①

今回は「分析環境構築に利用するツールを考える」といったお題で書いていきたいと思います。
とは言いつつも、ツールの比較はやらなくてもいいケースもあったりしますので「費用対効果のシミュレーションはどうするのか?(導入後のコストシミュレーション編)」に記載した分析環境導入のパターンを再掲しときたいと思います。

おさらい

【自社構築(全て自社で行う)】

  • イニシャルコスト:高い(システム開発費用、サーバー設備費用など)

  • ランニングコスト:高い(システム運用・メンテナンス費用、人件費など)

  • メリット:自社の資産となる。データの管理・保管が自由。システムのカスタマイズが可能。

  • デメリット:専門的な知識・スキルが必要。システムのリスク(故障やセキュリティ)は自社で負う。

  • 適切な事業規模:大企業。IT部署や予算がしっかりしている企業。

【自社構築(部分的に支援を依頼する)】

  • イニシャルコスト:中〜高(システム設計・開発の一部を外部に委託するため)

  • ランニングコスト:中(一部の運用・メンテナンスを外部に委託するため)

  • メリット:自社の資産として持つことができる。必要な部分だけ外部支援を利用できる。

  • デメリット:一部の管理などは外部依存になる。全て自社で行う場合と比べて自由度が低いかも。

  • 適切な事業規模:中〜大企業。一部のITリソースは持っていて、一部を外部に委託可能な企業。

【SaaS利用】

  • イニシャルコスト:低い(利用開始費用)

  • ランニングコスト:低〜中(定期的な利用料金が発生)

  • メリット:初期投資を抑えられる。継続的なサポート・アップデートが受けられる。

  • デメリット:自社の資産にならない。サービスの利用を停止すると分析基盤が全て使えなくなる。柔軟なカスタマイズが難しい。

  • 適切な事業規模:小〜中企業。初期投資を抑えたい企業。ITリソースが少ない企業。

  1. 【自社構築(全て自社で行う)】

  2. 【自社構築(部分的に支援を依頼する)】

  3. 【SaaS利用】

こちらの3パターンでツール選定方法なども変わってきます。
「全て自社で行う」の場合はもちろんツールも自社で選定していかなければいけません。
「部分的に支援を依頼する」の場合は支援会社に提案をもらう事も可能です。
「SaaS利用」の場合はそもそもサービスに導入されているケースだと思うのでツールの選定自体必要ないと思います。

ツール選定について

【自社構築(全て自社で行う)】

まずどういったソリューションが必要なのかジョシュに聞いてみましょう。


構築作業を含めて完全自社で行う場合必要なソリューションを教えて

データ分析基盤を自社で構築するために必要なソリューションについて説明します。

  1. ETLツール:データを構造化し、分析基盤に取り込むのに必要です。一部の人間の手で対応できないデータクレンジングもこのツールで行います。

  2. データウェアハウス:取り込んだデータを保管・管理するシステムです。大量のデータを高速に処理・分析することができます。

  3. BIツール:データ解析を進めるためには、優れたビジュアライゼーションツールが必要です。こうしたツールを使用すると、チームメンバーがデータを自分で理解し、洞察を得るのが容易になります。

  4. 各種データベース管理システム:データの種類(リレーショナルデータ、時系列データ、グラフデータなど)によって、適切なデータベースを選択・管理する必要があります。

  5. データセキュリティツール:重要なデータを驚くほど大量な攻撃から守るためには、適切なセキュリティシステムが必要です。

  6. 上記のすべてを把握・監視・管理するための全体的な管理ダッシュボードツールも必要となります。

以上のようなソリューションを揃えることで、自社でデータ分析基盤を構築することが可能となります。ここでの説明はあくまで一例であり、具体的な要件や課題によっては他のソリューションの導入も考慮する必要があります。


なるほどですね。
4~6については1~3のソリューションに入ってるケースも存在しそうなので、一旦1~3の代表例を挙げておきたいと思います。
これもジョシュに聞いたら教えてくれるんでしょうかね?


ETLツール、データウェアハウス、BIツールの代表例を3つずつ挙げてみて。

それぞれのカテゴリの代表的なツールを3つずつ挙げてみます。

ETLツール:

  • Informatica PowerCenter:業界をリードするETLツールの一つで、高度にスケーラブルで効率の良いデータ統合を可能にします。

  • Talend Data Integration:広範なコネクタと変換機能を備えたオープンソースのETLツールです。

  • Microsoft SQL Server Integration Services (SSIS):Microsoft製のETLツールで、SQL Serverとの統合が強みです。

データウェアハウス:

  • Google BigQuery: サーバーレスなクラウドデータウェアハウスであり、SQLによるデータ検索をサポートしています。

  • Amazon Redshift: Amazon Web Serviceが提供するクラウドデータウェアハウスで、大量のデータを扱うことができます。

  • Snowflake: データウェアハウス専用のクラウドサービスで、分析ワークロードに最適化されています。

BIツール:

  • Tableau: データビジュアライゼーションに特化したBIツールで、直感的なUIと強力な分析機能を提供しています。

  • Power BI: Microsoft製のBIツールで、Excelとの連携が可能である点が強みです。

  • QlikView: 自由度の高いカスタマイズとインメモリ技術を用いた高速な分析が特徴のBIツールです。


おお!なかなかのラインナップだと思います!

ETLツールは最近だとtroccoさんみたいな手軽さを売りにしているツールなどもありますのでハイスキルのエンジニアがそんなにいない会社などでは便利かもですね。

データウェアハウスはスペックやコスパを考えるとジョシュの提案の中から選んで問題ないと思います。

BIツールは最近だとGoogleさんが提供している無料のBIツール、Looker Studioなども選択肢にあがるかもしれませんね。
(リンク先のyoutubeは日本語字幕に対応してますので英語分からない人はこちらの機能を使ってみてください。)
ただしLooker Studioは都度読み込みが多いので、シンプルなグラフや帳票などは便利なのですが、データ量の多いレポートなどは表示に時間がかかるため注意が必要です。

記事が少し長くなってきましたので続きは次回にしたいと思います。
次回は「自社構築(部分的に支援を依頼する)」と「SaaS利用」について書きたいと思います!

この記事が気に入ったらサポートをしてみませんか?