クラウドでデータサイエンスを向上させる6つの方法

By Julien Alteirac 9日前

クラウドはデータサイエンスに革命をもたらす

開かれたビジネスマンの手の上に置かれたクラウドコンピューティングのホログラフィック表現
(画像引用元:Shutterstock)
データサイエンス市場は隆盛を極めており、デジタルトランスフォーメーション戦略の最前線にデータを据える企業が業種を問わず増加しています。データアナリティクスの台頭により、データサイエンティストとデータエンジニアの需要は過去5年間で3倍に増加し、231%もの伸びを示しています。しかし、多くの企業が計画を実現するために必要な人材の採用を急いでいる一方で、多くの企業はデータが提供する価値を十分に理解していないのが現状です。

これまでレガシーなアーキテクチャを採用していた企業は、システムをクラウドに対応させる際に、しばしば問題に直面します。その結果、適応が困難になり、オンプレミスの世界での習慣や偏見が、クラウドで可能なことの理解を制限してしまうことがあります。データサイエンティスト、データエンジニア、開発者は皆、新しいクラウド環境と、急速に進化するツールやフレームワークのエコシステムに適応しなければなりません。多くの人が仕事をしながら学んでいるため、企業はクラウド・アーキテクチャの可能性を最大限に引き出せない恐れがあります。

クラウドを正しく活用すれば、データサイエンスに革命をもたらし、企業が顧客をより深く理解し、新しい方法でデータを収益化し、未来を予測するためのエキサイティングなフロンティアを生み出すことができます。データチームは、膨大で弾力性のあるコンピューティングパワーと、社内外の多数のデータソースを利用できるようになりました。また、機械学習やディープラーニングのモデルを大規模に構築、トレーニング、デプロイする際の複雑さを軽減するマネージドクラウドサービスも利用できます。ここでは、クラウドでデータサイエンスを最大限に活用するために、企業が実行できる6つの具体的な戦略をご紹介します。

1. データガバナンスに妥協しない
企業にとって、ガバナンスとセキュリティを犠牲にすることなく、データの反復と調査を可能にすることは非常に重要です。多くのデータサイエンティストは、データセットを扱う前に、直感的にオリジナルのコピーを作成したいと考えます。しかし、コピーを作成したまま忘れてしまうことがあまりにも多く、コンプライアンス、セキュリティ、プライバシーの観点から問題が生じています。最新のデータプラットフォームでは、データチームがデータセット全体を複製することなく、スナップショット(仮想コピー)で作業を行うことができます。企業は、内部および外部のデータガバナンスポリシーが満たされていることを確認するために、複製を最小限に抑えるプロセスを構築する必要があります。

2. 実現したいことから始める
オンプレミスで運用していたときの既成概念が、企業の足かせとなり、データで何を実現したいのかを考える妨げになることがあります。例えば、よくある誤解として、データサイエンティストがこう言う場合があります。"1日に何度もモデルの再学習をしたいが、時間がかかりすぎて他の処理が遅れてしまう。" しかし、弾力性のあるインフラの世界ではそんなことは問題になりません。そのため、クラウドに移行する際には、これまでの偏見を払拭するために、クラウドで提供される新しい機能の幅広さを認識することが重要になります。

先入観を取り払うことで、企業はデータを最大限に活用し、意欲的に取り組むことができます。このような立場になれば、データチームは、可能だと思うことではなく、達成したいことから始めて、そこから前進しなければなりません。それが、限界を超えてクラウドを最大限に活用する唯一の方法なのです。

3. シングルソースオブトゥルースの構築
データガバナンスと密接な関係にあるのが「サイロ」という概念です。サイロとは、データが互いに分離して置かれている状態のことで、組織内の一人または一チームが、所有するすべてのデータを包括的に把握することができません。ツールやプラットフォーム、ベンダーの数が増えることは、技術革新のためには良いことですが、同時に、冗長で一貫性のないデータが複数の場所に保存されることにもつながります。また、構造化されたデータがデータウェアハウスなどのある環境に保存され、半構造化されたデータがデータレイクに保存されることも断片化の原因となります。このようなデータの断片化は、ガバナンスやセキュリティに悪影響を及ぼすだけでなく、より優れた予測や分類を実現する上でも邪魔になります。

データサイロに真っ向から取り組むためには、データのグローバルな統合ビューを提供するクラウドデータプラットフォームを利用する必要があります。つまり、構造化データ、半構造化データ、非構造化データを共存させることができるプラットフォームです。また、異なるプラットフォームや環境に複製された6つのバージョンのデータではなく、複数のクラウドプロバイダーやツールにまたがるデータの単一のインスタンスを提供できるプラットフォームを意味します。


4. 新しいツールやテクノロジーを活用する
データサイエンスの醍醐味の一つは、フレームワークやツールが驚異的なスピードで進化していることですが、テクノロジーの流行り廃りに合わせて選択肢を狭めてしまうようなアプローチは、企業にとって非常に重要です。一例を挙げれば 例えば、大規模な学習問題を解決するには、かつてはSpark MLが主流でしたが、現在はTensorFlowやPyTorchが注目を集めています。企業は来年、いや来週に何が起こるかわかりません。そのため、一つのフレームワークややり方に縛られないデータプラットフォームを選ぶべきです。また、企業の成長に合わせて、新しいツールやテクノロジーに対応できるアーキテクチャを持つものを選ぶべきです。

5. 5. サードパーティのデータを取り入れる
クラウドを利用することで、パートナーやデータサービスプロバイダーが提供する外部データをモデルに組み込むことが非常に容易になります。昨年は、COVID-19の影響や景気の変動、それに伴う消費者行動の変化が、自社のビジネスにどのような影響を及ぼすかを理解しようとする企業にとって、この点が特に重要でした。例えば、企業は、地域の感染率、店舗への来客数、ソーシャルメディアからの情報をもとに、消費者の購買パターンを予測し、在庫の必要性を予測しました。そうすることで、顧客の需要に合わせて商品の在庫やスタッフの数を調整することができたのです。

キャピタルワンは、スノーフレークのデータマーケットプレイスを活用して、データへのアクセスやサードパーティとの共有を迅速かつ安全に行うことに成功した企業の一例です。同行は、COVID-19の影響を理解するための広範な取り組みの一環として、サードパーティのデータプロバイダーであるStarschema社を利用しています。これにより、同社の従業員とその顧客に対する対応シナリオを予測し、計画することができました。これは、すべての企業が留意すべきことです。利用可能な数多くの外部データソースを活用することで、企業は最も差し迫ったビジネスニーズによりよく応えることができます。

6. プロセスを複雑にしすぎない
金づちがあれば、すべてが釘に見える」とよく言われますが、これは機械学習や深層学習などのAI技術にも当てはまります。AIは非常に強力で、特定のビジネスニーズに対して重要な役割を果たしますが、すべての問題を解決できるわけではありません。ビジネスは常に最もシンプルなオプションから始めて、必要に応じて複雑さを増していくべきです。単純な線形回帰を試したり、平均値や中央値を調べたりしてみてください。予測の精度は?精度を上げることで得られるROIは、より複雑なアプローチを正当化するものでしょうか?そのような場合もありますが、最初の直感でそのような選択肢に飛びつかないでください。シンプルなアプローチから始めることで、データチームはレガシーアーキテクチャからの移行が容易になり、サードパーティデータなどの付随するメリットを最大限に活用することができます。

企業がクラウドに対する先入観を捨て、その可能性を最大限に活用すれば、強化されたダイナミックなデータ分析を実現する環境が整います。これにより、データチームは顧客をより深く理解し、データを収益化することで新たな収益源を生み出すことができます。データサイエンス市場が成長を続ける今こそ、クラウドへの移行に伴う課題に対処し、アナリティクスの導入・活用方法を改善する必要があります。


いいなと思ったら応援しよう!