2021年ビッグデータ・イヤー・イン・レビュー。パート2

2021 Big Data Year in Review: Part 2 (datanami.com)

2021年12月21日
2021年はいろいろなことがありましたが、その年のトップストーリーを極力まとめてみました。ここでは、2部構成のパート1の続きをご紹介します。

2021年の最も興味深い動きの1つは、データメッシュとデータファブリックの台頭です。データファブリックへの関心が高まったのは、データへのアクセス、発見、変換、統合、セキュリティ、ガバナンス、リネージ、オーケストレーションのための共通レイヤーを提供できるという点にあります。また、データを最大限に活用するために人々がどのように組織化するかの道筋を示すデータメッシュも人気を集めました。

この2つのアーキテクチャには共通点があります。すなわち、データは一元化されず、サイロの中で増殖し続けるということです。しかし、重要な違いがあります。それを説明したのが10月の記事で、この記事はDatanamiの年間最も人気のある記事の一つとなりました。

データの観測性
観察可能性とAIOpsの市場は、誰も知らなかった新しいギアを見つけました。また、データオブザーバビリティという、必要性を感じていなかった別のデータ規律も紹介されました。

1月に1,750万ドルを調達したベルギーのSoda、9月に4,500万ドルを調達したUberのデータパイプラインをルーツとするBigeye、サンフランシスコに拠点を置くMonte Carlo、そして4月に紹介したLightupなど、データオブザーバビリティを提供するベンダーが初めて当社のレーダーに登場しました。

(Best Backgrounds/Shutterstock)

ログ分析
お客様が膨大なデータセットを解釈するためのより良い方法を模索する中で、ログ分析、AIOps、および観測性の重要性は1年を通して高まり続けました。AIOpsとオブザーバビリティの市場には170億ドルの資金が投入されており、多くの新興企業が参入しています。

10月の記事では、Hydrolix社という新興企業が、クラウド上のログデータに秘伝のソースを投入する様子を紹介しました。SplunkなどがOpen Telemetryデータフォーマットに落ち着いたことで、ログデータの標準化にも進展がありました。ChaosSearch は、トロントの地下鉄に導入された Elastic クローンで前進を続けていました。

2月には、Apache Icebergが新しいデータサービスのエコシステムのハブになると提案されました。この年の後半には、Icebergの生みの親であるRyan Blue氏が、彼の商用ベンダーであるTabular社をステルス状態から解放することになりました。

言語モデル
OpenAIのGPT-3に代表される大規模な言語モデルは、2020年に大きく世界の注目を集め、企業はチャットボットやインテリジェント検索などに革新的な方法で利用しようとしました。2月、GoogleはGPT-3を凌駕するサイズの「Switch Transformer」を発表しました。

いくつかの言語タスクでは、大型トランスのモデルが人間の能力を上回っていました。様々な業界の企業が、BERTのような言語モデルをチャットボットや文書理解、最適化された検索に活用するために必要なスキルを持った人材を探し、また、モデルの活用を手助けしてくれるMantiumのようなベンダーに注目しました。

"Hey brother, can you spare some GPU time?" ディープラーニングの学習のために、予備の処理能力を共有することは、遠い話のように聞こえますが、このプロジェクトのおかげで、それが可能になりました。

AIのすべて
AIとBIは、以前から接近しています。2021年には、この2つの技術を組み合わせた「オーグメンテッド・アナリティクス」が登場し、Gartner社はこれを新しい技術のあり方としています。データサイエンス・機械学習(DSML)の分野では、ガートナー社はイノベーションの「供給過剰」を指摘しています。また、SASでは、複数のデータ分野を融合させた「複合AI」の考え方が広がっています。

AIの普及が進んでいるように感じられましたが、6月にAppen社が発表したデータによると、企業はAIに「全力」で取り組んでおり、最大手企業のAI予算は50%以上も増加しています。

AIの実例としては、Coke社のボトラーが、配達証明や請求書などの標準的なビジネス文書を自動的に解釈することで、数百万円のコスト削減を実現していることをお伝えしました。しかし、今日のAIの不透明さは現実的な問題であると、長年MLを実践してきたある人が5月に語ってくれました。この問題を解決するには、簡単な方法ではなく、"統計的な厳密さ "が必要だと彼は言います。

合成データ
誰かの個人情報を利用するという倫理的な問題を回避する方法の1つは、「偽装する」ことです。

合成データとは、個人を特定できる情報を含まず、あらゆる特徴や分布が実際のデータに似ているデータのことです。

合成データは、AIドローンの訓練をはじめとする画像処理において、特に魅力的な手法として登場しました。また、言語モデルの学習にも合成データが利用されており、特にMLを用いたデータラベリングを行っている企業では、合成データを利用した学習が行われています。

人とオープンソース
2月に発表した「Datanami People to Watch for 2021」では、ビッグデータに大きな影響を与えた、あるいは与えようとしていると思われる12人の人物を紹介しました。Tabor Communicationsチームでは、12月に何人かの新しい人材を迎え入れ、月刊キャリアノートのコラムで紹介しました。

2021年は、ソフトウェアライセンス戦争が続きました。特に、ビッグデータ分野で長年にわたり多くの革新をもたらしてきたオープンソースをめぐる争いです。Elastic社は、AWS社の措置に反発してライセンスを再度変更しました。4月には、GrafanaがApache 2.0からAGPLに切り替えました。

Starburst、Dremio、Ahanaなどのベンダーグループは、オープンデータアナリティクスへの新たなアプローチを支持しています。これは、最適化されてはいるものの、プロプライエタリなデータウェアハウスではなく、クラウドのオブジェクトストアにオープンに保存されたデータの上で、オープンソースのエンジンが動作することが特徴です。

カスタムシリコンとチップ不足
チップ不足は2021年を通して繰り返し取り上げられたテーマであり、3月にはクラウド上のAIワークロードに影響を与えているようだと報告しました。チップ不足の影響で自動車から家電製品まで価格が上昇する中、ソフトウェアスタックでAIを最適化する方法を模索する動きもありました。

2021年にはカスタムシリコンがレッドホットとなり、多くのスタートアップが特定のワークロードを高速化するためのチップを設計していました。

Cerebras社は、大型のWSEチップでAIワークロードをターゲットにしている

例えば、10月にはSQL分析を高速化するSpeedataが登場し、SambaNovaはAI向けのReconfigurable Dataflow Unit(RDU)で前進し、Cerebrasは大規模な言語モデルを実行するための巨大なWafer Scale Engine(WSE)チップをアピールし、NeuroBladeはXRAMと呼ばれる新しいプロセッサ・イン・メモリ(PIM)技術で感銘を与えました。

雇用市場
年央には、データ専門家の雇用は前年よりも大幅に増加し、Burtch Worksの評価によると、給与も上昇し始めていました。年末にはインフレが進行していたが、データ関連の給料はさらに上昇していた。年初にデータの給与が「COVID」で跳ね上がった後、後になって増加分が火を噴いたのだ。

データ・ワーカーの問題が差し迫っているという警告のサインは6月に現れ始め、Ascend.ioの調査では、データ・プロフェッショナルの96%がキャパシティ不足か超過していることがわかりました。9月には、O'Reilly社の調査で、米国と英国におけるデータ専門家の平均給与は14万6000ドルで、前年比でわずか2.25%の増加にとどまっていることがわかりました。

1年の間に「大辞泉」が増えたことで、データプロは十字架にかけられたような状態になり、ある調査ではデータエンジニアの80%近くが「自分の仕事にセラピストがついていればいいのに」と答えています。あるリクルーターは、求人数が求職者数を上回るペースで増加しており、"これは本当にクレイジーなことだ "と語っています。データ関連の仕事の平均給与は30万ドルを超えるものもあります。


この記事が気に入ったらサポートをしてみませんか?