見出し画像

米国国防総省のデータ法令とレイクハウスへの道

政府がどのようにデータを扱い、分析し、その後の政策決定に利用するか、は我々の生活にも大きく影響してきます。コロナ禍での様々なデータがどのように日本で生かされたのか。いろいろな学びもあったかと思いますが、こちらは米国国防総省での事例となります。2022.4.13のブログです。

民間産業と政府の両方を通じて、データ主導の意思決定により、情報の量と質が組織にとって重要なものとなっています。2018年、米国議会は、政策決定におけるエビデンスの活用を促進するためのデータ活用の枠組みを定めた「Foundations for Evidence-Based Decisions Act」に署名し、法制化しました。さらに最近では、2021年5月に国防総省(DoD)が、省内全体のデータ共有を改善することでデータのサイロをなくし、「データの優位性を生み出す」ための5つの政令を発表しました。メモによると、DoDは "データ中心の組織になることが、戦場から役員室まですべての階層でパフォーマンスを向上させ、意思決定の優位性を生み出すために重要である "と正しく理解している。

これら5つの政令は、戦略的資産としてのデータの重要性を認識し、国防総省がデータエンジニアリングと分析に関する能力を構築することを目的としている。優れたデータと、データ管理、エンジニアリング、セキュリティに関する戦略がなければ、国防総省はデータの重要な指揮・統制に遅れをとる可能性があります。

国防総省の5つのデータ指令

政府全体でデータが増大するにつれ、管理に細心の注意を払わないと、多くの悪いパターンが出現する可能性がでてきます。データがデータベース内でサイロ化し、共有が困難になったり、品質が不確かなデータを意思決定に適用したりと、ガバナンスのパターンが明確に定義されていなければ、質の低いデータ業務が蔓延しかねない。国防総省のデータ政令は、このような負のシナリオを減らすことを目的としています。

5つの政令は以下の通りです。

  • データ共有とデータ使用の権利を最大化する。国防総省のデータはすべて企業資源である。

  • 国防総省のデータはすべて企業資源である。データ資産を、共通のインタフェース仕様とともに国防総省統合データ・カタログに掲載する。

  • 外部および機械が読み取り可能な自動化されたデータ・インターフェースを使用する。インターフェースは業界標準、非専売、できればオープンソースの技術、プロトコルおよびペイロードを使用するようにする。

  • ハードウェアやソフトウェアへの依存を排除し、プラットフォームや環境にとらわれない方法でデータを保存する。

  • データの安全な認証、アクセス管理、暗号化、監視、保護に関する業界のベストプラクティスを、静止時、転送時、使用時に実施する。

政令の教義を満たす

Databricks Lakehouse Platformは、データウェアハウスとデータレイクの最良の要素を組み合わせ、データウェアハウスの性能で強力なデータガバナンスを提供することにより、メモに記載された各テネット(教義)に適合しています。

データ共有とカタログ

国防総省は、公務に必要なデータのみにアクセスを許可する「need to know」のセキュリティ基準から、省庁間でより幅広いデータの共有を促進する「need to share」アプローチに移行しましたが、データのコピーが増殖するレガシーツールでは省庁間のデータ共有は困難であり、リスクも高くなります。データの共有は、省庁内の情報収集を改善し、同盟国とのより良い協力関係を促進することができます。しかし、例えばFTPのような暗号化されていないレガシー技術では、簡単かつ安全にデータを共有することは困難です。安全かつオープンな方法でデータ共有を促進する技術を持つことが、このテナントの鍵なのです。

DatabricksのUnity Catalogは、データカタログのテネットを満たし、データ資産の発見、監査、リネージの提供、管理を一箇所で行うためのシングルユーザーインターフェースを提供します。その中には、役割や属性に基づいたセキュリティや、カラムやテーブルにタグなどのメタデータを追加する機能があり、データをより識別しやすく安全なものにすることができます。また、Unity Catalogは、オープンソースのDelta Sharingプロトコルをベースにした単一のインターフェースを提供し、組織内の共有アセットを管理・統制します。これにより、共通のインターフェース仕様とともに、連携したDoDカタログでデータ資産を公開することができます。

これらの指針はそれぞれ、DoD全体で簡単に共有できない閉じたシステムからデータを取り出すことを目的としています。方針3と4は、Databricksのような最新のデータプラットフォームに直接向かうもので、データセットを低コストのオブジェクトベースのストレージに格納し、コンピュートから分離することを可能にします。これにより、コンピュート層を柔軟に選択できるようになり、さらに重要なこととして、機関や部門の壁の中で専有データベースに閉じ込められているデータよりもはるかに簡単に共有することができます。

オープンソーステクノロジーの利用、ストレージとコンピュートとの切り離し

データを独自のデータベースから取り出し、別のシステムにロードする必要があるデータレイクモデルに移行することで、国防総省内のデータ共有がより容易になります。ペタバイトやエクサバイトのデータがある場合、常に多くのデータの重力(筆者注;共有を反対する動きのことか?)が存在しますが、最新のストレージを使用すれば、共有ははるかに容易になります。

従来、アナリティクス、ビジネスインテリジェンス、データサイエンス、機械学習のワークロードは別々のシステムであり、組織内に組織のサイロを作り出していました。データレイクハウスアーキテクチャでは、Databricksを使用して、それらのツールをすべて1つのオープンシステムにまとめます。

国防総省でのDatabricks

Databricksプラットフォームは、オープンソースのDelta Lakeストレージプラットフォーム上に構築されており、ストリーミングおよびバッチワークロード用のデータレイクに信頼性、セキュリティ、パフォーマンスをもたらします。これにより、CSVファイルなどの構造化データ、JSONやXMLなどの半構造化データ、ビデオやオーディオなどの非構造化ファイルを保存できる単一の場所が提供されます。Databricksが提供するオープンソースプロジェクトであるDelta Lakeは、多くのデータレイクや他のビッグデータプラットフォームに欠けている真実のシングルソースを提供し、トランザクションのサポートとスキーマの強制力を提供します。

Databricksはまた、カタログにあるこれらのデータ資産へのアクセスを管理するための単一インターフェースも提供します。マルチクラウド対応に加え、Databricksは安全な認証、アクセス管理、データ保護のためのベストプラクティスを実装し、FedRamp-HighやDoD IL6などの連邦政府コンプライアンスプロトコルの高い要求を満たしています。

シフトの実現

データをよりオープンにするための組織的なシフトは、組織的にも技術的にも困難なものである場合があります。しかし、組織的に幅広いサポートが得られると、シフトは容易になります。Databricksは、国防総省がこれらの目標を達成し、省内におけるより良いデータ共有をサポートするために、以下のような点で役立ちます。

  1. 国防総省の主要なデータ資産へのアクセス向上と、より容易なデータ共有を可能にする。

  2. データ資産を組織全体からアクセス可能なカタログに統合する。

  3. Databricksは、Apache Spark™やDelta Lakeなどの堅牢なオープンソーステクノロジーをベースに構築される。

  4. ストレージを計算から切り離すことで、データ分析に使用するツールに大きな柔軟性を持たせ、データの重荷を軽減できる。

  5. Databricksは、最高レベルのDoD標準を満たす強力なセキュリティ管理で構築されている。

Databricksによって国防総省がどのようにデータの優位性を生み出すことができるのか、詳しくは連邦政府ソリューションのページをご覧ください。


この記事が気に入ったらサポートをしてみませんか?