おい、DMBOKってなんなんだ?(その1/3)
弊社データサイエンス(DS)チームの輪読会で取り扱った『データマネジメント知識体系ガイドDAMA-DMBOK』がひと段落しました。電話帳かと思うくらい分厚い本(約3cm、671ページ)。こんなのは一人で読む気にはなりません。輪読会してよかった・・・。内容は社内データを活用するためのノウハウがまとめられており、一読してあとはお守りとする本だと感じています。
ただ、内容が膨大なので目次+メモで、備忘録としてまとめています。興味はあるけどまだ読めてない方へ少しは参考になるかと思います。
DAMA-DMBOKについて
データマネジメントに取り組むべき多くの課題を解決するため、下記の目的でまとめられている。
機能的フレームワークの提供
共通語録の確立
基本的なリファレンスガイド
そのため各章のフォーマットは統一されており、非常に読みやすい。データマネジメントの知識領域として、DAMAはDAMAホイール図を作成している。各章は要素ごとに1. イントロダクション、2. アクティビティ、3. ツール、4. 技法、5. 導入ガイドライン、6. ガバナンス、7. 引用文献と推薦図書がまとめられている。ただし、一人で読み切るには気合が必要。
この記事のまとめ方
必要な時に振り返ることができるように、各章のイントロダクションを定義とゴール、Essential conceptsの小見出しで区切る。
定義は各章(データ管理要素)の概要説明にあたる部分をまとめる。
ゴールはそのままで目指すべき目的。
Essential conceptsは要素を理解するために必要な概念や用語を記載する。
分かりにくいものには少し説明を加えるが、基本的に内容を思い出すキーになる程度に簡潔にまとめていく。学習メモなので、詳細が気になる方は本を買っていただきたい。それでもかなりの情報量になると思う。
1. データガバナンス
定義
統制とは計画を立てて、実行を監視し、徹底させることを指すとのこと。データは企業の資産であると認識し、徹底管理が必要だという強い意志が伝わってきますね!データマネジメントはデータに焦点を当てて、価値を出すことをゴールにしますが、データガバナンスは意思決定の方法や人、業務プロセスとデータの関わりに焦点を当てています。
ゴール
ガバナンスはそれ自体が目的ではなく、組織戦略と密接に連携し、主にリスクの軽減(データセキュリティやプライバシーなど)、プロセスの改善(データ品質の改善、効率化など)に重点が置かれます。そのため、持続可能性・プロセスへの組み込み(業務主導)・評価をデータガバナンスを推進する明確なポジションのリーダーシップと戦略・責任の共有、原則の明文化(フレームワーク立脚)などを通して実現する必要があります。大変です。会社の意思決定層の理解が不可欠です。
Essential concepts
データ中心組織
データガバナンス組織
監督側と実行側に分離。データガバナンスオペレーティングモデルタイプ
集中型・複製型・連邦型。プロダクト数が多くなければ、連邦型がやりやすいと思いました。データスチュワード制
データ管理の実行責任(ルールと標準の文書化、データガバナンス運営の実施など)と結果責任(データ品質の問題管理など)。データを扱う会社で、なんとなくそれらしいポジションの人がいる気がします。それを正式にデータスチュワード制とすることが重要とのことです!!データ資産評価
データの経済的価値を理解し測定するプロセス。会計原則を当てはめることで整理する。
2. データアーキテクチャ
定義
アーキテクチャは、全体的な構造やシステムを支える構成要素を体系的に配置することを指し、機能・性能・実現可能性・コスト・美しさを最適化することを意図としているそうです。システム設計のみではない広い用語として理解しておくべきと思いました。
ゴール
なんだか文章が難しいです・・・。業務戦略と技術実装の橋渡し的な感じで理解しています。あとで出てきますが、エンタープライズアーキテクチャによりデータ品質は維持され、価値を産み出す資産になるでしょう。ただし、相当な投資と時間、労力が必要になることは容易に想像がつきます!
Essential concepts
エンタープライズアーキテクチャの領域
ビジネス・データ・アプリケーション・テクノロジの異なる領域で作成されたアーキテクトを俯瞰し、方向性と要件を検討していく。あっちなみにエンタープライズってのはざっくり、「企業」や「大規模な」って感じで全体のという意味で捉えておけばいいと思います。エンタープライズアーキテクチャ・フレームワーク
ザックマンフレームワークが例に挙げられていました。エンタープライズ・データアーキテクチャ
エンタープライズ・データモデル(EDM)とデータフローデザインの両方を含んだ標準用語とデザインの記述。(要するに、企業内でデータは、セキュリテイで保護され、統合され、保存され、記録され、カタログ化され、共有、報告、分析され、配信される。さらにその途中では、検証され、強化され、リンク付けされ、認証され、集約され、匿名化され、分析に利用され、保存か破棄される。このような一連の業務データを視覚化すること。)
3. データモデリングとデザイン
定義
わかりにくい・・・が、データマネジメントに必須の要素だと思います。データモデリングのプロセスことがデータ体系の設計とデータ資産の視覚化に該当します。
ゴール
文書化のメリットは計り知れません。共通語彙や知識・コミュニケーションツールを与えるだけではありません。運用コスト削減や将来の計画への転用、新規計画の実行コスト削減にも繋がってきます。そのために、正式文書化(構造やリレーションの定義)、スコープ定義、知識の保持/文書化を簡潔にまとめるというのが目標になります!
実務者に対してはおそらく秒で伝わると思いますが、データを取り扱っていない方にはしっかり説明する必要があります。意思決定者にデータモデリングの重要性を納得してもらうことも重要な取り組みです。
Essential concepts
データモデリングとデータモデル
データモデリングは、組織のデータを理解すること。必ずしもデータベースを作ることではない。
データモデルは、現状および理想像としてのデータをモデル(ひな型)を用いて記述すること。モデリングの対象となるデータの種類
カテゴリー情報(モノを種別し分類する情報)、リソース情報(参照データ、取得元)、業務イベント情報(トランザクションデータ、業務プロセス内で作成されたデータ)、詳細取引情報(≒ 業務イベントデータ、さらに詳細で膨大なケース)データモデルの構成要素
エンティティ(情報を取得する対象)をIE表記法などを用いて定義する。特にリレーションやカーディナリティ(多重度)、キーなどの可視化はデータを理解するために重要。データモデリング・スキーム
リレーショナル(IE表記法など)、ディメンショナル(ディメンショナル表記法)、オブジェクト指向(UML表記法)、ファクトベース(ORM2表記法など)、タイムベース(データボールト表記法など)、NoSQL(ドキュメント表記法など)データモデルの詳細レベル
概念スキーマ、外部スキーマ、内部スキーマ正規化
第1~5正規化まである(通常は第3正規化までを正規化モデルという。)抽象化
重要な性質や本質を保ちつつ、適用範囲を広げるために細部を取り除くこと。
4. データストレージとオペレーション
定義
ズバリ、事業の継続性。データストレージさえあればサービスは復旧できます。データマネジメントで最も着手しやすいパートかなと思っています。実際にここから着手しました。
ゴール
自動化可能な業務の特定と実行、再利用を考慮したビルド、ベストプラクティスの理解と適切な活用、データベース標準とサポート要件との整合性、開発プロジェクト中でDBA(Database Administrators:データベース管理者)が果たす役割に対する期待の設定という基本概念に従う。
DS側の視点では、業務をデータ化することやデータ出力のデモを作りながらDBAと関係を構築していくなども含まれるのではないかと考えています。そのため、DBAと連携することが最重要かなと思います。
Essential concepts
データベース用語
データベース(任意の格納データ群)、インスタンス(データベースソフトウェアが特定のストレージ領域に対して行うアクセス制御の単位)、スキーマ(データベースかインスタンスに含まれるデータベースのオブジェクトのグループ)、ノード(分散型データベースの処理かデータを受け持つ個々のPC)、データベースの抽象化(データベース機能が共通のAPIを通して呼び出されること)データライフサイクル管理
データの正確性と一貫性の維持および保証のために、保存・処理・取得・破棄までのポリシーや手順を管理すること。チェックリストなどによる文書化も有効。アドミニストレータ(DBA、管理者)
本番環境DBA、アプリケーションDBA、手続きロジックDBA、開発DBA、ネットワークDBAなどの専門に別れていることも。セキュリティ、物理データモデル、データベース設計に決定的な責任を持つ重要な役割。データベースアーキテクチャの種類
集中型データベース、分散型データベース(密結合、疎結合/連邦型)、仮想化/クラウドプラットフォームデータベース処理タイプ
ACID(リレーショナルDBタイプ)とBASE(非構造化データDBタイプ)の2つの基本タイプ。ただし、システムがスケールすると1つのタイプのみで処理することが難しくなる。そこで、CAP定理は分散システムのバランス、ACIDとBASEの特性をどのくらい含んでいるかを定義するために用いられる。データストレージ媒体
ディスクとストレージエリア・ネットワーク(SAN)、インメモリ、カラム型データベース圧縮、仮想ストレージエリア・ネットワーク(VSAN)クラウドストレージ、無線IDタグ、デジタルウォレットなど。データベース環境
本番環境、プレ本番環境、開発環境、テスト環境。データベース構成
階層型データベース、リレーショナルデータベース、非リレーショナルデータベースに3つの方法で体系化。これらの方法は相互排他的ではない。一般的なデータベースプロセス
種類に関わらず、全てのデータベースは以下のプロセスを実現する。アーカイブ(すぐにアクセスできるストレージメディアからデータを取り出し、検索性能が低いメディアに移動するプロセス)
最大容量と増加の予測
変更データキャプチャ(データが変更されたことを検出し、変更に関連する情報が適切に保存されていることを保証するプロセス)
廃棄
リプリケーション(複製。同じデータが複数のストレージデバイスに保存されていること)
耐障害性と復旧
保持
シャーディング(区画化。データベースを小さな塊ごとに分類し、他のシャードから独立して更新できるようにする)
5. データセキュリティ
定義
業界や国によって異なるのがセキュリティだとはいえ、目的はプライバシーと秘密保護規制、契約上の合意、ビジネスの要件に合わせて情報資産を保護することです。目的を果たすためにも、出どころであるステークホルダーや政府、組織の規制や懸念をしっかり理解することから始めなくてはなりません。
ゴール
セキュリティの確保はリスクを低減し競争優位性を高められるため、それ自体が企業の資産です。そのため、リスクの削減と事業の成長という目標が統合され、基本理念(コラボレーション、全社的アプローチ、予防的管理、明確な責任、メタデータ主導、露出の低減によるリスクの低減)に従い、情報管理と保護における一貫した戦略として実施される必要があります。つまり、めっちゃ大切ってこと。事業成長の攻めと守りみたいな関係は、頭で理解していても守りを疎かにしがちなので特に意識しておく必要があると思います。
Essential concepts
脆弱性
システム上の弱点や欠陥。脅威
組織に対して起こりえる潜在的な攻撃的行動。リスク
損失の危険性と潜在的な損失をもたらす物事や状況。リスク分類
重大リスクデータ(Critical Risk Data, CRD。個人情報など。)、高リスクデータ(High Risk Data, HRD。企業の機密情報など。)、中リスクデータ(Moderate Risk Data, MRD。企業情報の内で直接的な経済的価値はないものの、企業にとって悪影響を及ぼす可能性のあるデータ。)データセキュリティ組織
規模にもよるが、責任部署が置かれCISO(Chief Information Security Officer)など責任の所在が明らかにされている。セキュリティプロセス
四つのA!Access(アクセス)、Audit(監査)、Authentication(認証)、Authorization(権限付与)+Entitlement(資格)に分類される。つまり、権限を持つ(Authentication、Authorization、Entitlement)個人が情報に接続でき(Access)、規制や基準が遵守されているかチェックする(Audit)。データの完全性
不適切な変更、削除、追加から完全に保護された状態。暗号化
平文を複雑なコードに変換して社外秘密情報を隠したり、送受信の完全性を検証したり、送信者の身元を確認したりする処理。関連用語として、ハッシュ、秘密鍵、公開鍵は要チェック。難読化またはマスキング
永続的マスキング(本番環境と開発/テスト環境の間で実施)、動的データマスキング(エンドユーザーやシステム上での変更)。手法は置換・シャッフル・時間的分散・値の分散・NULL化または削除、ランダム化、暗号化、表現形式マスキング、キーマスキングネットワークセキュリティ用語
バックドア、ボット、ゾンビ、クッキー、ファイアウォール、境界(組織内環境と外部システムとの区切り)、DMZ(De-Militarized Zone)、スーパーユーザー・アカウント、キーロガー(キーボードに入力したキーストロークを記録する攻撃ソフトウェア)、ペネトレーションテスト、仮想プライベートネットワーク(VPN)データセキュリティの種類
物理的セキュリティ、デバイスセキュリティ、認証情報のセキュリティ(2段階認証とかも含む)、データセキュリティ制限の種類
機密性レベル(公開用、社内向け、社外秘、制限付機密、登録者限定機密など)と規制(法律、業界標準、契約)によって設定。システムセキュリティのリスク
センシティブデータの格納場所と保護とアクセス。ハッキング/ハッカー
セキュリティに対するソーシャルの脅威/フィッシング
システムにアクセスできる人に対しての脅威。マルウェア
アドウェア、スパイウェア、トロイの木馬、ウィルス、ワームなどの悪意のあるソフトウェア。
前半のまとめ
『セキュリティ』までは土台となる部分が中心だったのですが、後半は『データ統合と相互運用性』から始まるエンドユーザーの視点のものが増えてきたように感じました。前半でお腹いっぱい感は否めませんが、どれもこれも重要なので、なんとかして組織に浸透させたいと目論んでいます。特にセキュリティのところは、事業成長と統合して考えることの重要性について訴えていければと思っています。
この記事が気に入ったらサポートをしてみませんか?