Azure Purviewを使ってみる

Azureで2021年4月現在Preview(プレビュー)段階であるAzure Purview(パービュー)を軽く使ってみました。

Azure Purviewとは

Azure Data Lake StorageやAmazon S3などのデータソースから自動的にデータを検出し、データカタログを簡単に作成できるサービスです。
データカタログを作成することでデータ項目の管理と検索性が向上します。
また、データに対して様々なタグ付けを行うことが可能で、データによっては自動タグ付けも可能です。

アカウント作成

以下のドキュメントを参考にAzure Purviewのアカウントを作成します。
https://docs.microsoft.com/ja-jp/azure/purview/create-catalog-portal

必要な情報を入力してアカウントを作成します。

画像1

こんなエラーが出た場合はサブスクリプションの変更が必要です。

画像2

「サブスクリプション」→「リソースプロバイダー」からエラーメッセージに表示されてるリソースプロバイダーを登録します。
(↑の画像の場合、StorageとEventHub)

画像3


アカウントを作成したらPurview Studioを開きます。

画像4

Purview Studioはこんな感じ

画像5

これでアカウント作成は完了です。

データソースを登録する

Purviewに登録するデータとしてMicrosoftがスターターキットを用意してくれているのでそれを利用します。
https://docs.microsoft.com/ja-jp/azure/purview/tutorial-scan-data

スクリプトを使ってデータを用意し、必要なリソースを作成します。(手順は割愛)
作成されるリソースはBlob StorageとAzure Data Lake Storage Gen2で、それをPurviewのデータソースとして登録します。

画像6

スターターキットのデータは以下のような感じでクレジットカード番号やメールアドレスが入っているTSVファイルです。(値はもちろんダミー)

画像7

データソースをスキャンする

データソース内のファイルをデータ資産としてPurviewに登録するため、データソースのスキャンを実施します。

登録したデータソースを選択して「New scan」を選択。

画像8

デフォルトのまま「continue」

画像9

データソースの中でスキャン対象とする資産を選択します。
今回はすべてを対象としてスキャンを実施

画像10

スキャンルールを選択します。
システムデフォルトのスキャンルールに加えて、カスタムでスキャンルールを作成することが可能です。
スキャンルールについては後述

画像11

スキャントリガーを設定します。
スケジューリングして定期的にスキャンを実行することも可能ですが、今回は「Once」を選択。

画像12

トリガー設定後スキャンが実行されます。

画像13

データ資産を閲覧する

スキャンが完了するとデータソース内のファイルがPurviewにデータ資産として登録されるので見ていきます。

トップページから「Browse assets」を選択し、先ほどスキャンしたデータソースを選択します。

画像14

画像15

Azure Data Lake Storage Gen2内のファイルが登録されていることが確認できました。

画像16

ファイルを選択するとファイルの詳細を見ることができます。
「Schema classifications」に「Credit Card Number」というタグが自動でついているのが分かります。このタグを見ることでこのファイルにはクレジットカード番号が含まれているというのが一目でわかります
また、タグで検索をすることも可能なので、データの検索が楽になります。

画像17

画像18

このタグ付け機能は実施したスキャンルールによってどのタグが付与されるかが決まります。

スキャンルール

システムデフォルトで用意されているスキャンルールは以下の通り。
「Management center」→「Scan rule sets」→「system」タブから確認できます。画像を見てわかる通り「Custom」タブも用意されています。

画像19

カスタムのスキャンルールではスキャン対象とするファイルタイプやタグ付けの分類ルールの指定が可能です。
実際に作ってみます。
Customタブから「New」を選択し、名前や説明を入力

画像20

画像21

スキャン対象とするファイルタイプを選択
対象外にしたいファイルがあればチェックを外す、リストにない場合は「New file type」から新しいファイルタイプを入力します。

画像22

次は分類ルールの選択です。
上半分はシステムデフォルトの分類ルールです。これを外すこともできます。
下半分は自由に作成できるカスタム分類ルールです。カスタム分類ルールの作成は後述しますが、自由に分類ができるため、企業内の用語などで分類することも可能です。

画像23

スキャンルールの作成は以上です。
作成したスキャンルールは実際にスキャンするときに選択することができます。

分類ルール

まずは「Classifications(分類)」を作成します。
「Management center」→「Classifications」→「New」から作成できます。
入力項目は名前と説明だけです。作成した分類名がデータ資産にタグとして登録されます。

画像24

次に「Classifications rules(分類ルール)」分類ルールを作成します。
「Management center」→「Classifications rules」→「New」から作成できます。

画像26

入力項目は以下の通りです。
スキャンルールは「Regular Expression(正規表現)」と「Dictionary(辞書)」の2種類から選択することができます。

画像27

正規表現の場合は手動でデータパターンを入力するか、分類したいデータファイルをアップロードすると推奨パターンが表示されるため、それを選択することもできます。
複数カラムがあるファイルでもそれぞれのカラムで推奨パターンが表示されます。

画像28

辞書タイプでは1カラムのファイルをアップロードすることで、そのカラムに合う正規表現を自動で設定してくれます。

画像28

こうして作成した分類ルールをスキャンルールに設定することで、タグ付けをカスタマイズすることができます。

最後に

Purviewにデータを登録すると自動でタグ付けがされ、データサービス関係なく一律で検索をすることができるため、検索性が大幅に向上すると感じました。
ただ、カスタムのタグ付けは数値データのみ対応しているため、画像や音声データをタグ付けはできません。

プレビュー段階ということなので、今後画像や音声データにも自由にタグ付けができるようになる可能性に期待です。

以上、Azure Purviewの紹介でした。


アバナード 清田 涼平
記事内容に関するご指摘や、その他何かございましたら下記に連絡ください
ryohei.kiyota(@)avanade.com

この記事が気に入ったらサポートをしてみませんか?