見出し画像

日本総研発表(2023年6月)の「【先端技術リサーチ】プライバシー保護合成データの概説と動向」の要旨をご紹介します。


はじめに

GEOTRAインターン生の伊藤です。

本記事では、2023年6月に株式会社日本総合研究所が発表した「プライバシー保護合成データの概説と動向」内に記載された、合成データ(Synthetic Data)に纏わるポイントをご紹介します。

GEOTRAは、合成データ生成技術を活用したサービスを提供しており、同レポートではユースケースの一つとして紹介されています(P.17)。

合成データとは、現実世界のデータを元に作成される人工的なデータです。実在する個人のデータを直接用いずに、個人データのプライバシーを保護可能な、プライバシー強化技術として近年注目されています。

合成データ利活用の拡大の背景

社会のデジタル化により収集可能な実データ量の増加及びAIの発展に伴い、データ利活用が推進されています。

一方で、データ利活用の推進と並行して、例えば2021年には中国、2022年にはタイで個人情報保護法が施行される等、世界的にデータ保護規制の動きが拡大しています。
Gartnerは2023 年末までに世界中の企業の80%以上が、少なくとも 1 つの、プライバシーに焦点を当てたデータ保護規制に直面すると予測しています。

このような状況下、実データに含まれるプライバシー情報を保護する方法・技術がデータ利活用の更なる推進には必要となります。
合成データは、実データの特徴量及びデータの構造を維持しながら、実際のデータに近い人工的なデータを生成するため、プライバシー強化技術の一つとして、近年注目されています。

図1:合成データの生成及び活用先のイメージ
(左は生成モデルを用いた合成データの生成、右は合成データの活用先)
出典:プライバシー保護合成データの概説と動向より引用

ユースケース

近年、様々な企業及び組織による合成データの活用事例が登場しています。特に、センシティブな情報を保有する金融・医療領域にて多く活用されています。

図2:各領域におけるユースケース
出典:プライバシー保護合成データの概説と動向より引用

ユースケース(GEOTRA)

当社の取り組みが、通信領域での活用事例として、レポート内で紹介されています。
当社は、プライバシー性が高い人流ビックデータを提供するために、合成データ生成技術を用いています。

人流データの提供にあたり、プライバシー保護の関係から、メッシュ化・集計化されるのが一般的ですが、合成データ生成技術を用いることで、集計されていないトリップデータの提供が可能となり、従来の人流データでは出来ない、様々な条件設定をした上での詳細な分析やシミュレーションを可能としています。

図3:当社の取り組み
(左半分は当社の合成データの活用方法、右半分は集計されていないトリップデータ)
出典:当社作成

ユースケース(NVIDIA)

更に、同レポート内では、NVIDIA社の実用例を用いて、画像認識の分野における合成データの活用事例を解説しています。

図1中の右図が示すように、合成データ生成技術には、実データを基にデータの加工等を行い、新しいデータを生成することで、実データでは再現できない環境を再現し、機械学習に用いるデータを拡張する手法があります。

同社は、自動運転で活用されるAIモデルの開発において、現実世界のデータや統計情報を基に、現実世界では発生が稀な状況(例:降雪)を人工的にデジタル上で作り出し、訓練データとして活用しています。

合成データを活用した学習データの拡張は、金融や通信の分野でも行われており、AIモデルの性能を向上させる取り組みが進展しています。

図4:NVIDIA社による合成データの活用事例
出典:Are You Still Using Real Data to Train Your AI? より引用

データ流通における合成データ

図5が示すように、国内でパーソナルデータを活用する際、主に統計情報・匿名加工情報・仮名加工情報等を用いています。

同情報の活用を通じて、第三者提供のための同意取得や利用目的の制限等のデータ流通における障壁の緩和が可能になる一方、データの粒度が荒くなることに伴う有用性の喪失等の課題に直面しています。

このような状況下、合成データは、他の情報と比較し、データの粒度及び有用性を維持したまま、幅広い分析用途に活用可能なデータとして期待されています。

図5:データ流通における各情報の比較
出典:プライバシー保護合成データの概説と動向より引用

今後の展望

合成データを活用する事例は増加傾向にあり、様々な領域で実用化の段階に移りつつあります。
同レポートでは、医療・行政に関する社会課題の解決等の個人情報の活用が受容されやすいと想定される事例から、合成データの実装が拡大する可能性を示しています。

最後に

ここまでご覧いただきありがとうございました。

本記事では、日本総研が2023年6月に発表した「プライバシー保護合成データの概説と動向」から一部抜粋して、合成データ活用拡大の背景及びユースケース、今後の展望についてご紹介しました。

GEOTRAでは、独自の個人情報保護技術により、人々の動きや行動目的などが高粒度に可視化された人流データGEOTRA Activity Dataをご提供しています。更に人流データのご提供に留まらず位置情報データ全般に関する利活用促進のためのご支援を行っております。

当社事業概要、当社作成

noteでは、引き続きGEOTRAの事例紹介や活動報告、GEOTRAに関連するテーマの特集や事例研究を掲載していきます。
今後も皆さんのお役に立てるコンテンツを配信できればと思っておりますので、皆様のいいね・フォローをお待ちしています!

弊社へのお問合せ先:
メールアドレス: sales@geotra.jp
Facebook URL: https://www.facebook.com/geotra.jp