ヘルスケアにおける合成データが果たす役割
米国では、早くも2020年6月にNIH(アメリカ国立衛生研究所)が、N3Cというプロジェクトを立ち上げました。同プロジェクトの目的は、協力医療機関から新型コロナ感染者の電子カルテ情報を集約し、多数の研究者にデータと分析ツールを提供することにより、新型コロナ患者治療の研究のスピードを上げると共に、将来発生しうるパンデミックにも活用できるデータプラットフォームを構築することです。
本日時点で、70以上の医療機関、650万の患者データが集約されています。
このプロジェクトの凄いところは、異なるデータフォーマットを持つ電子カルテシステムデータを標準化する仕組みを備えていることです。各患者のデータには病状、施した治療、ワクチン、各種検査結果などが含まれますが、各医療機関が異なる記述方法をしていた場合、解析が難しくなるのを防いでいます。そして、標準化されたデータをパランティア(Palantir)へ格納し、承認を受けた研究者がクラウド上で様々な解析プロジェクトを実行できるツールを提供しており、現在95のプロジェクトが走っています。
ただし、これらのデータは非匿名化されているとはいえ、郵便番号と診察日等の日付データが含まれているため、個人特定の可能性は否定できず、承認を受けたリサーチャーのみに利用が許可されており、N3Cのプラットフォームからダウンロードして広く活用してもらうことができませんでした。
そこで、今回NIHは、Syntegra社(Hike Ventures Fund I投資先)と合成データを作成するプロジェクトを開始しました!
Syntegraは、元データの統計的な特徴をきちんと反映した擬似データを作り出すことができるエンジンを開発しています。もちろん擬似データから元データの個人を特定することはできません。
650万人分の患者から生成された合成データが、より多くの優秀な研究者の手に届けば新型コロナの理解や治療方法についての研究が加速するのは間違い無いでしょう。
本プロジェクトを皮切りに合成化技術を使った医療データのオープン化に期待したいと思います!