技術トレンド解説〜AIセキュリティ・AIの品質保証編
こんにちは、ANRI 鮫島です。
前回のnoteでは、「技術トレンド解説〜XAI:説明可能なAI編」という記事を書きました。今回も引き続き、情報セキュリティ分野のリサーチインターン生による最先端の技術の解説記事です。
技術に馴染みのない方や技術トレンドをさらっとおさらいしたいという方は、章ごとのタイトルとその下の太字のストーリーラインを追っていただければ、大筋の内容を理解していただけるように書きました。
1. はじめに
こんにちは!ANRIリサーチインターン生の太極拳です。今回の記事では前回に引き続きAIの倫理をテーマに、倫理要素の一つである頑強性と関係の深い、AIのセキュリティと若干AIの品質保証について解説していきたいと思います。分かりやすさを優先しているため、学術的に厳密でないところもございますが、何卒ご容赦ください。
2. AIセキュリティとは
AIセキュリティとは、攻撃者によってAIの学習モデルが改ざんされたり、学習データが漏洩させられたりしないように保全することである。
そもそも、何故AI専用のセキュリティ対策が必要なのでしょうか。実はAIには特有の弱点が存在しており、巧妙な攻撃をすることで悪用できてしまうことが分かっています。詳細は後ほどの技術解説の章で述べますが、例えば顔認証AIの場合、他人になりすましたり、企業機密である顧客情報や製造ノウハウを流出させたりすることが原理的には可能です。(図1)この他にも、自動運転や医療画像診断、ウイルス対策ソフトといった様々な製品に活用されているAIに対して、だます攻撃を行うことができます。このような深刻な被害を防ぐため、各国政府は実際に法整備に乗り出しています。例えば、EUでは実効性のあるAI製品の安全性規制案を2021年に発表し、AIのリスク評価・監視の義務付けと、世界売上高の6%の重い罰金を科すことを決めました。
図1:攻撃者によるAIの悪用例
(出典:筆者作成)
3. AIのセキュリティ市場予測
2021年のAIセキュリティ市場は、2000年のITセキュリティ市場の状況に酷似し、今後10年で1000億円市場に成長することが見込まれる。
近年、AIセキュリティ分野の研究は急増しており、2021年のAIセキュリティ分野の論文数は、2000年のITセキュリティ分野の論文数に匹敵しています。(出典[1][2])図2のように、ITセキュリティ分野では論文数と市場規模に一定の相関があることが分かっているため、AIセキュリティ市場も同様に、論文数の増加に合わせて継続的に拡大していくことが予想されます。
図2:ITセキュリティ分野における、論文数と市場規模(国内)の関係
(出典:[1][2][3]を参考に筆者作成)
前述の議論から、AIセキュリティ市場が、2000年代のITセキュリティ市場と同様に今後成長していくことを仮定すると、国内市場はCAGR158%の高い成長率を維持し、今後10年で1000億円市場に成長することが見込まれます。
(※下記算定ロジックに基づき、筆者が独自に試算。ただし2021年から2030年のAIセキュリティ費用/AI開発費用は、2000年から2010年のITセキュリティ費用/IT開発費用で代用。)
図3:AIセキュリティ対策の市場予測(国内)
(出典[4][5][6]を参考に筆者作成)
4. AIセキュリティ分野の技術
AIセキュリティ分野はいたちごっこであり、これまでに様々な攻撃手法に対応する防御手法が提案されてきたが、抜本的な対策は見つかっていない。
ここからは急成長が期待されるAIセキュリティ分野の技術詳細を解説していきたいと思います。まずAIに対する代表的な攻撃手法を、表1に整理します。フェーズはAIの攻撃タイミング(学習時または運用時)を表し、費用対効果は筆者の主観で攻撃のインセンティブが大きいものを〇で表しています。また、攻撃手法同士には関連性があり、例えばモデル抽出により代理モデルを作成することで、効率的な敵対的サンプル攻撃につなげることができます。これは、一般に類似したモデル間では同じ敵対的サンプルが通用しやすい性質(転移性)があるためです。
表1:代表的なAIに対する攻撃手法
(出典:[7]を参考に筆者作成)
今回は各攻撃手法の中から「敵対的サンプル攻撃」に絞って説明します。敵対的サンプル攻撃(adversarial example attack)とは、人間が感知できないような微細なノイズを入力データに加えることでAIモデルに誤分類を起こさせる攻撃のことです。具体例としては図4のように、ある画像がパンダであるかサルであるかを分類するAIにおいて、元データのパンダの画像に微細なノイズを加えることで、サルに誤分類させる攻撃が考えられます。敵対的サンプル攻撃ではいかに小さなノイズで誤分類させるかが鍵であり、ノイズの大きさは「ノルム」という距離を拡張した概念によって測られます。表2は、代表的な敵対的サンプル攻撃の手法を、ノルムと事前情報の仮定によって分類したものです。事前情報の仮定は、AIの内部情報を完全に有している状態でのホワイトボックス攻撃と、一切有していない状態でのブラックボックス攻撃に大分することができます。
図4:敵対的サンプルの例
(出典:ノイズ付加パンダ画像をサルに誤分類)
表2:代表的な敵対的サンプル攻撃手法
(出典[9]を参考に筆者作成)
ここからは敵対的サンプル攻撃に対する防御手法として、敵対的トレーニング(adversarial training)とロバスト学習を取り上げたいと思います。敵対的トレーニングでは実際に敵対的サンプルを生成し、それらを誤分類しないように学習を行います。しかしながら、生成される敵対的サンプルは攻撃手法に依存するため、別の攻撃手法に対しても一定の耐性を持つかは分かりません。この課題の一つの解決策になり得るのが、以下で定義される最大安全半径という考え方に基づくロバスト学習になります。
入力データxのδ'近傍(を中心とする半径δ'の球の内側)に敵対的サンプルが存在しないとき、δ'をxの安全半径という。xの安全半径の中で最大の半径δを最大安全半径と呼ぶ。
図5は、前述の画像認識AIの例で、元データのパンダの画像にδ以下(最大安全半径以下)のノイズを加えてもサルに誤分類されないことを表しています。図6のように、ロバスト学習では学習データセットの各データの最大安全半径がδ(指定値)になるように学習を行います。(一般的には計算コスト抑制のため、最大安全半径の近似値を求めることが多いです。)こうすることで、一定のノルム内領域に敵対的サンプルが存在しないことを理論的に保証することができます。
図5:最大安全半径δのイメージ
(出典[8])
図6:ロバスト学習
(出典[8])
このような①学習データを工夫することで頑強性を向上させる手法の他に、②AIのアーキテクチャ自体を変更することで頑強性を向上させる手法や、③前処理によって攻撃を検知する手法も、敵対的サンプル攻撃の防御手法として提案されています。
特に本質的な課題解決のためには②の方式が有望だと考えられ、RSA暗号発明者のシャミア博士は深層学習(AIの一種)における敵対的サンプル発生メカニズムの原理解明の研究を発表しています。(出典[10])それによれば、深層学習と比べて人間の視覚システムが敵対的な摂動に対して非常に鈍感である理由は視覚からの入力情報を低次元の多様体に投影することで微細な摂動を排除しているからだそうです。このような低次元多様体への投影は敵対的サンプル攻撃に対する最大の防御となる可能性があると、シャミア博士は述べています。
5. AIの品質保証の技術
確率的な動作をするAIシステムは、ITシステムと比較して品質保証が非常に困難であり、どの程度の品質をどのように保証すべきかの統一的な見解がないのが現状である。
前章で紹介した最大安全半径という考え方は悪意のある攻撃者が人工的に生成したノイズだけでなく、自然発生したノイズに対しても適用可能なため、AIの品質保証においても利用されています。例えば、安全な自動運転AIの実現のためには、雨天時であっても(ノイズがあっても)晴天時同様に、交通標識を正しく判定することが求められます。ここでは、このようなAIシステムの品質保証が従来のITシステムと比較して困難な理由を開発手法の違いから説明します。
まず、開発段階においてITシステム開発は定義した要件に対して、それを満たす具体的な仕様を作成する「演繹的な開発」になります。一方で、AIシステム開発は、学習用データセットという個別事例から他のデータにも適用可能な一般則(学習モデル)を作成する「帰納的な開発」であり、試行錯誤のプロセスも発生します。(図7参照)
図7:AIシステムのライフサイクル
(出典[11])
次に、品質検査段階において演繹的開発(ITシステム開発)では開発作業が正しく行われば、要件や仕様を満たすソフトウェアが作られることが期待されます。そのため、要件や仕様ともとにテスト問題と模範回答を作成し、ソフトウェアがテストに正解すれば合格とみなすことができます。一方で、帰納的開発(AIシステム開発)では個別の事例を一般化しているため、得られた法則が常に正しいとは限りません。すなわち、学習データセット以外のデータでも正しい推論結果を出力するかどうかは分からず、そもそも正しい出力が何なのかは誰にも分かりません。そのため、AIシステムの品質保証は非常に難しく、日進月歩で新しい手法の研究・開発が行われている状況です。
6. AIセキュリティ領域の海外スタートアップ事例
AIセキュリティは防衛産業を中心に高いニーズがあり、北米を中心に防衛機関出身者が当該領域で起業している。
最後に、AIセキュリティ・AIの品質保証分野の主な海外スタートアップを表3にまとめます。ご覧の通り、これらのスタートアップのターゲットは、軍需、金融、ヘルスケア等の規制産業が中心的であることが分かります。特に、AIセキュリティ分野については米国の国防高等研究計画局(DARPA)がAI Next Campaignプロジェクトにおいて研究開発を主導していることからもわかる通り、軍事利用のニーズが高いことが窺えます。
表3:AIの品質保証・AIセキュリティ分野の主要スタートアップ一覧
表4は表3中のスタートアップの事業概要と経営陣の略歴を整理したものです。略歴分類としては、アカデミア出身者が1名、連続起業家が2名、防衛産業・政府機関出身者が3名、TechGiants出身者が1名という内訳になっています。こちらの略歴からもAIセキュリティ分野のスタートアップは防衛産業の関係者が起業していることが分かります。
表4:表3中のスタートアップの事業概要と経営陣の略歴
図8:AIセキュリティが求められる領域の例
(出典[7]を参考に筆者作成)
以上をまとめると、AIセキュリティとAIの品質保証領域はニッチですが、今後急成長していくことが見込まれ、海外では既にスタートアップが複数誕生している状況です。現状ではハッカーが実際にAIを攻撃した事例は限定的ですが(図8参照)、今後AIに対する攻撃ツールが普及したり、EUに続きAIの安全性に対する法規制が各国で制定されたりすることで、当該領域の需要が一気に高まる可能性があると考えています。
最後までお読みいただき、有難うございました!
ベンチャーキャピタルANRIは、「未来を創ろう、圧倒的な未来を」というビジョンのもと、インターネット領域をはじめ、ディープテックやライフサイエンスなど幅広いテクノロジー領域の大学発スタートアップにシード期から投資を行っております。
資金調達や起業などのご相談は、下記お問い合わせよりご連絡ください!
【参考文献】
[1]A Complete List of All (arXiv) Adversarial Example Papers
https://nicholas.carlini.com/writing/2019/all-adversarial-example-papers.html
[2]Canvas White Paper 1 Cybersecurity and Ethics
https://www.researchgate.net/publication/322373741_Canvas_White_Paper_1_Cybersecurity_and_Ethics
[3]情報セキュリティ市場調査報告書
https://www.jnsa.org/result/2017/surv_mrk/data/2016_mrk-report_v1.1.pdf
[4]国内AIシステム市場予測
https://www.idc.com/getdoc.jsp?containerId=prJPJ47728821
[5]情報セキュリティビジネスに関する調査報告
https://home.jeita.or.jp/is/jeitakouza/kyouzai/toukoudai/01_3.pdf
[6]ソフトウェアおよびソリューションサービス市場規模調査結果について
https://home.jeita.or.jp/is/statistics/soft_sol/h17/index.html
[7]機械学習セキュリティ研究のフロンティア
https://www.jstage.jst.go.jp/article/essfr/15/1/15_37/_pdf
[8]AIセキュリティから学ぶディープラーニング
https://www.amazon.co.jp/dp/429711805X
[9]機械学習品質評価・向上技術に関する報告書
https://www.digiarc.aist.go.jp/publication/aiqm/AIQM-techreport-1.0.pdf
[10]The Dimpled Manifold Model of Adversarial Examples in Machine Learning
https://arxiv.org/pdf/2106.10151.pdf
[11]機械学習品質マネジメントガイドライン
https://www.digiarc.aist.go.jp/publication/aiqm/AIQM-Guideline-2.1.0.pdf
[12]AIソフトウェアのテスト
https://www.amazon.co.jp/dp/4865942912