【AIと戦略】 そのAI、すぐに模倣されちゃいますよ。『予測マシンの世紀 第四部』#29
こんにちは。シンラボ共同代表の草場です。
AIとの共同に関して、『予測マシンの世紀 AIが駆動する新たな経済』をまとめていきます。推理小説のようで、ドキドキワクワクです。
目次
はじめに―機械知能
安さはすべてを変化させる
第1部 予測
第2部 意思決定
第3部 ツール
第4部 戦略
第十五章 経営層にとってのAI
第十六章 AIがあなたのビジネスを変容させるとき
第十七章 あなたの学習戦略
第十八章 AIリスクの管理
第5部 社会(AIと人類の未来)
いよいよ第四部、戦略です。どう戦略に組み込むか、一番大事な部分です。先日の記事は以下。
■AIリスクの管理
前回、入力データが抱えるリスクを議論しました。AIに多様性を持たせれば、全体攻撃が防げる可能性が見えてきました。それではもう一つの大事なデータ、トレーニングデータのリスクはどうでしょうか?
著者は、「もう1つのリスクは、誰かがあなたの予測マシンを尋問する」と表現しています。リバースエンジニアリングです。
競合他社は、自社のアルゴリズムをリバースエンジニアリングしたり、少なくとも自社の予測マシンに自社のアルゴリズムの出力を学習データとして使用させたりすることができる。
そうですよね。新しいAIが出てきたとき、どういうアルゴリズムかを研究するし、そのAIが予測として出したデータを使えば、同じようなAI作れます。例が本に示されています。Microsoft。。。
最もよく知られている例は、Googleのスパム対策チームによるおとり捜査だ。このチームは、「hibbprqag」のような、他には存在しない不条理な検索クエリの偽の結果を設定した。そして、Googleのエンジニアに、自宅のパソコンからそれらの言葉を照会させた。具体的には、「Microsoft Internet Explorer」のツールバーを使って検索するように指示した。その数週間後、チームはMicrosoftの検索エンジン「Bing」に検索をかけた。案の定、「hibbprqag」など、Googleが偽装した検索結果がBingの検索結果として表示された。
Googleのチームは、Mircrosoftがツールバーを使ってGoogleの検索エンジンをコピーしていることを示した。
MicrosoftがGoogle検索からデータを取って、Bingをトレーニングしていたわけです。詳細は以下です。
みなさん、どう思いますか?Mircrosoftの行為が許されるかどうかについて、多くの議論がされたようです。詳細は以下。
Mircrosoftは、自社の検索エンジン「Bing」のよりよいアルゴリズムを開発するために、「Google」のツールバーを学びながら学習させた。ユーザーが行うことの多くは、Googleを検索して、その結果をクリックすることだった。そのため、Googleでしか見られない珍しい検索語(「hibbprqag」など)が十分に使われていれば、Microsoftのマシンはそれを学習することになる。
興味深いことに、Microsoftがやっていなかったことは、Googleの検索語がどのようにクリックに変換されるかを学習し、Googleの検索エンジンを完全に真似ることだった。
多かれ少なかれ、多くの企業は競合他社の製品を研究するので、一概に悪いとは言えません。戦略の問題です。
戦略的な問題は、AIがある場合、競合他社が、入力されるデータ(検索クエリなど)と報告される出力(ウェブサイトのリストなど)を観察できれば、自社のAIを採用して教師付き学習を行い、アルゴリズムを再構築するための原材料を手に入れることができるということだ。Googleの検索エンジンは、このような収用に関しては非常に難しい事業となるが、原理的には十分可能である。
2016年に、研究者たちは、ある種の深層学習アルゴリズムがこのような模倣に対して特に脆弱であることを示したそうです。詳細は以下。後で読む。
比較的少ないデータでも、模倣可能のようです。
彼らはこの可能性をいくつかの重要な機械学習プラットフォーム(Amazon Machine Learningを含む)でテストし、比較的少ない数のクエリ(650~4,000)で、それらのモデルを非常に近い近似値、時には完璧にリバースエンジニアリングできることを実証した。機械学習アルゴリズムの展開そのものが、この脆弱性につながっている。
これって、すごく少ないデータのような。何が大変かというと、悪意のある攻撃者がそのAIのことを理解して、良くないAIに変えてしまうことです。
模倣は簡単に出来る。AIを訓練するためにすべての作業を行った後、そのAIの働きは事実上世界にさらされ、複製することが出来る。しかし、より心配なのは、この知識を収奪することで、悪意のある者が予測や学習プロセスを操作しやすい状況になる可能性があることだ。攻撃者がマシンを理解すれば、マシンはより脆弱になる。
ただし、救いようがあるのは、攻撃を受けるとその痕跡が残るということです。
予測マシンを理解するためには、何度もクエリを実行する必要がある。異常な量の問い合わせや、異常に多様な問い合わせがあった場合は、赤旗を立てるべきだ。痕跡が残っていれば、予測マシンの保護は出来るようになるが、簡単ではない。
しかし、少なくとも、攻撃が来ていることと、攻撃者が何を知っているかを知ることが出来る。そうすれば、攻撃者をブロックするか、(それが不可能な場合は)何か問題が起きたときのバックアッププランを用意することで、マシンを守ることが出来る。
AI出す→攻撃受ける→AI改良→攻撃受ける、のループのような気もしますが、どこかで止めれるのでしょう。
さて、最後のリスクは、フィードバックデータのリスクです。
それでは明日。
草場壽一
https://sinlab.future-tech-association.org/
この記事が気に入ったらサポートをしてみませんか?