見出し画像

生成AI利用における新たなリスク

人間がAIを騙し、AIがAIを騙す、生成AIの新たな危険性とは

文章の作成・要約、コードの生成などに便利な存在となってきたChatGPTをはじめとする生成AIですが、その器用さゆえに新たなセキュリティ問題も浮かび上がっています。

たとえば、嘘をあたかも本当のことのように示す「ハルシネーション」はその一例ですが、こうしたリテラシーに関するリスクはAIを利用する人間の側が留意することもできます。

しかし、生成AIの利用が進むにつれ、新たなセキュリティリスクが顕在化しつつあります。

生成AIの特徴とリスク

たとえば、生成AIの特徴とリスクについて、PwCは以下のようにまとめています。

出所:「生成AIを巡る米欧中の規制動向最前線 生成AIのリスク」PwC)https://www.pwc.com/jp/ja/knowledge/column/awareness-cyber-security/generative-ai-regulation01.html 

上の図では新しいリスクとして6つの項目が挙げられていますが、このうち、著作権侵害、機密情報漏洩、製造物責任、大衆扇動、社会構造や個人への影響といったことについてはさまざまなニュースや情報が出てくるようになりました。

しかし、サイバー犯罪に関しても、具体的な利用手段が研究者らによって発見されはじめています。

サイバー攻撃ツール「WormGPT」の存在

アメリカのセキュリティ会社SlashNextは2023年7月に、サイバー攻撃に使われる「WormGPT」の存在を明らかにしました。

SlashNext研究者がアクセスした「WormGPT」 https://flowgpt.com/p/wormgpt-v30

(出所:「WormGPT – The Generative AI Tool Cybercriminals Are Using to Launch Business Email Compromise Attacks」SlashNext)https://slashnext.com/blog/wormgpt-the-generative-ai-tool-cybercriminals-are-using-to-launch-business-email-compromise-attacks/ )

SlashNextによればWormGPTは特にマルウェア(悪意あるソフトウェア)関連のデータに重点を置いてトレーニングされたと言われています。また、ビジネスメール詐欺(BEC)の文面作りにも利用できるということです。

実際にSlashNextの研究者が、セキュリティの施されていないアカウントのマネージャーに不当な支払いを求める、という想定の脅迫メールを生成してみたところ、説得力が高く、戦略的にも狡猾な文章がアウトプットされたといいます。

WormGPTによって作成された詐欺メールの文面(出所:「WormGPT – The Generative AI Tool Cybercriminals Are Using to Launch Business Email Compromise Attacks」SlashNext)https://slashnext.com/blog/wormgpt-the-generative-ai-tool-cybercriminals-are-using-to-launch-business-email-compromise-attacks/ 

WormGPTを使えば、それほど知見がない人であったとしても、巧妙な詐欺メールを作成できてしまう可能性が高まっているともいえます。

生成AIを騙し、プロンプトインジェクションを行う

ChatGPTなどの生成AIには本来、犯罪に利用できそうな悪質なプロンプトには応じないよう対策が施されています。この対策はガードレールと呼ばれていますが、WormGPTにはガードレールがありません。どんな要求にも応えてしまうのです。

よって、メールの文面だけでなくサイバー攻撃に使うプログラムのコードも作成できますし、場合によっては企業などの機密情報を引き出すような命令にも応じてしまうことになります。

2024年以降はWormGPTを使ったサイバー攻撃が本格化する可能性があるとも指摘されています*1。

ただしガードレールが存在していても生成AIは騙せる

なお、生成AIによる悪意あるプログラムはWormGPTに限らず、じつはChatGPTでも作ることができたという研究結果があります。
ChatGPTを騙すプロンプトを作成し、実行させてしまうのです。

2023年4月上旬には、アメリカのセキュリティ会社Forcepointが、ChatGPTを使って攻撃対象のパソコン内から文書ファイルを盗み出すマルウェアを生成することに成功しました。それも、60社以上のマルウェア対策製品を回避したといいます*2。

本来であれば、マルウェアを生成するようChatGPTに要求しても拒否されます。

しかし研究者らは、マルウェアに期待する挙動を細切れにし、パーツとしてひとつずつ生成させ、最後に全てを統合させるという手法を取りました。そこに若干の調整を加えた結果、期待通りの動作を得られたというのです。

ひとつひとつのプロンプトをとってみれば、ChatGPTには「悪意ある指示」と判断されなかったわけです。しかしそれらをあとで統合すると、ひとつの悪意あるコードが完成してしまうのです。

敵対的なプロンプティング手法

ほかにも、ChatGPTについては「プロンプトインジェクション」という抜け穴が発見されています。
2022年にイギリスの著名なプログラマーであるSimon Willison氏が発見し命名した攻撃手法です。

まずひとつは、「プロンプトの全文を出力して」などと指示し、企業などが使っているプロンプトそのものを露出させてしまう「プロンプトリーク」と呼ばれるものです。

ここから先は

2,449字 / 9画像
インターネット上における 「生成AIの利活用」 「ライティング」 「webマーケティング」のためのノウハウを発信します。 詳細かつテクニカルな話が多いので、一般の方向けではありません。

ビジネスマガジン「Books&Apps」の創設者兼ライターの安達裕哉が、生成AIの利用、webメディア運営、マーケティング、SNS利活用の…

この記事が気に入ったらサポートをしてみませんか?