AIが生成した文章はバレる！LLM電子透かし技術について超絶わかりやすく解説します

2024年12月20日 15:12

こんにちは！AI生成プロンプトデザイナーのヒロです！

生成AIを使いこなしている人にも、そうでない人にも、意外と知られていないのですが、実は生成AIが作成した文章はバレます（テヘ）。

これを、LLM電子透かし技術と言います。

生成AI（LLM）は、自然な文章を出力してくれるようになり、一見すると生成した情報がAIかどうか判別つかなくなりつつありますが、「AI(LLM)」には電子透かし（ウォーターマーク）を埋め込む技術があり、それによりAI（LLM）が生成した文章であるかどうかを判断することができます。

そこで今回は生成AIが作成した文章がバレるLLM電子透かし技術について解説していこうと思います。

LLM電子透かし技術について

電子透かし（digital watermarking）は、生成されたコンテンツがAIによって作成されたものであることを示すための技術です。

要は電子透かし技術は「あしあと」のようなもので、これによりAI（LLM）が作成したテキストであると判断することができます。

識別情報を埋め込む

例えば、コンテンツのテキストに、人間が気づかない形でAI（LLM）が書いたものであるという情報を埋め込みます。

この情報をAI（LLM）が解析することで、そのコンテンツがChatGPTなどのAIモデルによって生成されたものであることを確認できます。

・AIが書いたテキストに“電子透かし”を入れる技術　人に見えない形式で埋め込み　米国チームが開発
https://www.itmedia.co.jp/news/articles/2308/02/news040.html

どうやって？という部分については、後半でお話しします。

ちなみに、ITmedhiaのニュース記事でも取り上げられてますが、例えば、海外の論文では電子透かし技術について下記のように示されています。

▼A Watermark for Large Language Models
https://openreview.net/forum?id=aX8ig9X2a7

【PDF】
https://openreview.net/pdf?id=aX8ig9X2a7

「あなた：・・・。英語わっかんね」・・・（笑）

おっしゃる通りで、海外の論文なんでなんのこっちゃかわからないかと思いますが、これからお話しするようなことが書かれていると思ってください。

※もしも頑張って読みたいという方がいらっしゃったら翻訳AI「DeepL」などを利用して翻訳して読んでいただくといいと思います。
かなり正確に拾ってもらえます。
▼DeepL
https://www.deepl.com/ja/translator
もちろんChat GPTに論文のPDFファイルをアップロードして「日本語に訳して」「要点を教えて」のような形で命令すれば、いわゆる特別なプロンプト（例えば役割を与えて、）がなくても翻訳していただくことができます。
Chat GPTは要約が得意ですから。

自然な形で特徴を持たせて埋め込む

また、電子透かしは、コンテンツの意味や読みやすさに影響を与えない形で生成されます。

つまり人間が読んでいても、あまり不自然に感じない範囲で生成されます。

文章を読むのに慣れていて、かつAIを使いこなしているあなたは、文章を読んでいて、時折「なんとなく違和感」を感じることがあるかと思いますが、それが「不自然に感じない文章」です。

例えば、これは、生成される単語や文のパターンに統計的な特徴を持たせる手法が一般的で、だからこそ、読んでいてなんとなく違和感を感じる文章になります。

特定の検出ツールでの確認が可能

つまり、電子透かしが埋め込まれたコンテンツは、特定のアルゴリズムやツールを使うことで、それがAIが生成したものであるかどうかを判断できるということです。

LLM電子透かし技術の具体例

ここからは、じゃあ具体的にどんな方法で電子透かしが使われているの？ということについて触れて行きます。

ちなみにChat GPTでは、どのような電子透かし技術が使われているのかまでは公表されていません。

聞いても答えてくれねぇっす（笑）

ただ、Chat GPTをいじめれば多少は教えてくれます（笑）多少はね。

これはGoogleのアルゴリズム（SEO）と同じで、それが悪用される恐れがあることから、公表されないということになっています。

ただ、Googleのアルゴリズム（SEO）でも同じことが考えられますが、表面に現れているその事象により、下記のようにどのような形で使われているのか、推し量ることはできます（笑）

パターンを持たせる

テキスト生成時に特定の単語や構文の出現確率をわずかに調整し、結果として生成されるテキストに特徴的な統計パターンを持たせる方法です。

要するにAIを使いこなしているあなたならわかるかと、思いますがどんなに自然な文章に見えても「なんとなく、AIっぽいな」と感じることがあるかと思います。

それが特定のパターンです。具体的な例で言うと・・・

・特定の単語や句の頻度をわずかに調整する。
・文の長さや句読点の配置に特徴を持たせる。
・記号やスペースの使い方に微細な傾向を加える。

これらをアルゴリズムによりパターン化します。

それにより、人間には自然に感じられるもののAIにはAIが書いたものであると判断できるようになります。

例えば小説で言えば、なんとなく「村上春樹っぽさ」があったりするかと思いますが、それがなんであるのかを説明するのは難しく、なかなか表現しづらいかと思いますが、それでも「春樹っぽさ」は感覚的にわかるかと思います。

例えば一文が長かったり、冗長的であったり（失礼（笑））、大切な人がなぜか後半で失踪したり（パターン笑）、「僕」が異様にモテモテ（やりまくりです）だったり、といった形です。

そうした特徴的なパターンを持たせることで、特定の検出ツールでの確認が可能になっています。

特徴的な暗号を埋め込む

暗号と言っても、そんなに大それたものではなく、例えばテキストで言えば、不自然なスペースがあったり。「ます。」と「です。」が交互に埋め込まれていたりと言った形で、人間には自然に感じられる形でテキスト状に埋め込まれます。

それをパターン化することでAIがAIが書いたものであると判断できるようになります。

AIによる画像生成技術（例: DALL·EやMidJourney）では、すでに電子透かしに似た技術が部分的に使われており、実は、生成された画像に「目に見えないパターン」や「メタデータ」を埋め込むことで、その画像がAI生成であることを後から特定できるようになっています。

（悪用される恐れがあるため、暗号がどのようなものであるかについては公表されていません）

LLM電子透かしは除去できる

ただです。ここからが大事なのですが、電子透かし技術によりAIが生成したものであるかを判断できると言うことは、それを除去することも可能だと言うことです。

画像生成については特別な技術が必要となりますが、テキスト生成においては、AIが作成したものだと判別しづらいものにすることができます（笑）

例えばチューリッヒ工科大学の研究結果によると現時点での「AI生成テキストの透かし、改ざんは簡単」であると新研究で実証されています。

▼AI生成テキストの透かし、改ざんは簡単　新研究で実証
https://www.technologyreview.jp/s/332640/its-easy-to-tamper-with-watermarks-from-ai-generated-text/?utm_source=chatgpt.com

じゃあどうやって？それはプロンプトでも可能です。

ここではお伝えすることはできませんが、少なくともテキストについては、プロンプトによって除去することができますし、パターンかを見極めて人間の手により除去することができます。

・研究タイトル: 「AI生成テキストの透かし、改ざんは簡単新研究で実証」

・研究機関: チューリッヒ工科大学

・研究内容の概要: この研究では、AIが生成したテキストに埋め込まれた電子透かしが、比較的容易に改ざんや除去が可能であることが示されました。具体的には、AIモデルの出力を分析し、透かしのパターンを逆解析することで、以下の2種類の攻撃が実行されました。

・スプーフィング（なりすまし）攻撃: 透かしのパターンを利用して、AI生成でないテキストに偽の透かしを挿入し、AI生成であるかのように見せかける手法です。

・透かしの除去: AI生成テキストから電子透かしを削除し、人間が作成したテキストであるかのように見せる手法です。

研究結果として、スプーフィング攻撃で約80％、透かしの除去で約85％の成功率が得られました。これらの結果は、AI生成テキストにおける電子透かし技術の脆弱性を示しており、透かし技術の信頼性向上が今後の課題であることを浮き彫りにしています。

以上、今回は誰もが気になるであろう「生成AIで作成したテキストはバレる！」ことについてまとめてみました。

生成AIプロンプトデザイナー　ヒロ

実は・・・

今回の文章もちょっとだけAI使ってます（笑）あなたには、わかりますか？