見出し画像

AIに書いてもらった文章であることはバレるのか

このタイトルを見てドキっとする人もいるかもしれません。
AIが生成した文章は、実際のところ、それがAIによって書かれたとバレるのでしょうか。

結論

勿体ぶってもいいんですが、結論から言うと、現状はバレません。
ただし、「おそらくAIが書いたもの」と判定するポイントは存在します。

この記事は、MediumでバズっていたJim the AI Whisperer氏の"The 19 tell-tale signs an article was written by AI"を参考にしていますが、翻訳記事というわけではありません。

「AI判定器」は存在する

ウソ発見器のように、ある文章がAIによって書かれたかどうかを判定するソフトウェア(AI)はあります。

問題はこれがどれくらい正しく判定できるかということなんですが、世に出回っているソフトウェアの精度は大変低いそうです。
あのOpenAIも一時期「AI Classifier」という言語モデルを公開してましたが、あっという間に取り下げたという経緯があります。

もう少し正確に言うと、これらのAI判定器は、大抵の場合において「これはAIが書いたものですね」と判定してしまう問題があります。
疑わしきは罰するスタンスですね(偽陽性が高い)。
何を書いてもAIが書いたものと判定してくるのなら、それは何も判定していないのと同じです。

なのでAI判定器があってもそれ自体の信憑製が低いので、それによってバレるというシナリオには繋がりにくいのです。

この手の困難は、リアルタイムでのフェイクニュース判定とも類似していますね。

でも今後判定器の性能が上がればバレるのでは?と思うかもしれませんが、生成する言語モデルのほうもすごい勢いで進化していくので、これはイタチごっこです。
アンチウイルスソフトの開発と似ていますが、アンチウイルスよりも需要が少ない気がするので、あまり期待できないと思います。

人間にはバレることもある

しかし自分で文章を生成している人なら、文章のクセを読み取ることで、なんとなく「AIの書いた文章っぽい」と分かることがありますよね。

プロンプトで仕向けることによって回避できる部分もあると思いますが、ここではその可能性については割愛します。

AIは絶対に間違えない・間違えられない

間違いがなさすぎることがAIっぽさの1つのポイントです。

日本語だと「ず」と「づ」を間違えたり(「見づらい」を「見ずらい」と書く)、"ら抜き言葉"(「来れる」「見れる」など)とかでしょうか。AIと言わずスペルチェッカーも、造語を強引に変換してしまったりしますよね。

人間より完璧であることがAIっぽさの痕跡とは限りません。
フォーマルな文章では気づきにくいかもしれませんが、インフォーマルな文章では、人間の場合あえて間違った表現もスラング的に使います。
しかもスラングや流行語は廃れることがあります。

AIは文法的に間違えられない(間違えさせる場合には正しく間違えさせないといけない)という問題と、AIが流行語を学習して使えるようになったらその頃にはその表現は廃れているという問題に挟まれて、どうしてもAIっぽさは文章から滲み出ることがあります。
しかし今後AIがさらに発展して学習の更新頻度も高まれば、どんどん気付かなくなるのかもしれません。

「違くて」とかはどうなるんでしょう。
10年くらい前から出現した言葉づかいだと思いますが、今やアナウンサーでも使っていたりするので、完全に定着してAIすらも「違くて」と言い出したら、もはや標準語入りしたということになるんでしょうか 笑。

特定の単語や表現をよく使う

個人的には、特に宣伝文を書かせるときに感じます(そしてだいたい採用しない)。英語では特定の頻出語が知られている(研究としてまとめられているかは知りません)ようです。

▶️ theの頻出
英語では冠詞のtheが、人間(英語ネイティブの人)が使うよりも頻出するそうです。冠詞が苦手でChatGPTを頼りにしている日本人には最悪の悲報ですね。

「冠詞を付けすぎないように気をつけてください」とかプロンプトで指示すればヨシナにやってくれると嬉しいのですが、これは言語モデルの構築過程で生じるバイアスだと思われるので、そう簡単には回避できないでしょう。(プロンプトに書いたからといってそのとおりに動いてくれるわけではない)

少し脱線しますが、theが頻出する問題は結構根が深い問題です。確実にtheがなくてはいけない場合やあってはいけない場合もありますが、「どっちでも良い」(趣味や意図の問題)の場合もあるからです。正直私も冠詞の使い方には自信がない派なので偉そうなことは言えませんが、ネイティブの英文には案外theが使われていなかったりしますし、硬派な人(古臭い文体の人?)は猛烈にtheをつけたりします。

同様にthis, these, that, thoseなども多くなる傾向がAI文章にはあると言われています。

▶️ 〇〇から〇〇までを多用する
これは個人的な経験としてはあまりピンとこないのですが、2つの両極端なものを並べて「〇〇から〇〇まで」とする書き方が頻出すると言われています。
「大きなことから小さなことまで(動かす力は…♪)」みたいなやつです。

▶️ 〇〇という場合もあれば〇〇という場合もあるを多用する
異常に中立的な立場をとるということです。
なるべくAIが出力する内容にバイアスがかからないようにOpenAIなどがチューニングしていることを考えると、確かにそれがAIの特徴になりますね。

-例-
私:
あなたは「こんにちわ」とは言わないのですか?
ChatGPT-4o:「こんにちわ」と書くのもインフォーマルな場面ではよく見られますね。本来の正しい書き方は「こんにちは」ですが、カジュアルな会話やメッセージのやり取りでは「こんにちわ」と書く人も多いです。

▶️ 特定の強調表現を好む
これは説明がちょっと難しいのと、元記事の具体例は英語特有なものが多い気がするので詳細は割愛しますが、なにかを強調する表現にクセがあると言われています。

AIは脚注が嫌い

これもある意味文章の"正しさ"と言えるかもしれませんが、人間の文章にはカッコ書きが結構出現しますよね(こんなかんじです)。
日本語ではあまり見ないですが、英語だとemダッシュというのも使われます ー こういうやつです。
でもAIはこういった脚注的な表現はインフォーマルと見なされるのか、あまり生成されません。

そういう意味ではセミコロン(;)はどうなんだろうと思いますが、どうなんでしょうね。

人間とAIの文章の境界はあいまい

文章全体として、AIは異常に文章表現に一貫性があるとも言われていますが、人間でも文章が上手い人は一貫性のある文章を書くので、違いを見出すのは難しいところです。

逆に、特定の表現が頻出して「AIは人間味がない」と言われても、私のように文章が下手な人はあまり人間味がある文章が書けないので困ったものです。

AIのような文章を書く人もいます。
AIは多くの人間の文章を真似するように文章を書きます。
人間とAIの文章の境界は曖昧です。

さいごに

参考にした元の記事は「AIが書いた原稿を見抜く19のサイン」なので、この記事はかなりかいつまんでいます。項目はもっとあるんですが、類似した内容だったり、英語特有だったり、正直全然ピンとこないポイントだったり、時代と共にすぐに過去の話になりそうなポイントは、まとめたり削ったりしました。

別にAI製の文章かを見抜くニーズがあるかはどうかに関わらず、AIの特性についてちょっと勉強になったのではないでしょうか。

AIであるかを見抜くポイントとして「AIは正しいことしか言わない」みたいな話がありますが、「正しさ」は主観的なものです。
つまりそれは「AIにとっての正義」を表明したものになりますが、「AIにとっての正義」とはなんでしょうか?

「AIにとっての正義」や「(当時の)人間の正義感」を明らかにし、記録していくことは、弊社(Aska Intelligence)が目指すところの1つです(*)。
ご興味あれば、フォローしていただけると大変励みになります。


弊社はAI駆動型アンケートシステムの会社ですが、その時代の人間とAIの知や大衆意見(正義感など)を統合し、構造化することはアーカイブとしての価値があると考えています。

この記事が気に入ったらサポートをしてみませんか?