１月２５日　AIの自然会話認識能力ってどれくらい向上したのだろうか？

2022年2月23日 01:51

　乙女ゲームであるが、ちょっと気になるゲーム。
　前後に入るシナリオ部分が最初から用意されたもので、途中に入るオマケ的な「AIチャット」が噂の「最新AI技術」が活用されたシーンとなる。
　これが気になっているのは、果たしてAIはどれだけ人間の自然会話を理解できるようになったのか。本当にちゃんと対話っぽくなっているだろうか？　もしかしたら「構文」のようなものが用意されていて、それでパターンを繰り返すだけ……だったりするのだろうか。

　先日、一太郎を販売するジャストシステムから案内書が届いて……はて、私はいつ住所登録をしたんだろうか？　まあ案内書が来たってことは、購入時に登録してたんだろうな。
　内容は最新版『一太郎』が出まっせ……という話で、まあだいたいの内容は今あるやつで充分なので別にいいか……という感じだったけど、気になったのが「AI校閲システム」。

　今も新しい小説を書いていて、間もなく書き上がるのだけど、これから誤字脱字のチェックに入る。これが死ぬほど大変。何回読んでもそのたびに誤字脱字を発見する。もういっそ、最初の頃から誤字増えてねーか……というくらいに。ヘタすると、本編執筆よりも文字チェックに時間が掛かってしまう。
（という以前に、ストレスの滅茶苦茶かかる作業なので、やりたくない）
　一回でも、誤字脱字の一切ない自分の小説なんてものを見てみたいが……。それが実現できないくらい校閲は大変。
　こういう作業こそ、AIなんかでバーッとチェックしてくれないものかなぁ……。
　とはいつも思うのだけど、小説の自然会話っぽい文章はAIは理解できない。ガチガチのビジネス文書ならまあ理解するのだけど、柔らかい口語体になるとAIはまるでダメ。
　この辺りは日本語の難しいところで、いわゆる「言文一致」の文章は、そもそも「正しい文章」の規格から外れている。かつてあった明治以前の文章のほうが、「論理的な文章」としては正しい。でも「言文一致」のほうが伝わりやすいし語りやすい。

　問題なのがここで、これがAIには伝わりにくい。私はこの文章の中で、「増えてねーか」とか「出まっせ」という単語を使ったが、これがAIには認識不能文章。「誤字」と判定される。
　最近の私の文章は、できるかぎり自然の口語体に近付けるようにしている。というのも、「長い文章を読む」というのはそれ自体が結構な高負担。小説の長文となるとよりしんどくなる。そこで「雰囲気」っぽい表現と、擬音をどんどん増やす傾向になっている。読みやすさ、感覚で理解できるように……という追求の結果そうなっていったのだけど、これがAIには難しい。

　なんの動画で見かけたんだったかな……。AIオペレーターで相手の電話クレームに対して、AIが発声して対処する……というのものがあったのだが……。その時のAIオペレーターというのが英語。実際の人間は喋っているのと、ほとんど変わらないクオリティだった。
　電話オペレ－ターとかいう、面倒な上にストレス過多の職業はこれでAIにお任せすることができる……というアピールだったが……まあそのぶん人間の仕事が奪われるなぁ、とは感じたけれど。それはさておき。
　英語だとAIに人間に対応して喋って問題解決に導くことができるのか……という驚き。日本語だとこれがなかなか……。まず日本語の発声が難しい。私は「東北ずん子」さんを持っていて、このブログに書いてあるようなことをざーっと放り込んで喋らせても、まずうまくいかない。細かい発音調整をやらないと、とてもじゃないと聞かせられるようなものではない。漢字の読み方が間違えていることも多い。そういった調整を入れた後でも、「話術」というものまでいくことはない。「話術」というのは、シーンに合わせてゆっくり読んだり、勢いを付けて読んだり……ということだけど、こういうの「微調整」は可能だけど、それは時間が掛かるし、時間をかけてもさほどの効果が得られないしで……。
　まあそれくらいに日本語の音声再現は難しい。一方の英語は、アルファベット自体が発声記号になっていて、その組み合わせでしかもさほどパターンも多くないから、AIで喋らそうとしたら実現できてしまう。英語には「漢字の読み違え」とかもないから、アルファベットを放り込んだら、だいたいその通り読んでくれる。
　日本語は解析する場合においても、音声再現する場合でも難しい。なにしろ構造が非常に複雑。正しければ良いというわけでもない（むしろ正しく書くと伝わりにくいことすらある）。なので、まだまだAIでは理解できない部分が多すぎる。
　こうしたところがAIによる日本語解析の難しいところだ。

　Siriは日本語を理解できるじゃないか……と思われるかもしれないが、実はSiriは日本語を理解しているわけではない。特定の単語をひろって、グーグル検索にかけているだけだ。
　例えばSiriに「美味しいイタリア料理のお店を教えて」と尋ねるとする。この場合、Siriが読み取っているのは「イタリア料理」と「店」という単語のみで、「イタリア料理」について尋ねる人は「イタリア料理を食べられる店」を探しているに違いないので、イタリア料理店の検索結果を出せばだいたい正解ということになる。
　人から聞いた話だけど、「まずいイタリア料理のお店を教えて」と尋ねた場合と、「美味しいイタリア料理のお店を教えて」を尋ねた場合とで、Siriは同じ検索結果を出すという。「美味しい」か「まずい」か、という単語は別に認識していないのだ。だって、そもそもそんなこと聞くやつなんかほぼいないから。
　Siriで対話っぽいことができるが、あれは全部、AIが作っているのではなくて、エンジニアが一つ一つ書いているもの。やはり特定の単語のみをひろって、回答を出しているだけ。頭の良いエンジニアが、文章の中の特定の１つ２つ拾って、「こう答えれば正解」という回答を作っているだけ。Siriが自然会話を理解しているわけではない。

　ちなみに私はこういう音声検索機能を使ったことがない。だって、「滑舌」が異常なほど悪いんだもの。私の声は認識できないだろう……と思っているので使ったことがない。どうせ認識しないだろうな、というものを使うくらいなら、手で文章を売った方が早いので。

　AIはいまだ抽象理論の理解が難しいようで、例えばFacebookが使っているAIでは、「キャベツを２つ並べている画像」でも「猥褻なオッパイ画像」と判定して、削除してしまう。「タマネギ」でも「リンゴ」でも２つ並んでいると猥褻画像扱いする。
（たぶん、リンゴ、にんじん、リンゴ……と並べるとこれも猥褻画像と認識するだろう。ネオアームストロングサイクロンジェットネオアームストロング砲もアウトだ）

　「AIの脅威」っていろんなところでいわれているけれど、現実ではまだまだこの程度。「AIに支配される未来」なんて当分先の話。
　AIは命令されれば何かを生成するけど、独自に何かしらの表現をすることは絶対にない。表現したところで、それの何が良いのかを判定するのは人間ですし……。
　さて、一太郎の最新のAI校閲はどれだけ進んでいるだろうか？　「AIは口語体文章は理解できない」というのは過去の話で、最新のAIだったらひょっとして……？
　なんにしても、校閲作業は死ぬほど大変なので、このシステムのために最新の一太郎を入れてもいいかな……くらいに考えている。

　pixivsketchによる自動着色。これもAI。それっぽい雰囲気は出ているけれども、それだけでしかない。「肌」と「服」の境界を認識できてないし、髪の毛もうまく認識できていない。AIはまだアートという抽象表現を理解するほど進んでない。

とらつぐみのnoteはすべて無料で公開しています。しかし活動を続けていくためには皆様の支援が必要です。どうか支援をお願いします。

１月２５日 AIの自然会話認識能力ってどれくらい向上したのだろうか？

１月２５日　AIの自然会話認識能力ってどれくらい向上したのだろうか？