AIとナレーション 前編:その脅威


昨今、ナレーションを取り巻く環境は激動している。宅録や海外収録でのリモート収録と、それまでと違った在り方が浸透し始めている。またテレビをはじめとする旧メディアは、webやSNSによるデジタルの猛攻にさらされている。ナレーションはメディアと共に読みのスタイルが変化してきた。

今後のナレーションの変化の未来はまだわからない。そんな中、大きな脅威として登場してきたのが人工知能(AI)によるナレーションだ。そこでAIナレーションの現状と人間のナレーションのこれからを考察してみた。

【ここまできたAI】


AIはいつの日か多くの人間そして、ナレーションに取って代わる可能性がある。すでにNHKの報道番組ではアナウンサーとしての導入が始まっている。中音域のよく響く声でよどみなく読んでいる。間やイントネーションの微調整はまだ手作業が残っているらしいが。

しかしながら坦々と情報を伝えるには、これで充分なのかも知れない。AIは報道などで定型化されたフォーマットにおいて、特に強みを発揮することになって行くだろう。定型化されていない、緊急事態などは、当面人間の読み手が必要だろう。

例えば切迫した声で避難を呼び掛けるには力不足と言える。以下のNHKのリンクで比較してほしい。

https://www3.nhk.or.jp/news/special/suigai/yobikake/phase03/

動画の人間のアナウンサーには”切迫感”があるが、下部にある「呼びかけの見本」(おそらくAI)の音声にそれはない。ただ今後はそれについても、比較的容易に対応できるようになるかも知れない。

【声優の声はすでにAI化されている】


AI先進国の中国人が作った音声合成AI「MoeGoe」で、「まどか☆マギカ」の声優たちをシミュレーションしたサイトをお聞きください。

https://togetter.com/li/1969193

多少のアクセントに違和感があるが、声優の声でそれっぽい雰囲気を出すことには成功している。権利関係がどうなるのか心配になるくらいの出来に仕上がっている。
その「MoeGoe」をテストできるサイトがあったのでテストしてみた。

https://huggingface.co/spaces/skytnt/moe-tts

上記に入力すると読み上げてくれます。
先ほどのNHKの災害アナウンスのテキストを入力して再現してみると。まだまだ、アクセント、イントネーション、読みのたどたどしさは拭えず、まだかなりの手動調整を入れないと実用には使えないだろう。

AIにおける声優のセリフとナレーションの違いはなんだろう。
セリフと長文の違いなのだろうか。短いワードだから可能だったのか。
感情のニュアンスを強調している、声優表現ならではなのか。
それとも声優の表現の型がパターン化しているからなのか。

ナレーションの方が表現の幅が広いのかも知れない。
いくつもの疑問がわく。

【すでに起こった未来】


実はコンピュータと人間との競い合いは、過去にも起きている。それはまず音楽で起きた。ドラムやベースなどのリズム楽器だ。今ではグルーブ感なども自在に再現できるようになっている。演奏者たちは、早々にコンピュータに仕事を奪われた。でもそれは中堅以下プレーヤーに起こったことで、トップ奏者には起きていない。みんなYOSHIKIがドラムを叩いている姿を生で見たいのだ。

今後もAI音声が普及するにつれ、”より人間の声を探す”ようになるだろう。本物はどれだと。ただ中堅以下ナレーターには同様の事態に直面するるだろう。一定のリズムで感情を抑制したアナウンサーなどは特に。

2023年元旦 velvet,Birds,猪鹿蝶 義村透
後編「AIとナレーション 後編:その未来」に続く


この記事が気に入ったらサポートをしてみませんか?