AIがいる未来に声のプロはどう生きるか第2章

2024年1月2日 13:42

ナレーター、声優、アナウンサーといった声のプロたち。直面しているAIの波は、クリエイティビティにどのような影響を与えるのか。AIは現在どこにあって、どこまで進むのか。そして音声表現はどうなるのか。現在と未来の洞察をお届けします。

＜＜第2章 AIの可能性＞＞

【シンギュラリティの未来】

2045年以内には、人間を上回るAI知性が誕生すると予言されている。それが技術的特異点”シンギュラリティ”である。その時には、幅広いタスクに対応できる能力や柔軟性を持っている”強いAI”「AGI」Artificial General Intelligence（人工汎用知能）が誕生すると言われている。

AI研究の第一人者ジェフリー・ヒントンは、共感力を示すように訓練すれば、AIも共感力を示すことができる。意識は人間が独占するのではなく、AIがいずれ意識をもっても不思議ではないと予言している。まさにSFが描いてきた未来だ。

脳科学者は、その仕組みをニューロンを回路内の電気信号に分解できると考えている。究極には脳の解析が進み人工脳ができるかもしれない。

ただ現状では生理的な問題、記憶とか感情に関しては、5％も解明されていない。解明はそもそも不可能だと考えている学者もいる。科学は発展してきたといっても、まだまだ、わからないことだらけの現在である。

加えて言うと、ChatGTPを作るのには、一つの都市の電力が必要になる。人間の脳は電球一つ、たった20wで動作する。本当にこれらの問題を乗り越えて”シンギュラリティ”に到達することはできるのだろうか？

【実作業のコスト】

”シンギュラリティ”が本格的な変革の時期だとすると、まだ未到達な部分は何だろう？
まずは「コスト」の問題。今後はどの程度下がるのかは需要と供給次第だ。現状ではまだ手作業が残り、人間が作業するコストに追いついていない。

NHKの報道や、歌、アニメなど、精度やニュアンス、アクセントなど、まだ手直しが必要な段階である。それぞれが短い尺だから、手作業での対応ができているとも言える。現時点ではコストと尺の長さが障壁となっている。

誰でもいいSomeoneはコストとの勝負だ。コストの障壁を越えるのはいつか。それはまだ不明だ。もっとも、誰でもないOnly oneであれば、コスト以上の価値を生むのである。
手作業とコストが漸進的に減少していく中、どの部分から追いつかれ、消えていく運命なのか？

【どこまで表現可能なのか】

ブレスやリップノイズ。ブレスはより人間感を出すには大切。特に声優では表現の必須要素になっている。しかしナレーションではブレスと、特にリップは単なる”ノイズ”としてカットされている。

現状のAI音声では、それらが全くない。それこそが人間らしさ故なのに。今後は案外これが残され強調される時代が来るかもしれない。

アナウンスにおける緊急時の切迫感など。これは簡単に追いつかれそうである。どのようにでも取れる多義的な表現ではなく、一定の方向性を持っているからだ。
次に個性的な声。個性的であればあるほど学習は容易だ。ハスキーな声はすでにChatGTP内のデフォルトの一つに入っている。

英語圏のAIでは人種や階層による声を区別しながら喋るようになっている。例えば黒人ギャングやエリート白人の口調など。英語圏では日本より人種地域階層によって多様な喋り方ゆえに、細かなアクセントをそれほど気にする事はないのかもしれないが。

女性声優たちの甲高い”裏声”は、音域の狭さから最もキャッチアップし易い。萌え表現などはテンプレート表現が多くすでに誕生している。少年、幼女、色っぽいお姉さん、スカした二枚目なども同様かもしれない。ヲタクたちが熱心に解析している真っ最中であろう。

定型の表現におけるニュアンスは、擬似的であってもすぐにでも表現可能だろう。感情表現ですら、定型にとどまる限り聖域ではない。

【記号化できるものから飲み込んでいく】

声の分野に影響があるのはAIによる音声合成モデルである。膨大なコーパスデータ（自然言語を収集したもの）から統計的に次の言葉を紡いでいく。以前は不自然で違和感の大きかった機械音声が、ディープラーニング技術によって人間の声とほぼ区別がつかない自然な音声へとなっている。

音声自体を読み込み、イントネーション、アクセントなどのデータを、文脈を加味した上で大量に学習し、ディープラーニングをはじめとしたAI技術によって自然な発音が可能となっている。

ただ劣化コピーとしての情報の氾濫の心配がある。大規模言語モデルによって生成されたテキスト、画像、動画、音声がウェブ上で公開されればされるほど、生成物はどんどんぼやけたものになっていく。

データとは記号。言語はある種の記号なのでデータに還元できる。すなわち記号化できるものはAIによって生成できるということ。医療や法律など分類して記述されたものはAIが大得意なのである。

感情の表現パターンなど記号化できるものは、取って代わられる可能性が大きい。AIがそれを理解していなくても。喜怒哀楽の感情、例えば「笑い」なら爆笑、苦笑、微笑、照れ笑い、苦笑いetc。それぞれ数十パターン学習させれば、感情表現も人間と区別がつかない程度にはなるのではないか。

実在の声はデータ化し学習して取り込める。また特徴的な声を大雑把には分類できるので音色も再現可能だ。

感情表現が定型として解析され、人間の声がシュミレートされていく。そうなると表現とは何か、人間とは何かという問いになってくるだろう。
何をどこまで記号に分解できるかが、人間とAIの分岐点になる。

<<次章予告>>

AIは哲学者になれるのか。次章「人間の課題」では、倫理や哲学といった人間固有の領域がAIによってどう抗しうるか。クリエーティブとは刻一刻と変化するものであり、制作・演出側もその影響から逃れられない。

次章「人間の課題」、お楽しみに

この記事が気に入ったらサポートをしてみませんか？

AIがいる未来に声のプロはどう生きるか 第2章