見出し画像

AIがいる未来に声のプロはどう生きるか 第3章

ナレーター、声優、アナウンサーといった声のプロたち。直面しているAIの波は、クリエイティビティにどのような影響を与えるのか。AIは現在どこにあって、どこまで進むのか。そして音声表現はどうなるのか。現在と未来の洞察をお届けします。


<<第3章 人間の課題>>



【過去の技術革新で消えたもの】

歴史を振り返ってみると、何がなくなり何が残るのかが見えてくる。

100年前の1920年チェコのカレル・チャペックが戯曲で「ロボット」という言葉を創り出し、人間に対する反乱を描いた。その後「メトロポリス」や「ターミネーター」でアンドロイドの反乱がSF映画の定番の題材となった。

手塚治虫原作で浦沢直樹が漫画化・アニメ化した『PLUTO』プルートゥは、究極のロボットが共感力を持つ物語である。感情を持ち涙を流す。手塚治虫の鉄腕アトムもしかり。人間に寄り添えるロボット。そんな未来を見ていたのだろう。

新しいテクノロジーが誕生するたびに人は不安になっていた。反乱は大袈裟にしても、職を失われる危険性はいつの時代の人も感じていた。産業用ロボットは社会の役にたっているが、その発達で平均的な職人は消えたことも事実だ。ただし高度職人は残っている。

”表現”にフォーカスしてみると。
演劇においては、新しいメディアテクノロジーである映画、TV、ネットに次々と対応し、なおかつ舞台は今でも盛況だ。
音楽も同様。レコード、CD、ネット配信に飛び移りながらコンサートは大入りである。技術革新で表現自体は形を変えながら時代に対応してきた。

技術というより時代そのものの変化で消えた表現はある。
三味線や長唄、日本舞踊は一時期の隆盛は見る影もない。消えたというよりは、伝統文化として残ったというべきかもしれない。文化は継承する限り消えないのだ。

三味線はエレキギターに、長唄はポップスに、日本舞踊はヒップホップダンスに。形態は変化しても、演奏すること、歌うこと、踊ることには変わりはない。同時に話すこと語ることは根源的な行為なので消えることはない。ただビジネス形態としては変容するかもしれないが。

【AI進化と人間の課題】

別の角度からの視点で、制作・演出側にも言及しなければいけないだろう。AIによる業務の高速化効率化は、人間の経験と感覚が重視されてきた領域でも活用される。制作・演出側がAIになる可能性があるということだ。

声で人間を使うかAIを使うかの是非を、AI自体がが判断するかもしれない。
今日のAIは、「思考」「考察」という本来人間特有の資質と考えられてきたものまでをも代替できるからだ。

AIの方が総じて優れているといわれている分野は、人間の平均以上に優れた意思決定が可能になっている。コンサルティングや人事、コーチングなど、人間の知識・技能・感性が重視されてきた対人的な業務においても、AIがより的確な提言をしたり、人間の表情から感情を人間以上に察知して対応したりすることが立証され始めている。

AIを使いこなそうと思う人は、新しいことのチャレンジにワクワクする。逆に拒否する人は、変化することで古い自分の価値観が無くなってしまうのだから恐怖を感じてしまう。結果、使いこなす人と、使えない使わない人との分断が生まれるだろう。

現存している古い企業には保守性という壁がある。メディア業界も例外ではない。このことが変化のスピードを遅らせる要因となるだろう。旧来の組織では現状の生態系、既得権を維持しようとするからである。例えそれが衰退への道であっても。

過去コンピュータを使いこなそうとする組織も、マダラ模様の普及だったように。デジタルによる変革には、それを使いこなす人材の育成、組織風土の変革が必須だと叫ばれている。”シンギュラリティ”への到達は、人材がポイントである。AIが進歩しても人間が追いつけない、使いこなせないでは、普及速度はスローダウンする。
AIに合わせた社会、組織、人間の変化は、それぞれを再起させる可能性のはずである。歴史には必ず揺り戻しがある。それでも行き来しながらも、来るべき未来には向かうはずである。​​​​​

【AIと著作権】

解決しなければいけない大きな課題は著作権である。現在様々な可能性を模索している最中だ。

有名人の声を学習させ、本人が喋っているように再現できている。フェイクが簡単にできてしまう。テキスト、画像、動画も同様である。

2023年全米映画俳優組合がストライキを起こした。制作会社は俳優の動きや表情、声をスキャンし、AIに学習させれば、CGで俳優の分身を作り出せる。プロンプトを入力するだけで、俳優の分身が出演する映像を際限なく作り出せるようになることに対する抗議だ。AI問題はストライキで要求した内容の一部ではあった。現在では暫定合意したが、どの部分での合意か詳細は不明である。

アメリカのナレーション業界では”フリー音源”を規制するよう圧力をかけている。日本では声優たちが「声の肖像権」を確立することを目指している。

米紙New York TimesがChatGTPを創ったオープンAIを提訴した。自社の記事や写真を無断で学習させたということだ。

これらの問題をどのように規制するのか、しないのか。技術進歩のアクセルとブレーキのバランスを取るのは未だ難航している。著作権問題に、ある程度の線が引かれないことには、どのように利益を出すのか、そのビジネスモデルが構築できない。

ツールとしてのインターネットは10年で80%の普及率を達成した。ネットやスマートフォンのように急加速度で普及するのか。単なる技術ツールとして、Excelのマクロのように一部の普及に留まるのか。それとも重要なパートナーとなって共存するのか。明日はどっちだ。

【記号化できるものから飲み込んでいく】

声の分野に影響があるのはAIによる音声合成モデルである。膨大なコーパスデータ(自然言語を収集したもの)から統計的に次の言葉を紡いでいく。以前は不自然で違和感の大きかった機械音声が、ディープラーニング技術によって人間の声とほぼ区別がつかない自然な音声へとなっている。

音声自体を読み込み、イントネーション、アクセントなどのデータを、文脈を加味した上で大量に学習し、ディープラーニングをはじめとしたAI技術によって自然な発音が可能となっている。

ただ劣化コピーとしての情報の氾濫の心配がある。大規模言語モデルによって生成されたテキスト、画像、動画、音声がウェブ上で公開されればされるほど、生成物はどんどんぼやけたものになっていく。

データとは記号。言語はある種の記号なのでデータに還元できる。すなわち記号化できるものはAIによって生成できるということ。医療や法律など分類して記述されたものはAIが大得意なのである。

感情の表現パターンなど記号化できるものは、取って代わられる可能性が大きい。AIがそれを理解していなくても。喜怒哀楽の感情、例えば「笑い」なら爆笑、苦笑、微笑、照れ笑い、苦笑いetc。それぞれ数十パターン学習させれば、感情表現も人間と区別がつかない程度にはなるのではないか。

実在の声はデータ化し学習して取り込める。また特徴的な声を大雑把には分類できるので音色も再現可能だ。

感情表現が定型として解析され、人間の声がシュミレートされていく。そうなると表現とは何か、人間とは何かという問いになってくるだろう。
何をどこまで記号に分解できるかが、人間とAIの分岐点になる。


<<次章予告>>

第4章「人間の可能性」では、益々高まるAIの実力とその限界に迫ります。豊かな身体感覚、国民的スターの価値、真に美しいものへの感受性。これらにAIはどこまで応えることができるのか、考察します。

次章「人間の可能性」、お楽しみに


©2024 義村透

この記事が気に入ったらサポートをしてみませんか?