見出し画像

AI声優を使ったゲームへの批判記事を読んで

とあるゲームで声優を雇わずにAI音声を作ったという記事がありました。
最近私は個人的にボイスドラマを作っているので、この音声技術を使った物にはとても興味があります。

カバーイラストは私も使っているCoeiroinkにボイスデータを提供され
ている ITAコーパスさんより。

記事を読むと

だが、そうしてAIで生成された声のクオリティは……ひどい。
AIだということをいったん知ると、おかしな部分が耳から離れない。
ゲーム内のアナウンサーの声は、抑揚が不自然で、息継ぎもところどころおかしい。

という批判的な意見が書かれていました。
しかし個人的にはこのメーカーの姿勢には賛同する立場です。

すべてのテキストが用意されてから収録するのであれば、プロの声優さんの演技にはかないません。
しかしゲーム制作というものはすべてを作ってからの音声収録なんて、よほど予算に余裕がないと無理です。
しかも作っている最中に仕様変更が行われたり、場面演出が変わったり、あとから実装されたモーションが声のイメージと違ったりと様々な問題が発生するわけです。
そのたびに収録しなおすのはとても大変です。
収録自体より、役者さんのスケジュールが抑えられないことのほうが大きな問題なんです。
人によっては1年近く前から日付を決めて押さえておかないといけないのです。
だったらスケジュールが抑えやすい無名声優を使えばという話も出たりするわけですが、声というのはキャラクターのイメージに合った声が求められ、しかもクオリティとバリューを求められるため、そうもいかないのです。
つまり、ゲーム制作のスケジュールだけでなく、役者さんのスケジュールにも収録は左右されてしまいます。
ほんとうに面倒な事情で、一番ベストなタイミングでは収録できないのが実情です。

だからこそ私はこのAIによる読み上げ技術の発達には期待しているところがあるわけです。

確かに今はまだ違和感がある演技ばかりでしょう。
イントネーションを都度修正するのも結構手間がかかります。
また用意したテキストをちゃんと読み上げてくれるとは限りません。
漢字を変な読み方にするというのは日常茶判事。
そのたびにボイスエディタを開いて、ひらがなで指定したりします。
あと日本語特有の「」を「」と読むケース。
ちゃんと読んでくれる時が多いですが、相槌などの言葉「それはね」などの口語だと「それわね」ではなく「それ羽根」のように読まれます。

やってみてわかりましたが、ある程度満足できるレベルにするだけで、5分のボイスドラマの読み上げ調整に1時間はかかりますから。

ですがもっと読み上げ技術が進み、AIの演技の幅と、指定の簡便さが進めば、本当にAIで十分な時代が来るような気がします。
その時には音声調教師のようなプロの技術者が現れるかもしれませんね!

ゲーム業界に身を置いたのは、はるか昔…… ファミコンやゲームボーイのタイトルにも携わりました。 デジタルガジェット好きで、趣味で小説などを書いています。 よろしければ暇つぶしにでもご覧ください。