自動字幕、自動翻訳、そして自動吹き替えを進めるYouTubeーー「AIによる言葉の自動吹き替え」技術の最前線

2023.8/18 TBSラジオ『荻上チキ・Session』OA

Screenless Media Lab.は、音声をコミュニケーションメディアとして捉え直すことを目的としています。今回は、字幕や字幕の言語翻訳、そしてAIによる音声の多言語吹き替え技術についてご紹介します。

◾AIによって変わる字幕、翻訳、吹き替え

近年のAIの発展によって、音声に関わる領域においても、よりよいサービスが生じています。例えば「字幕」。聴覚に困難を抱える人にとってはもちろんのこと、外国語学習をはじめ、多くの用途で利用されています。

例えばYouTuberが作成する動画の多くはこれまで、字幕がつけられることが多くありました。そのため、時に音声をミュートしても、映像だけで内容を把握し、耳ではラジオや音楽を聞く、というユーザーも珍しくない時代が到来しています。

YouTubeは、自動で音声に字幕をつける「キャプション機能」を搭載しています。字幕機能は2008年から開始されていますが、様々な改良を重ねて、現在ではAIによる自動字幕や、さらに英語の字幕を日本語に翻訳するなど、自動字幕の翻訳等も可能になっており、広く利用されています。

さらに当ラボでもお伝えしたように、YouTubeは2023年2月、多言語音声機能、つまりひとつの動画に多言語の吹き替え音声を搭載する機能の拡大を発表。一部の大手YouTuberに限定されるものの、多数の再生回数を見込めるクリエイターは、母語以外の吹き替え音声を搭載することができるようになりました。

こちらも以前お伝えしたように、世界1億ユーザーを超える「Mr.Beast」の動画は英語ですが、日本語吹き替えは漫画「NARUTO」のアニメ版声優である竹内順子氏が担当しています。

◾AIによる多言語吹き替え

そんな中、2023年6月にGoogleの社内スタートアップ部門が、AIによるYouTube動画の言語吹き替え機能を、2024年までに搭載すると発表しました。

こちらは、すでに数百人のYouTuberを対象にテスト中で、現在のところ、対応言語は英語・スペイン語・ポルトガル語とのことですが、近いうちにヒンディー語やインドネシア語を対象にするとのことです。日本語もいずれ対応するでしょう。

また、AIによる吹き替えに際しては、2023年5月にGoogleが発表した、「Universal Translator」という技術が利用されるとみられています。この技術は、動画内の口元だけ吹き替え言語に合わせたり(リップシンク)、元言語の声色やイントネーションなども学習し、吹き替え言語も元言語の調子に合わせることができるというものです。ただし、こうした技術はディープフェイク等にも応用可能なことから、この機能については認証されたパートナーへの提供になるかもしれません。


すでに世界中の動画を日本語字幕で楽しむことが可能になりつつありますが、動画をスムーズに日本語吹き替えで見ることができれば、さらに可能性が広がることでしょう。また逆に、日本語で話した動画を、世界に向けて発信することもより容易になるとも言えるでしょう。

◾日本の字幕も精度向上

字幕に関しては、日本でもAIによる音声認識が進められています。例えば2023年6月、NECは日本テレビのニュース番組に自動で字幕をつける実証実験について発表しています。

日本の放送字幕に関しては、人による手打ちが主流だったり、音声認識システムを利用するにせよ、複数人の校正者が必要という運用上の問題があります。NECは予め地名や人名についてAIに学習させることで、放送に特化した音声認識システムを構築したといいます。

15分ほどの生放送のニュース番組「ストレイトニュース」で実験したところ、認識精度は99%でした。従来の音声認識システムが91.6%だったことから、精度向上が伺えます。また、スポーツ中継など、雑音が多くなる環境でも、従来より16ポイントほど高い88.3%の認識精度だったとのこと。

放送では間違いが許されないため、校正は今後も必要なものの、大幅な精度向上は歓迎すべきことです。その他、リモート会議での字幕精度向上も期待できるでしょう。

YouTubeは凄まじい勢いで多言語対応を進めていますが、誤変換、誤翻訳などに注意しつつ、世界中のエンタメや知識を楽しみやすい環境構築が、着々と進んでいるのです。

この記事が気に入ったらサポートをしてみませんか?