見出し画像

Neural Speech Synthesis Extended to Unpaired Speech-Text Domains through Self-Supervised Representation Learning

2023年度研究会推薦博士論文速報
[音声言語情報処理研究会]

佐伯高明
(Google LLC Research Scientist)

邦訳:自己教師あり表現学習による非対応音声言語ドメイン拡張型ニューラル音声合成

■キーワード
音声合成/多様なドメインでの音声処理/自己教師あり学習

【背景】ニューラル音声合成システムの適用範囲を拡張する必要性
【問題】多くの音声・言語ドメインで対応データが限定的
【貢献】自己教師あり学習により非対応データのドメインに音声合成を拡張

 音声合成技術は,人間が話すような自然な音声をコンピュータによって生成する技術であり,スマートフォンの音声アシスタントなど,さまざまな用途で活用されています.現在の多くの音声合成技術は,ディープラーニング (深層学習) を用いた「ニューラル音声合成」という枠組みに基づいています.このニューラル音声合成では,大量の音声データと,それに対応するテキストまたは音声データ (対応データ) を使ってニューラルネットワークを訓練します.これは,明示的な教師データを用いてニューラルネットワークを訓練する枠組みで,教師あり学習と呼ばれます.このような教師あり学習により,ニューラルネットワークは,人間の声のさまざまな特徴を自動的に学習し,非常に自然な音声を生成できます.

 一方で,表現力の高いニューラルネットワークを訓練するために,大量の対応データが必要になりますが,すべての話し方や言語といった「ドメイン」に対して十分な対応データが得られるわけではありません.というのも,ニューラル音声合成の学習に用いられる対応データの収集には,タスク依存的な前処理や高品質な録音機器による音声収録などが必要になり,データ収集コストが高いためです.このような制約によって,ニューラル音声合成のカバーする言語や話し方が限られているという現状があります.たとえば,広く使われている音声合成システムは,数十の主要な言語に限られていますし,人間が話すような自発的な長い発話を自然に合成するのは未だ困難な課題となっています.

 そこで,本研究では「自己教師あり学習」を活用したアプローチにより,ニューラル音声合成の適用範囲を拡張する手法を提案しています.自己教師あり学習とは,先ほど述べたような対応データを用いた教師あり学習とは異なり,データそのものからそのデータの特徴を学習する枠組みです.たとえば,ある部分のデータを隠して,その隠された部分を予測するタスクを設定することで,データの特徴を学習することができます.このような学習手法により,データの内部構造や関係性を効果的に捉えることができ,異なるドメインにも適用可能な汎用的な特徴を学習することができます.さらに,自己教師あり学習では,ラベルなしの音声またはテキストデータを使って学習するため,そのデータドメインでのデータ収集のコストが低くなるという大きな利点があります.

 音声合成システムの構築プロセスは,1) 音声合成モデルの学習データの構築,2) 音声合成モデルの学習,3) 音声合成モデルの評価の3段階のタスクからなります.本博士論文では,各々のタスクに対し,非対応データを用いた自己教師あり学習によってアプローチしています.まず,1の音声データの前処理に向けて,音声を高品質化するモデルを自己教師あり学習する手法を提案しています.2の音声合成の学習手法に関しては,非対応テキストを用いて自己教師あり学習されたモデルにより,文脈情報や言語間の知識転移を音声合成に対して活用する手法について提案しています.3の音声合成モデルの評価では,非対応音声データから得られたモデルを組み合わせることで,音声合成モデルの自動的評価を高精度に行う手法を提案しています.これらの技術を統合することで,多様な異なるドメインに対応できる柔軟な音声合成システムを実現し,音声合成技術や音声アシスタントが多くの人々にとってより身近となることを目指しています.

(2024年5月31日受付)
(2024年8月15日note公開)

ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー
 取得年月:2024年3月
 学位種別:博士(情報理工学)
 大学:東京大学

ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー

推薦文[メディア知能情報領域]音声言語情報処理研究会
本博士論文では,大量のラベルなし音声データを用いた自己教師あり学習の枠組みに基づき,正解データの用意が困難な種々の音声合成タスクでの改善を目指した.論文内で提案された多くの技術はどれもがトップ論文誌・トップ国際会議に採択されており,その実用性・意義深さが国際的にも非常に高く評価されている.

研究生活  5年間の大学院生活は大変な一方でとても充実しており,研究に熱中していたらいつの間にか終わっていた,といった感じでした.割と興味の赴くままに研究していたため,最終的に博士論文をまとめるのに苦労しましたが,複数の研究テーマを俯瞰して1つの論文を書く経験は,研究者としての視野を広げる上で得難いものでした.M2の最初からD2の途中くらいまではコロナ禍の影響を受けており,まったく研究室に行かずに自宅で研究する孤独な日々が続きました.しかし,遊びに行けないので研究するしかない状況に自分を追い込めたことや,自律して研究する習慣を身につけられたことは非常に良かったです.D2やD3では打って変わり,幸運にもカーネギーメロン大学での滞在研究やGoogle USAでのインターン,国際会議での発表など,日本と海外を忙しなく行き来しながら研究する日々を送ることができました.指導教員の先生方,研究室のメンバーの皆様,留学やインターンでご指導いただいた皆様,その他かかわってくださった皆様のおかげで大変実りある博士課程期間を過ごすことができ,感謝が尽きません.本当にありがとうございました.