音声合成技術はAI（人工知能）をきっかけに新たな世界に突入して不自然な棒読みではなくなる

2020年3月23日 20:46

※本記事の内容に付加情報を追記した資料（PDF版）は、本記事の最下部よりダウンロード可能です。

　個人レベルで様々なデジタルツールが活用可能な状況になってきている昨今、顧客との関係から、私自身が本業とは全く関係がないものの、最終顧客向け説明用動画などを作成することがあります。

　動画で表示する絵を撮影したり、描いたり、また画面にテロップを貼ってみたり。さらには、動画にナレーションを入れてみたりしています。こうした動画制作は、専門の事業者がいるので、従来はそこに発注していたものです。しかし、手作り感が出てしまうのを許容さえしてもらえれば、動画制作に関わる様々なフリーのデジタルツールを使って自作できてしまう世の中になっているのです。

　その中で、特に役立ったデジタルツールがあります。それは音声合成のツールです。動画を製作する際に、ナレーションを入れたい部分があったのですが、当然のことながら自分の声でナレーションを吹き込むのは相当に野暮ですし、知り合いの声の綺麗な女性に依頼するのも気がはばかられる。そんな時に役立ったのが音声合成ツールなのです。

　ここ数年で飛躍的な革新が起きており、様々な面白い試みも生まれています。“音声〇〇”といえば、日本語から英語や、英語から日本語への翻訳を自動で行う「音声翻訳」、それから人がしゃべった言葉をテキストに変換してくれる「音声認識」等が注目されるところですが、テキストから機械にしゃべらせる技術である「音声合成」もホットトピックスになりつつあります。

　そこで今回は、音声合成技術について簡単に状況を整理してみました。

１．音声合成とは

　音声合成とは、本当にシンプルに説明するならば、「人間の音声を人工的に作り出すこと」と説明できるものです。昨今の「音声〇〇」と言われる音声処理分野の中の１分野を占める技術となります。

　この音声合成は、典型的には、テキスト（文章）を音声に変換できる仕組みであり、しばしばテキスト音声合成またはText-To-Speech (TTS)とも呼ばれる技術となります。その中でも、歌声を合成する技術は特に「歌声合成」と呼ばれています。昔からネット動画サイトで動画を見ていた人の中には、「歌声合成」という言葉にはなじみがあるのかもしれません。さらに、音声を別の個人あるいはキャラクターの音声に変換する手法は「声質変換」と呼ばれます。

　では、身近に音声合成が使われているものを上げてみましょう。

　例えば、現在、多くの家庭にあると思われるAmazon AlexaやGoogle Homeなどの機械を頭に思い描いてください。この機械は、「アレクサ、今日の天気は？」などと呼びかけると、「今日の天気は…」などと音声でお話が出来る機械です。ここ1、2年の間に一気に浸透したものですが、この機器にも音声合成システムが搭載されています。

　このバーチャルアシスタントのAlexaを開発したアマゾンは、Alexaがユーザに対して感情のこもった反応を返せるようになったと発表しています。｢うれしい、わくわくする｣、あるいは｢残念に思う、同情している｣といったトーンを表すことができるとしています。

　また、少し前から存在するものですが、歌声合成技術 VOCALOID（ボーカロイド）も音声合成の典型例となります。このVOCALOIDは、ヤマハ株式会社が2003年に発表した歌声合成技術です。パソコンを使って、音程と長さ、歌詞を入力するだけで好きなように歌わせることが可能なものです。

　2007年には、動画投稿サイトでVOCALOIDを用いたユーザ作の楽曲が注目されたことを覚えている方も多いでしょう。現在ではボカロ文化とも呼ばれる世界を形成するに至っています。特に、VOCALOID2を採用した「初音ミク」は爆発的な人気になりましたよね…。

２．音声合成とその方式の分類

　さて、ここまで紹介してきた音声合成ですが、一言で「音声合成」といっても、その裏側には技術的に様々な方式が存在しています。

　技術的な観点から、音声合成を捉えると、音声合成は音声認識とともに、人と機械とのユーザーインターフェースに有用な要素技術なのです。そして、その音声合成の方式には、人が声を発する仕組みを模倣する機械的な方式、数値データで表現された情報や任意のテキストを電子的に読み上げる方式があります。従来は前者の仕組みであったものが、コンピュータ技術の発展に伴い、後者の仕組みでの技術へと進化してきた経緯があります。

　いずれにしても、音声合成を用いることにより、人が情報を読み上げる作業を省力化できるなど、様々なメリットがあることから、多様な分野への導入が進められているものなのです。

（出所）清山信正「音声合成技術の動向と放送・通信分野における応用展開」NHK技研 R&D No.161 2017. 1　

　ここで音声合成技術の全体をイメージするために、音声合成技術の分類を整理してみたものが上記図となります。

　大きくは、「録音編集方式」と「テキスト音声合成方式」に分類でき、さらに「テキスト音声合成方式」は「規則合成方式」と「コーパスベース合成方式」とに分類できます。そして、「コーパスベース合成方式」は「波形接続型音声合成方式」と「統計モデル型音声合成方式」に分類できるなど、様々な方式が存在します。

　ただ現状では、技術的な進化もあり「統計モデル型音声合成方式」が注目され、昨今の飛躍的な精度向上につながっているところとなります。逆に言えば、このように技術が分類されてきた背景には、相応に以前から、この音声合成技術は研究されてきた、古くからある技術なのです。

３．音声合成技術の歴史

　そこで、最新の音声合成技術について説明する前に、音声合成技術の歴史を振り返ってみたいと思います。

　音声合成技術に関する出来事を整理した図を見てください。音声合成技術の歴史は古く、1779年には母音を発生する機械が制作されているのです。かなり昔から研究されていたことが分かります。

　また、技術進展のポイントとしては、1939年もポイントとなります。この年に、人間の発話された音声を「符号化」し、再び組み立てることによって機械の発話を可能にする仕組みが開発されたことも大きな転換点となります。さらに近年は、機械学習や人工知能技術を使ったより自然な人工音声が実現されています。

　ここで1791年に開発された音声合成技術を見てみましょう。音声合成は当初、機械的な仕組みによりチャレンジされていたものとなります。オヴォルフガング・フォン・ケンペレンという人が、最終的に製作した装置を下図に示します。これは、ふいごを肺の代わりにした機械式音声合成器です。この機械は、母音だけでなく子音の多くも発音できたことが特徴です。

（出所）秋吉康晴「声の機械化―オルタナティヴな音響再生産の理論と実践―」京都精華大学紀要第四十九号　

　具体的にどのように使用するかといえば、右腕でふいごを動かして、音源部に空気を送る。そして、子音の操作は右手指で行う。例えば「s」「sch」「r」を含む音を出すときには、操作者は対応するレバーを押し、「m」と「n」を含む音を出すときには、対応する穴から指を離して開放する（通常は指で押さえて閉じておく）、という代物でした。

　なお、母音を発音するときには、左手を用い、図に描かれたラッパ型の開口部の前に手をかざす。そして、唇をすぼめたり開いたりするように、開口部の開き具合を手のひらで調節する。

　また、1939年に、ダッドレーにより開発された、白色雑音とブザー音のみから人工音を作るVocoderも有名です。その仕組みは、Vocoderと呼ばれ、音を符号化（coding）する原理で働き、それをまた符号にしたがって組み立てるものでした。つまり、人間の発話された音声を「符号化」し、ふたたび組み立てることによって機械の発話を可能にしているものでした。

　（出所）越智朝芳「ヴォコーダー論─主体なき声の歌─」2017年3月

　このように、音声合成技術は、昔からチャレンジされてきたものであり、必ずしも最近始まった技術ではありません。しかし、長らく膠着状態であった音声合成技術が飛躍的に発展したのは最近のことです。

　その最近の技術については次節でご紹介します。

４．音声合成に関する近年の手法等

　第2節でも少し触れましたが、現在の音声合成の研究開発の主流は、テキスト音声合成（Text-to-Speech Synthesis）となります。このテキスト音声合成は、任意の文章に対応する音声波形を合成する技術を指します。

　その中でも、近年の計算機資源の増大とともに、専門家による音声生成の先験的知識に基づいた規則的手法から、大規模データベースに基づいた統計的手法に移行してきたと言われています。この統計的手法には、音声データベース内の自然音声の波形を接続することで合成音を得る波形接続型（Concatenative TTS）と、データより統計モデルを学習し、ここから直接合成音を出力する生成モデル型（Generative TTS）があります。

（出所）全炳河「テキスト音声合成技術の変遷と最先端」日本音響学会誌74 巻7 号（2018），pp. 387–393　

　特に、生成モデル型音声合成の実装の一つと言われる統計的パラメトリックTTSは、音響特徴量として音声分析合成で得られる特徴量（例えばケプストラムと基本周波数）、言語特徴量として音素の素性や音節の強弱・声調、品詞などを利用したものとなります。ただ、生成音声の品質が波形接続TTSに劣るとされています。

　そこで生成音声の品質の向上を目指し、統計的パラメトリックTTSの中でも、ニューラルネットワーク音声合成が注目を浴びるようになったのです。実際、深層学習の発展により、近似を用いず入力から出力への写像関数を単一のニューラルネットワーク行う一貫学習が提案され、成功を収めているのです。

　このように、人工知能の注目に端を発した技術進展は、この音声合成も例に漏れないところであり、2016年ごろから従来の枠組みを超えたより一貫学習に近い枠組み（ニューラル音声合成）に移行しつつあります。

５．音声合成に関する動向　ー日本の主要企業ー

　では、昨今注目が高まっている音声合成について、どのような企業がそれら技術を扱い、ビジネス展開しているのでしょうか。ここでは、矢野経済研究所による「音声合成技術動向（2019年1月調査）」に着目し、そこで掲載されている音声合成技術に関連した企業・団体の中から、主たる企業等の概要を示します。

　この中で、しばしば耳にする企業として株式会社エーアイが挙げられます。この企業は、2003年の創業以来、音声合成に特化したメーカです。音声合成エンジン及び音声合成に関連するソリューションの提供しており、「AITalk」という音声合成エンジンで有名です。

　その他にも、例えば、HOYAデジタルソリューションズ株式会社では、「人の声に限りなく近い圧倒的な肉生感、明良感」を実現した音声合成エンジンVoiceTextを開発・提供する等、音声合成に関わる新しい製品・サービスも手掛けています。

６．音声合成の市場動向

　ここで音声合成が注目されつつある中で、市場はどうなっているのかが気になるところです。ただ、音声合成は、音声認識など音声処理に関わる一分野であることもあり、単独での市場動向は把握しにくいのが実態です。

　ただその中で、参考となる資料がありました。株式会社アイ・ティ・アールは、国内ビジネス分野で実用化が進んでいるAI主要6市場（画像認識、音声認識、音声合成、言語解析、検索・探索、翻訳）の市場規模推移および予測を発表しています。この資料を見ると、詳細は不明となりますが、一貫して音声合成市場は拡大していることは把握できます。そしてざっくり目分量ですが、2023年度に約40億円の市場に達すると想定されています。

（出所）株式会社アイ・ティ・アール「ITR Market View：AI市場2019」プレスリリース、「ブリッジレポート：（4388）エーアイ 2019年3月期決算」より作成　

　また、参考として、音声合成技術を扱う個社の状況を見ることで、今後の同市場をイメージできればと思います。ここで取り上げるのは、音声合成エンジン「AITalk」及び音声合成関連ソリューションを提供する株式会社エーアイです。2017年3月期から2020年3月期までの売上高が一貫して拡大しており、このように同市場に属する企業の売上高は拡大傾向と想定されます。

７．音声合成の特徴的な活用事例

　音声合成技術を活用した面白い、特徴的な取り組みなども近年見られるようになってきました。ここではそのうちいくつかをピックアップして紹介できればと思います。

　なお、ここで掲示された事例以外は、本Webサイトの最後に資料を添付しますのでそちらからご覧ください。

〇1日転校生Saya

　2019年11月、神奈川県鎌倉市の高校で開催されたイベント「1日転校生Saya」は印象的です。Sayaはデジタル技術で想像された架空の女子高生です。他者が話す内容を認識し、返答する新技術「Talk to Saya」をSayaに実装し、授業にSayaと同じ高校2年生が参加し、Sayaと話しながらAIの基礎を学ぶイベントが開催されたのです。

　Talk to Sayaは、声を聞き取ってテキストに変換する「Speech to Text」、返答する文章を音声データに変換する「Text to Speech」、合成音声とCGの口の動きを合わせて表現する「リップシンク」などの技術を組みあわせたものとなります。なお、自然な会話を実現するエンジンとして日本マイクロソフトの「Rinna Character Platform」が採用されています。

（出所）「“まるで実写”の3D女子高生「Saya」、声を得て女子高の授業に登場　会話を通して「AIとは何か」教える」ITmedia

〇音声合成の声優事務所

　実際の音声合成の様子をお試しできるサービスとして、「音声合成の声優事務所」があります。HOYA株式会社は、VoiceTextという合成音声エンジンを使い、新コンセプトサイト「音声合成の声優事務所」を作成しています。同社のWebサイトから声質変換の事例紹介、サウンドストーリーを公開しており、音声合成がどのようなものなのか、Webサイトから知ることが出来ます。

〇「合成音声を手軽に楽しめる」スマホアプリ

　さらに、個人で音声合成技術を楽しめるツールとしてスマホアプリも提供されています。コエステーションというスマホアプリです。これは、アプリを介して、指定の文章をいくつか読み上げることで、自分の声の分身である「コエ」を生成し、テキストを入力するだけでその「コエ」でしゃべらせることができるサービスとなります。簡単に自分の声を使って、音声合成を作れるなど、身近に使えるツールとなります。

〇SofTalk

　冒頭に紹介したように、動画のナレーションなど、実用として使えるフリーのツールもあります。それがSofTalkというソフトウェアとなります。テキスト入力した文章やテキストファイルを読み込んで合成音声で読み上げることができます。

　読み上げている音声の録音にも対応しており、また繰り返し読み上げるリピート再生、女性／男性／ロボットなどの多様な声質をサポートし、引数の設定、他のソフトから呼び出して自動読み上げ開始、と言ったことも可能な代物です。

　こうしたツールがあるおかげで、音声合成を使って、個人としても様々なことにチャレンジできそうです。

８．まとめ

　今回は、音声合成について、その歴史、技術分類、最新の技術、技術を扱う日本の企業例、音声合成を使った取組事例等の観点で様々な情報を整理しました。

　昨今、音声合成を含む音声情報処理が飛躍的に進化しています。最も耳目を集める音声翻訳や音声認識とともに、テキストから音声を生み出す音声合成も飛躍的な進化を遂げています。

　従来まで、言葉を発するのは人間の仕事と当たり前のように考えていたとことですが、あたかも人間が話しているのと変わらない品質で、機械がしゃべることが出来る時代がもうすぐ目の前に来ているのです。

　こうした技術が活用できるという前提で、企業内の業務の在り方、また個人の普段の生活を見直してみると、色々なところで音声合成は使えるものになるのかもしれません。

以下、参考までに本記事＋導入事例をまとめたPDFを…

ここから先は

0字 / 1ファイル

¥ 100

ログイン

この記事が気に入ったらサポートをしてみませんか？