見出し画像

入力文字読み上げソフト「VOICEPEAK」から考える、声の仕事の未来予想図

「お風呂が沸きました」
「電車が参ります」
「3階に到着しました」

ふと聞こえてきた声が、人が喋っているのか、人工的に作られた音声なのか。あなたは判別できるだろうか。

2022年3月11日にリリースされた入力文字読み上げソフト「VOICEPEAK」は、今までの”人工音声””合成音声”の概念を覆すナチュラルさだった。男女7種類のナレーターから好きな声質を選び文字を入力するだけで簡単に自然なナレーションが完成する。アクセントや音の長短はもちろん、喜怒哀楽すらメモリ一つで調整できるのだ。

「VOICEPEAK」体験版の編集画面。PCや音編集に詳しくなくても直感的な操作が可能。

リリース直後には「こんなソフトを待っていた!」という制作陣のコメントがSNSに溢れる一方で、「声の仕事が奪われるのでは」と戦々恐々とするナレーターや声優の姿もあった。今後声の仕事は、本当に機械に奪われてしまうのだろうか。

本記事では「VOICEPEAK」をリリースした株式会社AHS代表取締役&CEOの尾形友秀さんに、声の仕事を生業にしている(またはしたいと思っている)人たち向けに、音声合成の過去・現在・未来について伺った。

尾形友秀(おがた・ともひで)/株式会社AHS、代表取締役&CEO。2005年8月22日設立。CD/DVDコピーソフト「Clone」シリーズをはじめとするコンシューマーソフトウェアからハードウェアまで幅広く企画・販売を行い、合成音声ソフトウェアの国内シェアトップを走る。日本市場にとどまらず世界に通用する製品を常に提供していくことを目指す。

音声合成の歴史と日本人との関わり

音声合成は50年以上前から存在しています。1968年公開の映画『2001年 宇宙の旅』にも登場するほど。過去には吹子(ふいご)のようなものを使い人の声を再現しようとした事例もあります。これは電子ではなくアナログな試みですが”音声合成”ですよね。人間は根本的に「模倣したい」「色々なことを自分の手の内で動かせるようにしたい」という欲求があるんです。

1600年頃にドイツで活版印刷技術が生まれました。それまでは手書きした写本しか存在せず貴重だった本ですが、文字をハンコに彫りペタペタ写せるようにしたことで大量生産を実現します。その後電気が1870年頃、コンピュータが1950年頃に登場したことから、飛躍的にデジタル技術が発達しました。

人間にとって、声が一番のインターフェース(仲介媒体)です。文章、絵、音楽も表現手段の一つですが、より直接的なものは「文章」と「会話」だと思います。人間はどの国でも基本的に声でコミュニケーションをとりますよね。

18世紀後半の産業革命を皮切りに、人々は工場で働き機械と接するようになりました。機械操作をするときに他人から声で注意されることが、一番の危険防止になったんです。工場でのミスは命取りになりますから、一番直接的で危険防止になる”声のコミュニケーション”が発達したんです。

でもいくら声で表現をしたくても、みんながナレーターや声優のような良い声を出せるわけじゃない。特に日本人は会話が苦手な、いわゆる”コミュ障”が多いです。喋るのが苦手なのは足が遅いのと一緒。どちらも頭の中で描いた筋肉の動きを上手く実行出来ないんですよね。

実は日本と中国以外のほとんどの国では小学校で喋る訓練をするんですよ。50年くらい前からアメリカを中心に行われていて、頭の中で考えていることの言語化と人の発言を聴き取る訓練をします。だからそんな国ではコミュ障であっても、基本的な会話ができる。元々の地盤がないから日本人ではカフェで注文出来ない人もいるんです。

国内シェアNo.1を誇る「株式会社AHS」のソフトウェア

AHSでは約20年間ソフトフェア事業を展開していますが、変わらないコンセプトは「ソフトを入れれば知識が無くても何かしらできる」です。創業して最初にリリースしたのはFLASH(自作する短いアニメーション)のソフトでしたが、とりあえずボタンを押していけば何とかなるような操作性にしました。その後作った動画ソフトや音声合成ソフトでも、専門知識がなくても何かしらの作品ができるようになっています。

弊社の音声合成ソフトの歴史は「VOCALOID」の歌から、キャラクターが喋る「VOICEROID」、そして自然な声でナレーションをする「VOICEPEAK」へと広がりました。

「VOCALOID」を手掛けたのはYAMAHAさんと繋がりができたことも理由ですが…例えば歌を作っても、それを歌ってくれる人が周りにどれだけいるでしょうか。カラオケが普及して歌の上手い人が昔より増えたかもしれないですが、基本的にはまずいないですよね。もしいたとしても頼みにくいかも。

音楽を作る人たちにとって楽器はシンセサイザーで何とか真似できますが、歌うことは歌唱力や表現力など複合的要素が必要なので中々難しかった。性別的に出したい音域が出ないこともあります。また他人の声を加工するのにも限界があるし、心理的なためらいもある。でも合成音声を使えば、いろいろな表現が可能になります。そんな想いから「VOCALOID」に参入しました。

「VOCALOID」はまず”初音ミク”をきっかけにして認知が広がりました。皆さんご存じのクリプトン・フューチャー・メディアさんの「VOCALOID」です。2009年以降、弊社からも様々な「VOCALOID」を発売しており、使ってくれるユーザーさんもたくさんおります。

キャラクターの声で喋らせる「VOICEROID」を使って、ゲームや料理などの実況動画を作る人もかなり増えました。自分の声を使うのが恥ずかしくて出来なかった人たちが、合成音声があるから面白い動画を作れる。ソフトが表現手段の一つとして確立された。それが、僕はすごく嬉しいんです。

僕らが音声合成を扱い始めたのって「VOCALOID」まで含めたら約14~5年前からですが、おかげさまで国内シェアNo.1になっています。色々な人に好きな表現をしてほしいし、失われてしまう声を遺したかったんです。

会社入り口には「VOCALOID」「VOICEROID」キャラクターや声優さんのサインがずらり!


リリース前から話題を呼んだ入力文字読み上げソフト「VOICEPEAK」

スマートフォンやスマートスピーカーが出てきたおかげで人工音声や音声認識の技術が過渡期に入りました。機械と対話する生活がだんだん浸透してきたものの、まだまだ実験段階です。今の喋る家電は基本的に音声認識はできないので勝手に喋るだけ。今後10年もかからず世の中の家はスマート家電に溢れるでしょうね。

2040年くらいには家電が人間と同じように喋るかもしれませんが、特定のワードのみの会話になるかな。技術的ハードルって結構色々あるんです。機械が声や思念を読み取って意思疎通を図れるようになるのが更なる未来形だとしたら、多分我々が生きているうちには難しいでしょうね。

でも昔から、人間って頭の中にあるものを何かしらの手段で表現して伝える作業をずっと繰り返しています。その手段が会話や文章の人や、漫画、絵、音楽、映像、ダンスの人もいます。喋らない人や書かない人はまずいなくて、何かしらの手段を使って自分の頭の中を表現していますね。人間は全員クリエイターです。その表現手段になり得る、自分の代わりに違和感なく喋る声を作りたかった。そんな想いから生まれたソフトの一つが「VOICEPEAK」です。

正式名称は「VOICEPEAK 商用可能6ナレーターセット」

「VOICEPEAK」という名前は僕が考えました。何個か意味があって「VOICE」「SPEAK」という意味が含まれているのはもちろん、一番大切にしたのは「PEAK」。音の波形です。

今までの音声合成は聴いたら人工物だと分かる声でした。不自然な原因は2つあり、1つ目は抑揚が無いこと。人間は会話の中で音の高低を自然と使いこなしています。今までの音声合成では録音した音声を細かく切って繋げたものを再生していましたが、ある程度決められた音程に声を収めないといけなかった。音素材の高低が激しいと、繋げて再生した時不自然になったりノイズが入ったりするんですよね。

もう一つの原因は、スピード。人間は無意識に、一つの文章をほぼ同じテンポで喋ります。例えば7、5、8文字の単語をつなげて喋る場合、5文字を喋るスピードは7文字と同じくらいのゆっくりした速度になります。それを録音された音声から実現しようとすると難しかった。こういった不自然な点があるとすぐ合成だと分かります。

しかしここ1年くらいで出てきたのがAI(人工知能)にモデル音声を繰り返し聴かせて、話すクセや読み方を深層学習させる技術です。約2か月間繰り返し聴かせて学習させ、モデルの声に近い波形を合成するんです。その上で「この文章が来たらこう喋る」というパターンをデータベース上から導き再現するので、そこで初めて今までのように音程やテンポに囚われない人工音声が誕生したんです。

2011年の3・11(東日本大震災)の時、たくさんの要望があったのが「合成音声を使って授業の教材を作りたい」でした。当時は音声合成のライセンスがすごく高価だったので、そのハードルを下げたかった。「VOICEPEAK 商用可能6ナレーターセット」のリリース日を2022年3月11日にしたのは、ギリギリ早く出せるスケジュールがその日だったのと、当時感じた歯痒さが残っていたから。共同開発したDreamtonics社と話し合い、この「VOICEPEAK 商用可能6ナレーターセット」は商用を含めて何にでも使ってもらおうと決めたんです。

もう一つの背景にコロナ禍があります。3・11の時はZOOMやLINEなんてない時代でしたが、今はみんなスマホを持ちオンラインが当たり前になりました。学校の先生がYouTube等で教材を公開共有するときに、ナレーションに自分の声を使いたくない先生もいらっしゃいます。そんな時に当ソフトを使ってもらいたい。

「VOICEPEAK」リリースから1ヶ月以上経ちましたが、学校や大企業など既にまとめきれないくらい多くの団体に導入して頂いています。某有名電機メーカーからはリリース前にオファーがあり、今では社内研修動画ナレーションに全て当ソフトを使って頂いていますよ。


「VOICEPEAK」とナレーター・声優との住み分け

「ナレーターや声優の仕事は無くなるんでしょうか?」とよく聞かれます。正直、50年後は分かりません。それは活版印刷が生まれた時に写本が職業だった人がだんだん仕事が無くなっていったのと一緒。どの職業もそうです。でも今「VOICEPEAK」が出たからといって、声優さんやナレーターさんの仕事が無くなることは有り得ない!

なぜなら本ソフトは今までの音声合成ソフトの範疇から出るものではありません。「人のように文章をナチュラルに読み上げる」という範囲でここ何十年か進んでいるだけで、伝えたい意味合いによって音の高低やスピードを調整して「人のように自然に喋って表現する」ことが今の技術では無理なんです。

これから必要な技術は音声合成以外の分野です。人間は文脈によって喋り方を変えますが、「VOICEPEAK」はまだ文章を読み取ってフレーズを強調することは出来ません。文脈が分からないんです。それをやろうとするとアンドロイド(人工知能、人間型ロボット)の領域になってきます。

声優さんの仕事が失われるのはアンドロイドができそうな時でしょうね。車の自動運転が当たり前の世の中になってきたら、その時が近づいてきたと思って下さい。大体20年後くらいかな。人間の代わりになる「何か」が出来るのは遅くて40年後、早くて30年後くらいでしょう。もっと早い10年後くらいには「人っぽいのが出てきたな」という段階になるとは思いますが、新しい技術が当たり前に普及するまでにはとても時間がかかります。

現時点でAIでの再現が難しいのは、演技を含めた表現です。例えば今、音声合成ソフトにアニメのアフレコを自動でやらせることは絶対無理で、人に喋ってもらったほうがよっぽど楽。アニメのキャラクターの動きを把握して、喋るタイミングを見計らって、他の人のセリフに反応して…という段取りを全部ソフトで分析する必要があります。これは音声合成の範囲を超えたアンドロイドの領域です。

ただアンドロイドが台頭する世の中になれば法整備が出来てくるはずです。そもそも人の代わりのものを作って良いのかという話にもなりますし。でもそのテクノロジーを使って何かを作り出すことは出来るようになると思うので、そこは住み分けかと。声優さんの仕事よりも先に失われるのは、みんながやりたがらないような仕事や危険な仕事でしょう。日進月歩で技術は進みますから、社会に適応したライフスタイルや仕事の仕方が昔よりも早いスピードで変化しているのは事実です。


会社入り口の電子パネルには次々とキャラクターのポスターが映される。写真は音声創作ソフトウェアCeVIO AIの「弦巻マキ」


「声を遺したい」という永年の想い

言ってしまえば、僕は単純に声フェチなんです(笑)昔好きなタイプを聞かれた時には顔の造形ではなく声で答えていたくらい。人の声質は顔と一緒で中々変えられませんし、いつか失われます。だから今自分が聞いて「素敵だな」と感じる良い声は遺しておきたいんです。

もう一つの理由は、高校の時に全盲の同級生と関わるようになったこと。彼女は僕が入っていた合唱部の後輩でした。その後声を失った方とお会いする機会もありました。それまでハンディキャップを持った方と接する機会は多くなかったので、実際に障害をお持ちの方と一緒に生活をして、具体的なサポート方法を考えるようになったんです。目が見えない方には音で聞こえるガイダンスは必要だ、声を失った方がまた喋れるようになったらいいよな、という風に。一般的に健常者の枠に入る僕がこんなことを言うと上から目線だと思って30年以上言ってこなかったんですけどね。

音声合成は全ての人たちの表現手段の一つになる。今後は家電など色々な機械に声が入って我々の生活をより良くしてくれます。僕はなるべく寝ていたいし働きたいくないんですが、その夢がどんどん現実に近づく(笑)人間は生きていくだけでストレスなので、自分達の技術でなるべくそのストレスを減らして楽な環境を整えていきたいですね。


株式会社AHS 代表取締役&CEO・尾形友秀(おがた・ともひで)

株式会社AHSを2005年8月22日に設立。CD/DVDコピーソフト「Clone」シリーズをはじめとするコンシューマーソフトウェアからハードウェアまで、幅広く企画・販売を行い、合成音声ソフトウェアの国内シェアトップを走る。また、OEM(他社ブランドの製品製造)やライセンス販売、開発受託なども行っており、日本市場にとどまらず世界に通用する製品を常に提供していくことを目指す。

○ホームページ:株式会社AHS(AH-Software)
○AHS公式Twitter:@ahsoft
○尾形社長Twitter:@tomo_ahs

ライター・日良方かな(ひらかたかな)

都内FMラジオ局&Voicy「毎日新聞ニュース」パーソナリティー。ナレーターとして自宅に「だんぼっち」改造の録音ブースを完備し宅録にも対応。だんぼっち組立の様子をブログにしたところGoogle検索「だんぼっち 照明」で1位を連続獲得中。「ハンドメイド」に特化したポッドキャストを3月から開始。

○ホームページ:「宅録ナレーター 日良方かな」
○Twitter:@hirakata_kana
○ポッドキャスト:「日良方かなのハンドメイド工房」


この記事が気に入ったらサポートをしてみませんか?