見出し画像

【VOICEVOX】推してる音声合成ソフトを布教したい【前編-何故VOICEVOXを使い始めたか】

はじめに

 皆さんは音声合成ソフトを使ったことはあるだろうか。
 使ったことはなくても、音声合成ソフトで作られたナレーションを使った動画を一度は見たことがあるのではないだろうか。
 音声合成ソフトを使いこなせるようになれば、ネットで自分の声を出したくない…という人でも動画を作れるようになる。例えば、料理動画を作ったり、趣味の動画を作ったり、推しを布教する動画を作ったりすることができる。
 やや大げさな言い方かもしれないが、機械音声を使うことで「選択肢が広がる」のである。

 今回の記事では、私が愛用しているVOICEVOXを紹介する。
 前編は私が何故このソフトを使うようになったのかを自分語りするだけの記事(しかもほぼ私怨)なので、VOICEVOXについて知りたい人は後編を読んでほしい。
(前編&後編というよりは、余談&本編かもしれない。)

 後編だけ読みたい方はこちら。
 VOICEVOXで朗読してみた動画と、そのメイキング動画を載せている。

自分がVOICEVOXを使うようになった理由

 私は大学のサークルを紹介するための動画を作っていた。(こちらでその時のことに少し触れている)
 大学という空間の特性上、どうしても4年(+α)で人が入れ替わる。声を担当できる人が絶えず存在するという保証がない。実際、私が動画制作を始める前は、声を担当できる人が確保できないということが障壁となってプロジェクトが滞っていた。
 「そんなら機械音声使えばええやん」と思って、最初はゆっくり音声で動画を作り始めた。

 巷にあふれているゆっくり動画はSofTalk、AquesTalk、LibreTalkなどのソフトを用いて作られている。
 ゆっくりの音声はいかにも機械音声という感じであり、ニコニコ動画(RC2)時代からインターネットに入り浸っている自分にはよく馴染んだものだが、この声を受け付けない人もいるようだ。
 私が動画を作る時は、読み間違いやイントネーションの違いなどで聞き手に違和感を与えないようにかなり調整はしていたが、それでもゆっくり音声では限界がある。
 他の人からも「親しみが感じられない」「人間っぽくない」など否定的な意見が散見された。

 挙句の果てに、実際に必要になる日までにかなり余裕を持って完成させた動画を、使う日の前日に「声を録ったので機械音声が入ってない動画ください」、当日の昼になってから「タイミング合わなかったので字幕調整してください」と人間の音声データをぶん投げられた。そのデータはノイズまみれだった

 流石に耐えかね、「今日は予定があるんで対応できないです」と言い残して家を出た。そして憤怒に身を任せたままゲーセンに向かい、DDRを数時間やった。今思うとよく体力持ったなと思う。

 別の時には、同じ組織内の人間に機械音声で作っている動画を「羊頭狗肉」とまで表現されたことがある。自分でも驚くことだが、おそらくそんなに深く考えずに書いたであろうその言葉を、それから結構経った今でも根に持っている。多分地獄まで持っていく。

 確かにゆっくり音声では人間に近づけるにも限界がある。
 しかし、人間の声の方が無条件に機械音声より良いというのはあまりにも傲慢ではないだろうか。
 そのノイズまみれの人間の声の方が機械音声よりも良いとでも思ったのか。

 ゆっくり音声で不満なら、もっと人間に近い音声を作ってやる。
 むしろ、人間を超えてやる。
 機械音声の方が優れていることを証明してやる。

 そう思って次に使うソフトを探していた時に見つけたのが、VOICEVOXだった。

後編(というか本編)はこちら

 余談だが、この辺の出来事の半年後ぐらいに人生で初めて演劇を見たり、プロの役者さんの朗読を生で聴いたりする機会があった。
 流石に話すこと・演じることを職業としているプロの声には敵うはずがないな、と思った。

この記事が気に入ったらサポートをしてみませんか?