見出し画像

社内向け動画でVOICEVOXを使ってみた結果

音声合成ソフトとは?

「音声合成ソフト」って皆さんご存じでしょうか?
YouTubeをよく見られる方であれば、昨年何かと話題になった「ゆっくり茶番劇」とか「ずんだもん」と聞くとおわかりかもしれませんが、簡単にまとめると「テキストを人の声で読み上げてくれるソフト」のことを指します。
結構昔から歌を歌う「ボーカロイド」というソフトはありましたが、ボーカロイドが登場した頃は人が自然に話すようには音を作れず、歌に限定された使われ方でした。それが近年では、人の声と遜色なく喋ることのできるソフトも出てきており、バスや電車の案内放送でも合成音声が採用されることが少しずつ増えています。

社内向け動画を作ってみた反応

そんなご時世の中、本業の会社が作ったスタジオ担当になって、社内向けの動画を何本か作る中で試験的に何本か、音声合成ソフト「VOICEVOX」をナレーションに使ってみました。

VOICEVOXの画面

YouTubeなどでは「ゆっくり解説」などが増えているので、ネットに理解のある世代であれば問題なく受け入れられると思う反面、弊社が属するグループの社員はデジタルに抵抗感のあるメンバーが多いため、ぶっちゃけると音声合成ソフトでつくられた動画は否定されると思っていました。

ところが、実際に音声合成ソフトの声でナレーションをつけた社内向け動画をリリースしてみたところ、声に対する不満はまったくありませんでした。
このため、スタジオ担当になった当初は声優経験のある自社の社員にナレーションをお願いしたりしていたのですが、最近はナレーションが必要になる動画は全て、VOICEVOXで声を作って編集しています。

意外な反応

さらに、意外な反応もありました。
最近は定期的にグループ各社から動画の制作依頼があるのですが、その中には「堅苦しい動画にしたくないから、ゆっくり茶番劇のようなテイストにして欲しい」というご指名もあります。
自分は予想していなかったのですが、動画を制作依頼する側としても下記のようなメリットがあるようです。

自分が喋らなくていい

自社向けに動画を制作する場合、外注する予算がほとんどありません。
(自社向けにスライドを作成するのと同じ費用感で考えているようです)
このため、動画の中で説明する場面では依頼部署の方が登壇して話すことがほとんどです。
ですが、普段から人前で話す業務じゃない方だと、自分が話して説明することにものすごい抵抗を感じている方が多いようで、テキスト資料を動画に移行する際の大きな障害になっています。
そんな依頼者の場合に、音声合成ソフトを使った動画の作成手法を提示すると、かなりの確率でこちらを採用してくれます。

そもそも動画化がメリット

他社の状況はわかりませんが、私が今勤めている職場において、ほとんどのマニュアルはまだテキスト(紙文書みたいな)のものが多いです。
なので、ナレーションが人であれ機械であれ声が入った動画に変わるだけでも、利用者や社員が見てくれる量がかなり変わるようです。
このため、自身の声を入れなくてもよく、制作コストも(依頼側としては)かからない音声合成ソフトでも問題ないという依頼が増えているのでは?と感じています。

動画編集者としての印象

自分自身のYouTubeチャンネルは声出し、顔出しして撮っているので音声合成ソフトを活用していたわけではないので、社内向けの動画を作るときに初めて使ってみただけの、経験が浅い状態であることを前置きした上で、動画編集者として音声合成ソフトを使ってみた印象です。

メリット

1番感じるメリットは、ナレーションのために声入れする方とのスケジュール調整がいらないことです。
ナレーターの方を雇うとなると、そもそも録音する日程調整が必要ですし、限られた時間の中で全部のナレーションを録音しきらないといけないので、その日までに原稿も完成させる必要があります。
音声合成ソフトであれば、例えば3部構成の動画であれば、1部ごとに原稿をもらって音を作り始めたりもできますし、動画撮影する前に音を作って、できあがったナレーションの尺に合わせた動画撮影をするというような編集手法も可能です。
また、全体編集後に少しだけナレーションを直したい…などの対応も、音声合成ソフトであれば後修正が簡単です。

デメリット

メリットを感じる一方で、デメリットもあります。
先ほど書いたメリットの裏返しになるかもしれませんが、声の作成を編集者がやる分、当然全体の作業量・作業時間は増えます。
ただ、先ほどメリットで書いたような、ナレーターによる録り直しやスケジュール調整の手間を考えると、単純な作業時間が増えることがデメリットにはならないかもしれません。

もうひとつ大きなデメリットとしては、原稿を一言一句作り込む必要があります。
誰か人が話すのであれば、箇条書きのメモでもいいでしょうし、プレゼンになれているような人であれば、プレゼン資料を見ながらスラスラと話す方もいるかもしれません。
音声合成ソフトで声を作るとそうはいかず。一言ずつ文字を打ち込んで喋らせる必要があります。
もっとも、最近登場したChatGPTのようなサービスが進化したら、人に渡すような箇条書きのメモやプレゼン資料を見ただけで話す内容をまとめるようになるのかもしれませんが…現時点ではそこまでは進化してないかと思います。

また、文字を打つだけでは聞きやすい音声にならないことも多いため、イントネーションやアクセントをチューニングする「調声」という作業が発生します。
これがなかなかやっかいで、何回も同じ文章を異なるアクセントやイントネーションで聞いてると、段々と正解がわからなくなります💦
(自分自身も名古屋人こともあって、標準語のイントネーションがわからなくなることが多々あります)

で、結局どうなの?

つらつらといろいろ書いてみましたが、自社の状況で言うと、今後音声合成ソフトを使った動画制作は増えていく気がしています。
特に、社内向けの動画制作において、制作コストが抑えられるのは大きいですし、動画の内容次第ではありますが、ナレーターにお願いするほど感情や抑揚のこもった声である必要がないためです。

特に、マニュアルの動画化ニーズが多いと感じますので、自分たちのチームでも、動画制作を効率的に行える体制を作っていって、増え続けるニーズに応えていくつもりです。

ここまでお読みいただき、ありがとうございました。

この記事が気に入ったらサポートをしてみませんか?