R5.09.18　音声認識あれこれ私信

眠い

2023年9月18日 22:23

自分の喋った声をかわいい音声と字幕にして配信した～い！

いい願望ですね、やっていきましょう
まず要素を分解します

自分の喋った声を
①かわいい音声と
②字幕にして
③配信した～い！
④（あとVRchatにも使いた～い！）

これら①②③④をひとつで実現するソフトはありません。
しかし『ゆかりネットコネクターNEO』がかなり便利で今後の機能追加も期待できるため、ゆかコネNEOを中心とした構成例を記載します。

使用するソフト（R5.9月現在）

・ゆかりネットコネクターNEO
前述の②③④に必要です。

・音声合成ソフト（VOICEVOX、棒読みちゃん等）
①でいわゆる可愛い音声として使えます。
ただし気にしないのであればこれらを使わずMicrosoftのHarukaで充分かと。

・ヤマハのSYNCROOM
④でVRchatなどにマイク代わりとして合成音声を流す場合に必要です。
シンプルで高品質な仮想音声デバイスが同梱されていて、配信用としてもなにかと便利です。以前はヤマハの「NETDUETTO β」というものが愛用されてきました。
インストールについてはここなどを参考にしました。なお、仮想音声デバイスのインストール後、SYNCROOMの起動や会員登録は必須ではありません。

ゆかりネットコネクターNEOについて

由来

そもそも「結月ゆかり等ボイロを音声認識で喋らせる」ための
『ゆかりねっと.exe』というソフトがありました(現在開発停止?)
その後、別の方?がそのコンセプトを引き継いだソフトとして
『ゆかりねっとコネクター』が登場しました（現在、開発は収束）
そして開発が進んで機能が増えたため、さらにスマートに再設計したのが
『ゆかりねっとコネクターNEO』です。

根本的に「音声を認識して字幕や合成音声に変換するためのソフト」であり、便利な機能として翻訳機能、またプラグインとして他ソフトとの連携機能やその他がめちゃくちゃ用意されています。プラグインはどんどん増えていくため、興味があれば各プラグインの概要を読んでおくのが良いかと思われます。
またゆかコネNEOは更新によって画面レイアウト等も変わることが多いため、公式のヘルプページ等と見た目が異なっていたりすると留意しましょう。

ダウンロード

安定版でなく最新開発版（v2.1.0 beta 43等）を使えばいいと思われます。
なお、安易な気持ちでアップデートすると見た目がまるっきり変わることがあるため危険です。

偏見に満ちたチュートリアル

インストールして起動しましょう。

（ゆかコネから比べてかなりスマートになっていますが）使い方が全然わかんねえと思います。

まず音声認識から試しましょう。

上記のマイクボタンを押して、出てきた小ウィンドウの●STARTを押します。
ここでマイクでなにかを言って認識されればOKです。
（今後もゆかコネNEOを起動するたびに同様の手順を行います）

※VRの場合、VirtualDesktopを接続するとHMDマイクがPCのデフォルトマイクとして変更されるはずです。

音声認識された文章には自動的に句読点や疑問符ハテナが付きます。便利ですね。
なお、小ウィンドウの下部にある2つのチェックボックスは変換に違和感があったら試してみましょう。

※翻訳機能について…
このソフトは音声認識と翻訳をセットに開発されていますが、
日本人向けに使うだけであれば翻訳機能関連をガン無視してください

この設定くらいガン無視した方が使いやすくなります。

※字幕機能について…

このように字幕ボタンを押して出した緑ウィンドウをOBSで取り込み、カラーキーで透過すればちゃちな字幕が配信に表示されます。
OBSで最もシンプルに字幕を表示するのであれば使ってもいいかも知れませんが、どうしても見栄え等が悪いというデメリットがあります。
もしも使用するのであれば、字幕が複数行出るタイプの方が見やすいと思います。（直前の発言があれば誤変換を言い直した場合など意図が組みやすいため）

（より高度に字幕を作る場合はコメジェネ送信などプラグインを用いたりできますが…
なぜか音声の変換途中で送信されるバグのような挙動などの兼ね合いがあり、個人的ベストな構成は今なお模索しています。）

プラグイン設定

ソケットのアイコンを押すとプラグイン一覧が表示されます。
めちゃくちゃ便利ですが数が多すぎます。
必要となるプラグインだけ有効にしましょう。

※VRCHATで字幕を表示させたい場合

上記画像の『VRChat OSCプラグイン』を有効にしましょう。
設定は公式ヘルプの5.「OSCプラグインを有効にする」以降からの手順を行えばOKです。

また、先ほど翻訳を無視しろとお伝えしたとおり、
文中の『「Translate1」をONにします』なども適宜無視しましょう。翻訳した文章があれば同時に送信されますがそんな翻訳文は不要であるため

ここで「プラグインを有効＋VRCHATのOSC受信をON」と一度設定すれば、それ以降は触る必要はありませんが、トラブルで字幕が出なくなったら上記の設定を見直しましょう。
なお、OSC通信とは何かはあまり気にしないで構いませんが、ポート番号等が間違っていると通信されないものであると留意しましょう。

※音声認識された文章をHMDを被ったままVR上表示で表示させたい場合

あわせて『VRオーバーレイプラグイン』を有効にしましょう。
https://nmori.github.io/yncneo-Docs/plugin/plugin_vroverlay/

何に使うのか？
…「VRCHATで出る字幕」はバグ?のためか、音声認識された文が正確に反映されないことや、単純に誤変換をすることがあります。
そのため、セリフがどのように表示されているか？を全文確認するためにこのプラグインがとても便利です。
これを有効にしているとVR上で左手の上に前述の字幕レイアウト?で認識文章が表示されます。ちょっと角度が邪魔ですが…

※字幕と同時に音声合成ソフトで発声させたい場合

以下のプラグイン辺りを有効にすると、音声認識後に他ソフトを通じて発声させることができます。
なお、プラグインを有効にしていても他ソフトが起動していないと発声されません。逆に言えば、発声させなくていいときはプラグインを一々無効にしなくても問題ありません。（エラーが出る場合は別ですが）

ためしに『読み上げ連携プラグイン』をクリックして設定を開きましょう。

よく使う部分のみ注釈しました。
記載のとおり『ヤマハの仮想音声デバイス』や『VOICEVOX』はここで必要となります。
これ以外に気になる点があれば[？]ボタンから公式ヘルプページを読みましょう。

また『棒読みちゃん連携プラグイン』は名前のとおり、棒読みちゃんを起動していればソケット通信等で発声できます。普段棒読みちゃんを使っていなければあえて使う必要はないと思います。（もっとも手軽な発声は上の画像のとおりMicrosoftデフォルトの読み上げなので）

補足

・音声認識自体の精度は限度があります。
ChromeでなくEdgeの方が精度が高い、ノイズを極力混ぜない方がいい、などのノウハウはありますが、詰まる所「自分が棒読みちゃんのようにハキハキとゆっくり喋ること」を心がけましょう。

・音声合成を使う場合、Questの音量を最大にしているとHMDのスピーカーの音声をマイクが拾ってしまってループします。
音量を下げるかイヤホンを使うことをおすすめします

・仮想音声デバイスを使うとスピーカーから自分の合成声は流れません。なのでVRC上で音量などテストしたい場合はアバターの口パクやインジケータを確認しましょう。
・VRC内のマイク音量は5％～15％で十分です。それ以上は苦情を言われかねません。（経験談）

・仮想音声デバイスをそのままOBSにもマイクとして設定すれば、VRCと同時に配信にも合成音声が乗ります。ここまでやるなら簡易な字幕も表示させたいですね。基本的にミュートで見てるため文章が残ってないとあとから反応しづらい人が多い

・美しい字幕を複数行で表示するには現行のソフトの組み合わせだけでなくなんらかの自作コーディングが必要であるように感じます。

この記事が気に入ったらサポートをしてみませんか？

R5.09.18 音声認識あれこれ私信