見出し画像

A.I.VOICE2の使用感の雑感+YMM4でも使うには?

2024/03/25 追記
A.I.VOICE2 v2.3.0の更新でこの記事のいくつかの点が修正されました。

■対応内容(機能追加、不具合修正)
・アプリケーション設定でファイル名を指定できる機能を追加しました
・NV キャラクターボイスの合成速度を高速化しました
・高速化に伴い、再生方式でストリーミング再生を利用するための最低スペックを緩和しました
・高速化に伴い、音声保存の処理時間が短縮されました
・NV キャラクターボイスで作成した音声の先頭に過剰な長さのポーズが付与される問題を修正しました

https://aivoice.jp/news/2946/

上記の修正によりソフト単体でもファイル名を指定することができ、カスタムボイス経由でYMM4と連携できるようになっています。
また、音声保存の処理時間が短縮されているためかなり使いやすくなりました。
(この記事書く前に対応して欲しかったな……)

ファイル名の指定機能の設定

  1. テキストファイルを音声ファイルと一緒に保存するをON

  2. ファイル名の指定方法でファイル命名規則で指定

  3. 命名規則を編集

カスタム設定から「+ キャラクター名」を入れればボイスプリセットの名前が音声のファイル名に反映されます。

上記の例だと以下のような名前になります。

[プロジェクトの名前のフォルダ]/[連番]_[ボイスプリセットの名前]_[セリフの冒頭10文字]

以降の最新情報などは公式のリリースノートなどを確認してみてください。
(更新ごとに記事更新するの面倒くさいので……)


12月22日に最新の音声合成ソフトである、A.I.VOICE2が発売されました。
第一弾ラインナップは私もメインで使っている琴葉姉妹、紲星あかりが含まれています!

とりあえず新しい合成音声ソフトが発売されたら試したい身としては即日に予約しました。今日はそのお話です。


A.I.VOICE2って?

説明するまでもないと思いますが、A.I.VOICE2は株式会社エーアイが販売・開発を手がけているA.I.VOICE(アイボス)系列の後継にあたる合成音声ソフトです。

一番特徴的なのは内部の合成エンジンのバージョンがAITalk5からAiTalk6にバージョンアップしたことです。これにより自然で滑らかな音声を生成できるようになりました。

また、エディタの操作性も「より直感的で簡単な操作で音声合成ができるよう」UIが新しくなりました。
(カッコ強調箇所は公式文章通りです。他意はないよ)

そんな正統進化と思われそうなアイボス2を一通り触ってみた感想を今回は書いてみようと思います。また、実際に動画制作で使うためにYMM4との連携周りについてもメモしておきます。

ところでA.I.VOICEはそろそろエディタと音声ライブラリを別売りしませんか?
1パッケージ18000円クラスを何回も買い直させる商売はそろそろやめたほうがいいと思うんですよ……CeVIO AIはパッケージとライブラリが分かれているのに……。

A.I.VOICE2の使用感について

なんかやたら長くなったのでYMM4との連携だけ気になる人は飛ばしてください。

個人的には滑らかな音声の他にも操作感が改善されたのが嬉しいです。

今まではアクセント句の調整は小さな○を一個一個上下にドラッグしたり、読み方を変えたらアクセント句がリセットされたり、地味に調声のストレスがあったのですが、これらがかなり改善されました。

モーラの結合・分割・アクセント句の調整がワンクリックで行え、読みを変えるのもワンクリックです。

また、音質面の改善だけでなく、スタイル(感情値)がフレーズごとに変化できるようになり、調声の幅が広がった点も嬉しいポイント(※効果には個人差があります)です。
私はまた沼が深くなったな……って遠い目をしています。

従来のボイスプリセット編集に該当するのは以下のアイコンから開けるキャラクターチューニング。ここから好みのユーザー設定を作っていくことになります。

初見でこのアイコンが編集を意味していることに気づけなかった

また、A.I.VOICEにあったテキスト入力欄は廃止され、リスト+ブロック形式での入力のみ対応しています。VOICEPEAKと同じ仕組みですね。
複数行の入力がひとつのブロック内で可能です。その場合は文末ポーズの設定が適用されます。

スタイルがパラメータに分割されたことでパラメータ量がかなり増えましたが、「音声効果」をクリックすることでまとめて変更することができます。

フレーズごとの「音声効果」の初期値は「ユーザープリセット」の値と同じです。A.I.VOICEではマスターコントロール×ボイスプリセット×フレーズごとの設定で計算されていましたが、A.I.VOICE2ではボイスプリセット=フレーズごとの設定となり、最大値に限りがあります。

たとえば、A.I.VOICEの音量設定で以下のようにすると合計は3.0倍です。 
マスター音量2.0倍×ボイスプリセット音量1.5倍×フレーズ設定音量1.0倍=3.0倍

しかし、A.I.VOICE2では
ボイスプリセット音量1.5倍->フレーズ設定音量1.5倍
となって結果的に音量では最大倍率である2.0倍を超えることはできません。

そしてお気付きかと思いますが、現状のA.I.VOICE2にはマスターコントロールが存在しません。

A.I.VOICE2の未実装機能について

先述したようにこのA.I.VOICE2、現状では未実装の機能があります。

公式の発表のように2024年夏頃までに2回大がかりなアップデートを行い、機能の充実化(※以前あった機能)を図る予定のようです。

このうち「プロジェクト設定」は音声ファイルパスの指定方法が含まれており、ファイル命名規則を指定して保存することができません。

A.I.VOICE2からそのままテキストファイルと一緒に音声を書き出した場合、セリフの一部分と連番のみの形式で出力されます。

以下は紲星あかりを使って「A.I.VOICE2になってエディタの操作感はかなり変わりました。」を出力した模様です。ご覧の通り、話者(キャラクター名)がファイル名に出力されません。

連番+セリフの一部分+省略記号の"…"で構成

YMM4のカスタムボイスが使えないじゃない!!!

今の所、動画制作に一番影響が大きいのはこの実装項目です。本当になぜこんな急ぎ足でリリースされたのでしょう……。

また、エディタを刷新したということで、個人的に待ち望んでいた機能である「元に戻す/やり直す」も使えるようになったのか、と夢に思っていましたが、実現されませんでした。

これだけ調整項目が多いのに未だに初期値に戻すしかできないのって……令和のエディタですよ……。

ほかにも気になる点がけっこうあります。

要求スペックが高い

A.I.VOICE2はCPU性能をかなり要求します。
参考までに私のPCは4年ほど前のミドルスペックゲーミングPCのCPUですが、けっこうギリギリです。

この環境で実際に連続音声再生プレビューをしてみたところ、連続で長いセリフを再生しているときは8コアがフル稼働してました。こんなのパソコンが応答なしになったときくらいしか見たことないですが……。

左4ブロックが連続再生していたときのもの

実際にA.I.VOICE2を購入する際は体験版をダウンロードして動作をチェックすることをお勧めします。一応、影響を受けるのは音声のストリーミング再生時のみだけらしいですが……。

また、A.I.VOICE2になってMacにも対応されましたが、Intel CPUの場合はダメみたいです。

マスターコントロールがなくフレーズとユーザープリセットでパラメータを共用する

先ほど書いたとおり、A.I.VOICE2にはマスターコントロールに該当する機能がありません。このため、ポーズの長さや音量などもユーザープリセット側で個別に設定する必要があります。なので、最初にちゃんと決めないと怒濤のやり直し地獄を見ます。

ユーザープリセットとフレーズの音声効果パラメータを共用している点も今までと操作感が変わるポイントなので注意ですね。

フレーズ辞書、記号ポーズ、辞書に互換性はない

A.I.VOICEやそれ以前に登録していたフレーズ辞書と互換性がないため、新しく登録する必要があります。

公式のヘルプドキュメントから

登録は辞書っぽいボタンから行えます。インポート/エクスポート機能も未実装です。

リスト形式での入力しかできなくなった

特にVOICEROIDからバージョンアップしてきた人は戸惑うかもしれません。

以前は「テキスト」と「リスト」で切り替えることができた

そしてA.I.VOICE2のリスト機能は複数選択ができないのでまとめて消したりするのが面倒です。これもA.I.VOICEではできたんですけど……。

フレーズ途中再生機能がない

細かく調整したい人にとってはけっこう痛手です。A.I.VOICE以前ではモーラごとの切れ目から音声の途中再生が行えました。

水色のバーを置いた場所から再生できた

が、A.I.VOICE2は先頭から再生しか行えません。そして音声の再生待ち時間が従来よりもかなり伸びているので何度も調声していると歯がゆいです。

プレビューボタンを押してから2~2.5秒くらい待つ

A.I.VOICE2のボイスにはフュージョン機能はなし

A.I.VOICEの目玉機能としてあった別ボイスと掛け合わせることができるフュージョン機能ですが、アイボス2版のボイスは対応していません。
(A.I.VOICEのボイスであれば、A.I.VOICE2のエディタ上でもフュージョン機能は使用可能)

これはまぁ合成方式などの都合もありますし仕方ないところでもあります。

感情値(スタイル)による声変わりが抑えめになった

細かいポイントですが、A.I.VOICE以前までのキャラクターボイスには、スタイルの感情値に0.5開きがあると声質がかなり変化するという仕様がありました。たとえば、喜びが1.0、怒りが0.5、悲しみが0.0のようなときには声質が通常から変化します。

これは投稿者ごとの声の差別化にも役立っていましたが、A.I.VOICE2ではそういった声質の変化が抑えめになった印象です。

外部API機能が未提供

現状外部API機能が未公開となっており、YMM4で音声を直接生成したりすることができません。今は話にすら出てないのでどうなるのでしょうね……。

保存された音声の先頭に0.2~0.3秒くらいの無音部分が入る(2023/12/26追記)

なぜかA.I.VOICE2で生成した音声は無音部分が先頭に入ってしまいます。

これにより、文末ポーズを300ms設定したとすると、このセリフの無音部分200msが合算して合計0.5秒ほどの無音部分が生まれてしまいます。
特に実況動画などはテンポが重視されますし、以前よりもテンポ感が落ちる要因になるかもしれません。

2023/12/26 追記

AoiSupport側でこの無音部分の削除機能を追加してくださいました!

じつはこの現象を改善できるツールを作ってどうにか公開まで行き着いたのですが、公開後にこちらに気付いてツールは10分で公開停止と相成りました。

エディタ周りが煮詰め切れてない

新エディタですが、まだ不具合や操作感に違和感が残るポイントがあります。

個人的にはユーザープリセットの調整値がスクロール対応しているのに全体スクロールも同時に効いているのであらぬところの値が変化してしまう現象に出くわしています。
(小さめのウィンドウで使うことを想定していないんだろうなぁと思っています)

YMM4との連携について

A.I.VOICE2、それでも音声の改善具合はやはり魅力的です。ですが、前項で示したように外部API機能とプロジェクト設定が未実装のため、YMM4での直接生成もカスタムボイス機能を使った連携もA.I.VOICE2エディタ単体では行えません。

なにかないかと調べていたところ、あらゆる合成音声ソフトの投げ込みを支援するAoiSupportがA.I.VOICE2に即日対応してくださっていました。

本当にありがたい……。

というわけで、じつはAoiSupportが未導入だった私もこちらを利用してYMM4と連携させました。長くなってきましたが、YMM4との連携方法もメモとして残しておきます。

AoiSupportとYMM4との連携について

じつは公式サイトにほとんど書かれているので私が取り立てて書くことはあんまりありません。

まずはダウンロード先からAoiSupportをダウンロードしてきます。

※以下は2023/12/24現在時点での掲載内容に従っているため、最新情報は公式サイトの物をご確認ください。
※2023/12/26 先頭の無音部分を削除する機能が追加されたver4.2.1が公開されたため、現在はこのバージョン以降の利用をお勧めします。

ダウンロード前には注意事項、利用可能範囲、禁止事項、依頼事項等をちゃんと確認しましょう。ダウンロードするのは『ver4.2.0(2023/12/22更新)』以降のバージョンです。

解凍した本体をどこかのフォルダに展開してAoiSupport.exeを起動すると以下のようにメッセージが表示されます。説明に従って「音声の保存先」を指定しましょう。

「音声ファイルをキャラクターごとにフォルダ分けする」はお好みで。あとで指定する「5.ゆっくりMovieMaker4設定」の保存先とは別のフォルダを指定してください。

ショートカットキー設定もお好みで設定します。ここで設定したキーを最前面にある音声合成ソフト上で入力すると音声の再生や保存が行えます。
また、AoiSupport本体のウィンドウは最小化したままでも問題なく動作します。

エディタが複数重なっている場合も最前面にあるものが優先
この「メイン画面」が出ている状態であれば最小化しても動作する

ショートカットキー設定を済ませたら「5.ゆっくりMovieMaker4設定」の通り、連携方法と音声の保存先を指定します。

連携方法は2種類ありますが、どちらでも動作します。たぶん。環境によっては片方が上手くいかない場合があるそうなので、その場合にもう片方を試すようにしてください。この記事では「カスタムボイス機能を利用した連携方法」で説明します。

上図の通り、「3.AoiSupport本体設定」に倣って指定した音声保存先とは別のYMM4監視フォルダを指定します。
ここのYMM4監視フォルダはYMM4のカスタムボイス設定の監視フォルダと同じ場所です。

普段のカスタムボイス機能と同様に「ファイル名」の入力欄にA.I.VOICE2のプリセット名が入るように設定してください。こちらはA.I.VOICE以前でも同様です。


指定したレイヤー番号に投げ込みを行う場合はAoiSupport側の設定ではなく、YMM4のキャラクター設定の上部にあるレイヤー番号を入力して設定します。

挿入先レイヤーの

カスタムボイス機能自体に馴染みがない場合はYMM4公式の「外部の音声合成エンジンで作成した音声ファイルを使用したい」をご覧ください。

YMM4側の設定が確認できたら「10.A.I.VOICE、A.I.VOICE2設定」に移ります。
A.I.VOICE2側で設定が必要なのはアプリケーション設定の書き出しにある「テキストファイルを音声ファイルと一緒に保存する」です。

YMM4のカスタムボイスでファイルを取り込むために話者名にキャラクター名が入るようにします。

カスタムボイス側のファイル名指定は部分的に一致していても構わないので、YMM4側で「あかり」と指定して「紲星 あかり(NV)」というプリセットの音声を出力しても取り込まれます。

A.I.VOICE2の「書き出し」「一括書き出し」ボタンから音声を保存するとYMM4側で取り込めないため、AoiSupport側のショートカットキーで操作するようにしてください。

その他、音声保存処理が上手く動作しない場合は「音声保存方式の設定」を切り替えると正常に動作する場合があるそうです。

2023/12/26 追記

先頭の無音部分を削除する機能が追加されたため、こちらの機能をONにすることで先頭の無音部分を削除できます。

これらの設定を行うことでYMM4のカスタムボイス機能を使ってA.I.VOICE2の音声を取り込めます。

注意点として、AoiSupportが一度動作するとAoiSupportが対応しているVOICEVOXやCeVIO AI、VOICEPEAKなども同様に設定をする必要があります。
(このソフト1つでショートカットキーを共用できるほうがメリットはありそうですが)

まとめ

A.I.VOICE2、Xでの反応を見ていると音質面での改善具合を喜ぶ方々が多そうでした。

私の環境でも合VOICEPEAKと並ぶ音質でよく使っていた琴葉姉妹や紲星あかりといったキャラクターが使えるようになるのは嬉しい進化です。エディタ周りの改善具合も慣れは必要ですが扱いやすくなりました。

ただ、発表から販売までが2ヶ月足らず、以前使えた機能が使えないといった急ぎ足で発売まで漕ぎ付いたような面もあり一ユーザーとしては若干の不安もあります。そして買い直しの費用がまた高い……。

さらに要求スペックが上がった分、私の環境ではプレビュー再生や音声の保存に時間が掛かるようになってしまったので以前と同じ感覚では使えないのが痛いところですね……。
このためにPCを買い換えるのも……動いてはいるし推奨スペックは満たしているはずなのに……。

とはいえ、新しいソフトが手に入るとモチベーションも上がりますね。今まで初期設定で時間が掛かってしまい動画を作れていないので、どこかでA.I.VOICE2を使った動画も試してみたいところです。

というわけで、年内の記事はこちらで最後になりそうです。最近記事が長めになっているので来年は短めにして更新頻度を上げたいですね……。

それでは、皆さまよいお年をお迎えください!

この記事が気に入ったらサポートをしてみませんか?