Linuxでもバ美肉したい!第2回「WINE無双!こだわらなければWindows並に容易?な声帯獲得 -声帯チャート構築編-」

なおです。前回に引き続き今回は声帯チャートの構築を行います。思ったより簡単にできたので早期執筆です。

画像1

といっても選択肢が少なすぎ。WINEに頼ればかなり改善される。

2021/06/24追記:プラグインブリッジ「yabridge」について追記しました。可変ピッチシフトを行うボイスチェンジシステム、及びその実現チャートについて記述しました。
2021/07/15追記:DAW「Tracktion Waveform Free」について追記しました。容易な受肉チャートの更新(第1回参照)があったので、まとめを修正しました。
2021/11/20追記:バ美声の製品版が出たので、情報を更新しました。それに伴い、まとめの容易な受肉チャートを修正しました。
2022/03/20追記:ボイスチェンジャープラグイン「Gform」について追記しました。その他細部の修正を行いました。
2022/05/06追記:構成を変更し、声帯編まとめを追加しました。従来のまとめを総論に変更し、結論を変更しました。
2022/05/31追記:ボイスチェンジャープラグイン「Pitchproof」について追記しました。

WINEチャート:WindowsのボイスチェンジソフトウェアをWINE経由で使う

イチオシ。情報がかなりたくさんある。がっつりこだわるのは難しいが、優秀なソフトウェアを使えるのが大きなアドバンテージ。WINEの音声周りのバックエンドは下記の2つがおすすめ。
・PulseAudio:大体のOSのデフォルトのサウンドサーバー。OBSでのキャプチャが容易(適当な出力機器に設定し、OBS側でそれをキャプチャ)。「PulseAudio音量調節」というソフトウェアで音量調節と各ソフトウェアが使用する入出力機器を設定できる。デフォルト。基本こっちでいい。
・ALSA:Advanced Linux Sound Architecture。PulseAudioのバックエンド。デバイス一覧に実際の入出力機器が表示されるため、使用感が近くなる。

さて、私が動作を確認できたのは以下のソフトウェアである。ただし公式で動作保証がないのは念頭に置いておくこと。つまり、WINEを経由して動かなくても、そのソフトウェアの製作者に問い合わせるのはやめよう。迷惑がかかると思われる。え?WINEの開発者にならやっていいかって?…わからん。

・バ美声
はんそで先生( https://twitter.com/halfsode_ )が開発・製作しているWindows向けの有料ボイスチェンジャー。2000円(体験版あり)。
製品版が登場するまではベータ版を無料で使用できた。正式版のリリースに伴い、ベータ版の使用が禁止されている。製品版には旧バージョンとしてver 1.00以前のものが同梱されているため、当該バージョンを使用したい場合は製品版を購入すれば良い。
ベータ版 ver 0.276ではUIが大きく崩れることなく使用できたが、ベータ最新版での動作を確認できなかった点と製品版での動作を保証できない点に留意していただきたい。Linuxバ美肉勢は購入前に体験版で(自身のWINE環境で動作するか・不足しているものは何か)確認することを強く推奨する。

・恋声
ややUIが崩れているような気がするが、機能の面では十分問題なく使用できる。

プラグインチャート:WindowsのVSTは、そのままではLinuxで読み込めません!

ボイスチェンジャープラグインを使うチャートを採用する上で重要な知識である。このチャートを用いる場合、ラッパーを使わなければDLL形式のプラグインをそのまま使えないLinuxでの選択肢は大きく狭まる。というわけでまずはVSTプラグインラッパー(あるいはその類のソフトウェア)を見ていこう。細かい使い方までは触れないのでご了承いただきたい。

プラグインラッパー類

・LinVst
Windows VST→Linux VST。使い方が比較的容易なラッパー。ファイル「linvst.so」を「(使いたいVST).so」に名前し「(使いたいVST).dll」のあるフォルダに置く。WINEをインストールし、設定用ツール「Winetricks」を使って依存するRuntime等をインストールする必要がある。詳しくはリポジトリ参照(英語)。

・dssi-vst
Windows VST→DSSI(LADSPA)。大体のLinuxのオーディオソフトウェアが対応するDSSIやLADSPAというプラグイン形式に変換する結構古めのアダプター。上記サイトにGitHubリポジトリがあり、それを使ってビルドして入手する。Ubuntu 16.04(LTS 長期サポート版)のパッケージアーカイブ(≒ストア)にはパッケージがあり、ビルドせずに入手できる。

・Airwave
Windows VST→Linux VST。WINEベースのVSTブリッジ。GUI(≒ウィンドウが出る)の管理ツールがあり、ソースコードの他に.deb形式での配布(リポジトリのreleases)があり、DebianやUbuntuなど一部のLinuxは比較的容易に入手できる。

・VeSTige ( DAW「LMMS」に同梱)
EXE形式とDLL形式に対応する、VSTを読み込み使用するためのツール。LMMSというDAWに音源として実装されている。これを使いLinuxでRoVeeを読み込もうとしたらLMMSが落ちた。

・yabridge
Windows VST→Linux VST。WINEベースであり、管理用コマンドが付属している。ビルドの必要はないが、WINEのリポジトリから最新バージョンを入手する必要がある、管理用コマンドのあるフォルダを環境変数PATHに追加する必要があるなど、使い始めるまでにはある程度以上のLinuxの知識が必要となる。詳しい手順はリポジトリ参照(英語)。

私の知っている限りではこのような感じである。以降も私の知りうる限りの情報しかないことにご注意いただきたい。

ボイスチェンジャー(プラグイン)

引き続きプラグインの方も紹介していく。互換性の評価は前回同様の3段階評価とする。

・Graillon 2
互換性:優 規格:LV2、VST、VST3
ボイチェン魔王マグロナ様に「無声音の変換が強い」と言わせた(ソース: https://magrona.fanbox.cc/posts/828702 )ボイスチェンジャーは、Linux勢に対する配慮も備えている。というのも、LV2 (LADSPA Version2らしい)はLinuxを主とする規格なのでまだわかるが、VST及びVST3がLinuxの形式でちゃんとあるのだ。とてもうれしい。互換性で優と評価できたVSTは私はこれしか確認できていない。

・RoVee
互換性:良 規格:VST
結構昔からあるVSTのボイスチェンジャー。検索すれば結構情報が出てくると思う。ラッパーなどでLinuxで読み込めるようにする必要がある。

・Gform
互換性:良 規格:VST
GVSTのベータ版のダウンロードページから入手できるボイスチェンジャー。もちろんWindows向けのプラグインであるため、ラッパーなどが必須である。
Graillonだとピッチとフォルマントが連動して上昇し、ピッチをあげるほどフォルマントシフトが強くかかる。そのため、「ピッチを大幅に、フォルマントを少し」上げる設定をしたい場合、前述したRoVeeやこれのような「ピッチとフォルマントを個別に調整できるプラグイン」を採用する必要がある。

・Pitchproof
互換性:良 規格:VST
Aegean Musicが公開しているボイスチェンジャー。Linux版はないので、Windows向けをラッパー経由で使うことになる。
ピッチ補正を大きくするとGraillon 2みたいなケロリ方をする。フォルマント補正機能を一切持たない点と相まって、Graillon 2以上の「発声力」が必要となる。

DAW・プラグインホスト

最後に紹介するのはもちろんDAW・プラグインホストだ。
…と言いたいのだが、その前に大体のLinux DAWが対応している本格派向けサウンドサーバー「JACK」について軽く触れておく。JACK Audio Connection Kitの略称であるこのソフトウェアの主な機能は、音及びMIDI信号のルーティングである。これを使うことで音及びMIDI信号の流れを自由に設定できる。また、PulseAudio側にJACK用の入出力ポートを追加するモジュールがあるため、インストールすれば自由度は更に広がる。その分設定可能な項目は多く、複雑さは高めではある。
さて、DAW等の紹介に戻っていこう。

・Ardour
Linuxでの対応規格:LV2、Linux VST
大体のLinuxのストアアプリに置いてあるであろうDAW。古くからあり、情報は探しやすいと思われる。困ることはプラグインの配置場所の自由度を除きあまりないだろう。

・LMMS (Linux Multi Media Studio)
Linuxでの対応規格:Windows VST?
大体のLinuxのストアアプリにあるだろうDAWその2。これもそこそこの歴史があり、情報には困らないと思う。VeSTigeでWindows VSTを読み込める(動作するとは言ってない)。

・Tracktion Waveform Free
Linuxでの対応規格:LADSPA、Linux VST
登録がちょっと面倒だがクロスプラットフォーム対応しているDAW。デフォルトの言語が英語であり、デフォルトフォントは文字化けするので設定からUIに使用するフォントを変えておこう。

・Non DAW
Linuxでの対応規格:LADSPA、他のプラグインホスト・DAW等
Timeline部、MIDIシーケンサー部、ミキサー部、そして使用するソフトウェアを管理するセッションマネージャー部が個別の独立したソフトウェアとして提供される個性派DAW。JACKに対応しているほか、個々のソフトウェアが軽く、必要な機能を持つソフトのみを起動すればPCにも優しい。日本語化はあまり進んでいないようだ(個人の感想です)。Ubuntu用外部リポジトリ「KXStudio」( https://kx.studio )に収録されている。

・Carla
Linuxでの対応規格:LADSPA、DSSI、LV2、Linux VST
KXStudioに収録されているプラグインホスト。音やMIDI信号のルーティングもできる。日本語化こそ進んでいないものの、最低限の英語ができれば問題なく使えると思われる。個人的おすすめ。

可変ボイチェンへの道 -プログラミングが出来なければ不可能-

さて、近年においては変換後の声のクオリティ向上のために、入力した声の高さにあわせてボイスチェンジャーのパラメータを変化させる「可変ボイスチェンジャー」(造語)が提案・実装されている。代表的なものとしては、現行版(2021/06)のマグロナシステムやMTransformerが挙がってくるだろう。下記の基素基氏のページや当該ページに貼られている魔王マグロナ様のアーカイブが詳しい。

必須プラグインの対応状況を考慮すると、WINEを使ったとしてもLinuxでは不可能なのではないか。これに対する答えは「否」。私はLinuxでも可変ボイチェンをする(現時点において)唯一の方法を発見した。
ただし、特定のプログラミング言語を使用する必要がある。私が発見し、可能であることを確認したのは以下のチャートである。

・Essentia チャート
言語:Python プラグインチャート向け・JACK推奨 使用ライブラリ(名称のみ):jackclient-python, mido, essentia, numpy
Essentia という音声や音楽の分析のためのライブラリを使用するチャート。生オーディオデータからピッチを計算する関数があるので、声を受け取る入力ポートとピッチからMIDI CCを計算して出力するMIDI出力ポートを有するプログラムを記述すれば良い。後はプログラムを起動後にポートを適切につなぎ、連動させたいパラメータがMIDI CCを受け取れるように設定するだけである。
ピッチをMIDI CCの取りうる値に変換するプログラムは自作する必要がある。そのため、ピッチ情報に対し線形(大きいほど大きい値)に出力するのが最も簡単ではあるものの、自身が使いやすいように実装できるのが特徴である。
筆者は(考えるのが面倒だったので)MIDI Curveというプラグインをラッパー経由で使用して調整した。

なお、上記ライブラリはC++で記述されており、JACK本体のライブラリはC言語で記述されている。そのため、C++でも同様のチャートが実現できる可能性はあると思われる。

声帯編まとめ

以下の条件を満たす者は、後悔・苦戦せずLinuxで美少女のバーチャル声帯を獲得できるだろう。ただし、チャートによっては太字ではない項目を無視できる場合がある。

  • Linuxを使用できる(使い方・操作方法等を理解・習得できる)

  • WINEを設定し、Linuxでexeファイルを実行出来る

  • JACK Audio Connection Kit を理解・運用し、PulseAudio と連携出来る

  • 英語の文章を理解できる(手段は問わない)

  • 必要なプログラミング言語の環境を整備し、プログラムを作成・実行出来る

  • GitHub リポジトリ上の説明を参考に、ソフトウェアをインストール出来る

  • Linux特有の情報を検索・発見できる(Lutris等)

補足:PulseAudioが入っているLinux環境において、Discord用の入力デバイスとして使用できるのはPulseAudioの入力に表示されているもののみである。プラグインチャート(特にJACKを活用するタイプ)を採用している場合は注意が必要である。

総論 -Linuxでバ美肉する簡単なチャート-

前回の内容である受肉チャート構築編を踏まえ、Linuxでバ美肉する最も簡単だと思われるチャートをここに提示する。

  1. Steamをインストールする。Webカメラ・マイクを用意しておく。

  2. 下記2つのいずれかの手段で、VRMモデルを準備する。

    1.  VRoid Studioをインストールし、VRMモデルを作成する。

    2. 十分な予算を用意し、VRMモデルの作成を依頼し成果物を購入する。

  3. FaceVTuber ( https://facevtuber.com )またはKalidoface 3D ( https://3d.kalidoface.com/ )を駆使して、2.で獲得した美少女の肉体と連動させる。

  4. Graillon 2と適当なDAWを入手し、パラメーター調整を頑張り、美少女の声帯を得る。

  5. 3.(GBまたはBBにしてキャプチャ FaceVTuberは別Windowで表示可能)、4.(ボイチェン後の結果が再生されるPulseAudioまたはALSAの出力)の結果をキャプチャし活動する。

以上によって荒削りなチャートではあるものの、Linuxでもバ美肉できることが示された!
最も簡単な2D受肉のチャートでは、Live2Dモデルを自身のLinuxで作成する場合のみWINEの知識が必要となる(詳細は第1回参照)。そのため受肉の敷居の差はモデル作成の敷居の差のみと言うことができ、依頼する場合においては2D受肉のほうが簡単である。また、ブラウザでトラッキング出来るツールの登場により、Windowsとの敷居の差がだいぶ小さくなった(詳細は第1回参照)。しかし元々Linuxでの動作が保証されているソフトウェア・ゲームが少数であり、活動内容の選択肢も多くない。この点をカバーできれば問題なくLinuxを用いて活動出来るだろう。

第0回と同様の内容になるが、重要なので「受肉後」に着目して抜粋する。
以下の条件を満たす者は、後悔・苦戦せずLinuxで配信等の活動ができるだろう。ただし、チャートによっては太字ではない項目を無視できる場合がある。

  • Linuxを使用できる(使い方・操作方法等を理解・習得できる)

  • Steamをインストールし、Steam Playを有効化・使用出来る

  • WINEを設定し、Linuxでexeファイルを実行出来る

  • 英語の文章を理解できる(手段は問わない)

  • Steam、Lutris、及び「exeファイルを直接実行するゲーム」以外のプレイ動画・配信を諦められる(DMM GAME PLAYERを経由するゲームなど)

  • 扱いたかったゲームが何をしても動かなかったら諦められる

  • Linux特有の情報を検索・発見できる(Lutris等)

  • アンチチートツールにはじかれ、扱いたかったオンラインゲームが出来なくても泣かない

この記事が気に入ったらサポートをしてみませんか?