![見出し画像](https://assets.st-note.com/production/uploads/images/147848939/rectangle_large_type_2_d9684afaa22947038667cdebee1ee9af.png?width=1200)
【音源分離AIの最高峰】UVR5でボーカル抽出する最良の設定解説
UVR5とは
Ultimate Vocal Removerの略で音源分離やボーカル抽出、ハモリ除去などを行うことができる無料のAIツールになっています✨
GPUが無くても使用できますが、NVIDIA製GPUがあると高速に精度の高い処理を行うことができます!
音声処理ツールの最高峰と呼ばれる、約20万円くらいする音声処理ソフトRX11 Advancedも使用しているのですが、こちらよりも分離性能だけで言えばUVR5が勝っています🔥
UVR5の使い方(version5.6)
はじめに
![](https://assets.st-note.com/img/1721367719467-cNjF0cJNxz.png?width=1200)
Select input : 分離したい音源をドラッグ&ドロップ、もしくは右のフォルダマークから直接選択します。
Select Output : 分離したデータを入れるフォルダを選択します。
WAV, FLAC, MP3から出力する音源のフォーマットを選択します
処理選択
![](https://assets.st-note.com/img/1721368021116-WB0sx3Zm0u.png?width=1200)
CHOOSE PROCESS METHODからどの方式で処理するかを選択します。
ここでは主にVR ArchitectureとMDX-Netについて解説したいと思います。
VR Architecture:動作が軽くスペック控え目のPCでも処理が速いです。十分精度は高めです。
UVR5の基本的な音源分離アルゴリズム
一般的な用途に適しており、比較的高速に処理可能
MDX-Net:動作は重めですが、より自然に分離することができます。
より高度な深層学習モデルを使用
VR Architectureよりも高品質な分離が可能だが、処理時間が長い
特にボーカル分離に優れている
Demucs:ボーカル分離もできますが、楽器別に分離できるのが主な機能です。
Facebookが開発した音源分離モデル
複数の楽器パートを同時に分離できる
高品質な結果を得られるが、計算コストが高い
Ensemble Mode:この機能は慣れてきたら使用すると良いですが、使用しなくても問題ないです。
複数のモデルや手法を組み合わせて使用
より高品質な結果が得られる可能性があるが、処理時間が大幅に増加
個々のモデルの長所を活かしつつ、短所を補完することができる
Audio Tools:これは見て分からない人は使わなくて大丈夫です。
ピッチ変更、タイムストレッチ、ビット形式変更などが行える
パラメータ、モデル設定
処理方式によってパラメータの設定が異なります。
VR Architecture
![](https://assets.st-note.com/img/1721370194747-1XphmaCaMN.png?width=1200)
Window Size:小さいほど精度が高いです。320で良いでしょう。
Aggression Setting:
・範囲は-100から100です。
・値が大きいほど、抽出が深くなります。
・通常、ボーカルと楽器については5に設定されています。
・非ボーカルモデルの場合、5を超える値は音を濁らせる可能性があります。
Choose VR Model:プルダウンよりDownload More Modelsを選択し、使用したいモデルをDLしてください。同じ名前のものはバージョンが新しいものを使用すれば大丈夫です。
・HP-UVR:曲からボーカルを除去することに特化したモデルです。
・HP-Vocal-UVR:曲からボーカルを分離することに特化したモデルです。ハモリは残ります。
・HP-Karaoke-UVR:曲からメインボーカールのみを分離することに特化したモデルです。ノイズやハモリをキレイに消せますが、音が籠ることがあります。
・UVR-DeEcho-DeReverb:曲からリバーブ成分(響いた感じ)を分離することに特化したモデルです。
GPU Conversion:GPU処理を行うかどうかの設定です。NVIDIA製GPUがある方は処理が速くなるので✅しておきましょう。
NVIDIA製GPUがない方は使用できません。
MDX-Net
![](https://assets.st-note.com/img/1721372040319-R2ghIiovAV.png?width=1200)
Segment Size:大きいほど精度が高くなりやすく処理が遅いです。GPUスペックに合わせて調整して下さい。
・小さいサイズはリソースの消費が少なくなります。
・大きいサイズはより多くのリソースを消費しますが、より良い結果が得られる可能性があります。
・デフォルトサイズは256です。選択したサイズに基づいて品質が変わる可能性があります。
OVERLAP: RTX4090で0.99設定で、2分の曲に対して処理時間約5分ほどでした。
・このオプションは予測ウィンドウ間のオーバーラップ量を制御します。
・より高い値でより良い結果が得られる可能性がありますが、処理時間が長くなります。
・Non-MDX23Cモデルの場合:0.001から0.999の間で選択できます。
Choose VR Model:MDX-Netに関してはモデルがかなりたくさんありますが、基本的には以下の2つのどちらかの使用でよいかと思います。
・UVR-MDX-NET inst HQ:曲からボーカルを分離することに特化したモデルです。ハモリは残ります。
・UVR-MDX-NET Karaoke:あまり精度が良くないので、ハモリを抜くならVR ArchitectureのKaraokeモデルを使用しましょう。
・MDX23C-instVoc HQ:さらに高品質なモデル。めちゃくちゃ処理が重いですが、ほぼ音楽が残らずキレイに分離できます。
GPU Conversion:GPU処理を行うかどうかの設定です。NVIDIA製GPUがある方は処理が速くなるので✅しておきましょう。
NVIDIA製GPUがない方は使用できません。
Windowsize320、Aggression Setting50でのGPU負荷はこのような形でした。VRAM8GB以上あれば問題ないかと思います。
おすすめモデルと設定
ハモリがあまりない楽曲
GPUあり
Method:MDX-Net
Segment Size:1024
Overlap:10
Model:MDX23C-InstVoc HQ
GPUなし
Method:VR Architecture
Window Size:320
Agression Setting:10
Mode::HP-Vocal-UVR
ハモリがそこそこある曲
Method:VR Architecture
Window Size:320
Agression Setting:10
Mode::HP-Karaoke-UVR
モデルや設定毎の精度比較
#UVR によるボーカル抽出のモデルや設定毎の比較 #AI pic.twitter.com/P5gd0okzfX
— みどりん(midorin)@AIコンテンツクリエイター&立体音響 (@seal309midorin) July 19, 2024
UVR-NET Inst HQ 4 Segment Size:4000 Overlap:0.99
無音部分の波がやや大きく、音楽が残ってしまっています。
![](https://assets.st-note.com/img/1721407813716-B804JEdJeA.png?width=1200)
MDX23C-InstVoc HQ Segment Size:1024 Overlap:10
無音部分は概ね整っていますが、やや膨らんでいるところがまばらにあります。
![](https://assets.st-note.com/img/1721407813627-buFLCbMCNz.png?width=1200)
MDX23C-InstVoc HQ Segment Size:4000 Overlap:10
無音部分の波がキレイに整っていますが、やや膨らみがあります。
![](https://assets.st-note.com/img/1721407813596-WutKEfbAHG.png?width=1200)
MDX23C-InstVoc HQ Segment Size:4000 Overlap:50
全体的にバランスよくボーカルが抜け、無音部分の波が更にキレイに整っています。
![](https://assets.st-note.com/img/1721407813511-WdeXamCRwT.png?width=1200)
VR Architecture HP-Vocal-UVR Window Size:320 Aggression Setting:10
無音がきれいに抜けるのですが、高音の楽器が残ってしまうことが多いです。
![](https://assets.st-note.com/img/1721407812830-9u9Kj9JZIg.png?width=1200)
VR Architecture HP-Karaoke-UVR Window Size:320 Aggression Setting:10
無音がきれいに抜け、ハモリやリバーブも抜けるのですが、やや抜きすぎてしまうことがあります。
![](https://assets.st-note.com/img/1721407813177-b5M8pQT5Or.png?width=1200)
処理速度、GPU負荷比較
検証スペック
CPU:Core i7 11700F 8コア 2.5GHz
GPU:RTX4090 VRAM24GB
使用した曲の長さ:1分34秒
Method:VR Architecture
Window Size:320 Agression Setting:50 Mode::HP-Karaoke-UVR
処理時間:14秒(GPUあり)
![](https://assets.st-note.com/img/1721401842650-BPD9GjA8aW.png?width=1200)
![](https://assets.st-note.com/img/1721371291981-kGjjVT80jd.png?width=1200)
ここから先は
Amazonギフトカード5,000円分が当たる
この記事が気に入ったらチップで応援してみませんか?