見出し画像

YouTubeのStable Volume問題

昨年あたりからいつの間にかYouTubeに実装されていたStable Volumeという機能ですが、少し時間をとって調べてみたら思ったよりも影響がクリティカルだと思ったので何が起きているかを調べてみます。

2024年6月25日現在の状況なので、今後YouTube側の仕様変更で状況は大きく変わることが予想されることを予めご了承ください。


起きていること

WEB上で情報収集しても憶測まじりの情報が錯綜していそうな雰囲気だったので一旦手元で調べられることを纏めてみます。

  • YouTube画面のギアアイコンをタップ/クリックするとStable Volumeというスイッチが表示される

  • ONにするとその動画のオーディオの音量感が動画を通して一定になる

  • 動画によってはスイッチがグレーアウトしていてONにできなくなっている

  • YouTube Musicにはない

10年ほど前に入ったラウドネスノーマライゼーションと大きく違うのは、動画のオーディオに対して追加の信号処理を行っている(音を変えている)点です。

動画上で右クリックしてStats for nerdsを表示すると、Stable VolumeがONの場合ボリュームのところにDRCという表記が出ています。

おそらくDynamic Range Compressionの略

Googleの言い分

  • 動画内の音量のばらつきを抑える処理である

  • デフォルトでオンになっている

  • 音楽には適用されない

  • モバイルのみの機能である(現状デスクトップにもある)

  • YouTube Premiumのみの機能である(現状非加入でも使える)

とのことですが、ここで問題なのが音楽にも適用されてしまっていることとデスクトップでもオンになってしまっていることです。

懸念点の整理

  • 音はどのように変わるのか

    • 大きくなるのか

    • 小さくなるのか

    • 汚くなるのか

  • どんな動画に対してStable Volumeが有効になるのか

  • いつ以降の動画が対象なのか

  • 動画投稿者ができる対処は

音はどのように変わるのか

闇雲に色々試す前に当たりをつけなければ検証ができないのでいくつかポイントを絞りました。

  • Upward/Downward Compressionのどちらなのか

  • Loudness Normalizationの前後どちらで起きるのか

コンプレッションの方向については正直なところ聴いた印象でしか判断できないのですが、盛り上がっている部分に圧迫感があるので下方向なんじゃないかなあと感じました。ただ、Thresholdの設定については動画によってまちまちなように思います。

次にLoudness Normalizationの前後どちらで起きるのかについては、動画によると考えられそうに思いました。

Integrated Loudnessが-14.0LUFS未満の動画の場合

コンプレッションがかかったあとに-14.0LUFSになるようにノーマライズされているようでした。つまり、音は大きくなって汚くなります。画像を見てもらえれば恐ろしさが伝わると思います。

上がStable VolumeがONの場合 (-14.0 LUFS Integrated)
下がStable VolumeがOFFの場合 (-15.5 LUFS Integrated)

実際の動画はこちら。

Integrated Loudnessが-14.0LUFS以上の動画の場合

最終的にLUFSが-14.0を下回っていたので、ノーマライズをした後にコンプレッションをかけているのではないかと推測されます。つまり、音は小さくなって汚くなります。せめて下げたなら上げておいてほしい。

上がStable VolumeがONの場合 (-16.9 LUFS Integrated)
下がStable VolumeがOFFの場合 (-14.0 LUFS Integrated)

実際の動画はこちら。

Integrated Loudnessがほぼ-14.0LUFSの動画の場合

-13.6LUFSくらいの動画の場合はノーマライズ後にコンプレッションがかかっていると思われますが、聴いた感じの変化はさほど大きくはなくレベル的にも-0.5dB程度の変化の範囲に収まっていて比較的ダメージは少ないと言えます。

上がStable VolumeがONの場合 (-14.5 LUFS Integrated)
下がStable VolumeがOFFの場合 (-14.0 LUFS Integrated)

実際の動画はこちら。

どんな動画に対して有効になるのか

これが正直よく分かりません。これは勝手な予想ですが、YouTubeとしては音楽コンテンツのようにオーディオのレベルが制作者によって意図的に設定されているコンテンツに対してはStable Volumeを有効にせず、トークのように常に均一な音量で音声が聞き取れることが重要なものに対してのみStable Volumeを有効にしたいという意図があるのではないかと思っています。

問題はその基準がどこにあるかで、可能性として考えられるのは

  • 特定の条件を満たすオーディオを含む動画

    • Integrated Loudnessがn LUFS未満

    • 相対ゲート以下の信号の比率がn %以上

    • ラウドネスレンジがn LU以上

  • GoogleのAIが音楽ではないと判定した動画

あたりでしょうか。ただ、先述の通りよく分かりません。

仮説1: Integrated Loudnessがn LUFS未満

これはシロでした。-14.0以下の動画でも有効にならないものはあるし、-14.0を超えた動画でも有効になっているものがあるからです。歌もの、インストは問わないようです。

仮説2: 相対ゲート以下の信号の比率がn %以上

これもシロだと思います。95%を超えていても有効になるケースもあれば70%を切っていても無効になっているケースもありました。

仮説3: ラウドネスレンジがn LU以上

これもシロだと思います。6LUで有効になることもあれば15LUでも無効になっているケースがあるからです。

仮説4: GoogleのAIが音楽ではないと判定した動画

個人的にはこれなんじゃないかなあ…と思ったり思わなかったりですが確かめる術がありません。後述しますが時期によって判定にブレがあるので日々改善しているのかなという希望的観測を持っています。

いつ以降の動画が対象なのか

過去の動画を15年分ほど遡ってみてみましたが、どの動画にも適用されていたので全動画に対し機械的に導入されているのではないかと思います。

が、不思議なことに3年前に公開した時にStable Volumeが有効になっていた音楽の動画をそのままもう一度上げ直したらStable Volumeが無効になったため、なにかしら判定、判断の精度は上がっているのかもしれません。

判定基準が向上しているとしたら遡ってその更新を適用することも可能だと思うので、いつの間にかStable Volumeのことが気にならなくなっている日が来る…のかもしれません。

動画投稿者ができる対処は

そうは言っても今日現在の時点で自分のアップロードした動画の音声が意図しない状態でリスナーに届くことはアーティストにとっては由々しき事態です。

パッと思いつく対処をいくつか挙げてみます。他にもあれば教えて下さい。

  • Stable Volumeが意図せず有効になってしまった場合もう一度同じ動画をアップし直してみる

  • -14.0~-13.9LUFSあたりを狙ってマスタリングする

  • リスナーにStable Volumeのチェックを外すよう案内する

同じ動画をアップし直したら何故かStable Volumeを無効になることがある…かもしれないのでやってみる価値はあると思います。

それでもStable Volumeが有効になってしまった場合のためのプランBとして、マスターを-14.0~-13.9LUFSあたりにピッタリ合わせて作っておくとダメージを最小限に食い止められるように思います。ただ、そのために表現が犠牲になったら本末転倒なのでできれば避けたいところです。例えばオーケストラの楽曲で到達するには-14は高すぎますし、アルバムを作っている時は必要に迫られて大きく仕上げる曲と小さく仕上げる曲がありますからね。

あとはあまり好ましいやり方だとは思いませんがリスナーやファンに対してなるべくStable Volumeのチェックを外して聴いてもらうよう促すことも時には必要かもしれません。が、作り手も聴き手も意識しないところで勝手に聴体験が向上していることがシステムとしての必要条件だと思うのでこれをしなければならなくなったとしたらそれはGoogleの落ち度だと言えます。

備考: Stable Volumeのメリット

問題点ばかりあげつらうのはフェアではないのでこの変更によるメリットを説明すると、例えばスマホやタブレットのスピーカーでYouTuberの動画配信等を見ている時に、声の音量が動画を通して均一になるため小さな音量でもクリアに聞き取りやすくなっています。

音質や音色、音量よりも語られている言葉の内容こそが重要であるにもかかわらず、オーディオのプロフェッショナルによる適切な処理がなされていないコンテンツにおいてStable Volumeは大きな恩恵をもたらしています。

おまけ: 音楽以外の方が問題は深刻

本記事では音楽に焦点を絞りましたが、実際にはゲームのトレイラーのように

  • 音楽が主体ではない

  • オーディオのプロフェッショナルによってミックスされている

コンテンツ全般にめちゃくちゃなコンプレッションがかかってしまっていることです。確認したらiZotopeのチュートリアル動画もほぼ全て影響下にありました。流石にそのうち改善されるとは思いますが、当面の間は「Stable Volumeがオンになってしまってもダメージが少ないミックス」を模索しなければならない…のかも。ただ、MAで目指すには-14LUFSという数値はあまりにも高すぎるため、「パソコンではStable Volumeをオフにしてくれ運動」が起きそうな気もします。

この記事が気に入ったらサポートをしてみませんか?