見出し画像

うたスキ動画の「店でのコラボ時」「ユーザー端末での再生」でのボーカル音量調整のされ方

JOYSOUNDのうたスキ動画のサーバーでの自動音量調整について、個人ブログに書いた内容(特許情報を調査した内容)を整理して加筆して書き直してみたいと思います
(分かりづらい書き方をしてしまっているので手っ取り早く最後の「追記(撮影時の音量設定注意点)」だけ読むのもオススメです)


うたスキ動画の作られ方

「うたスキ動画」はカラオケ店で録音した「ボーカル音声データ(録音情報))」と設置されているカメラで同時に撮影した「動画データ(撮像情報)」と「投稿者情報(ユーザー識別情報と相対音量情報※1 と絶対音量情報※2を含む)」の3つをアップロードしてサーバー上に置いてある個々の楽曲の「伴奏音データ」と合成して「伴奏音」は一定の音量で「ボーカル音声」は一定の範囲内の音量になるように自動調整(ノーマライズ)されて1つの「うたスキ動画」として作られます。

※1)相対音量情報は、JOYPadでの「マイクボリュームレベル(出力音量値)」から「ミュージックボリュームレベル(第1演奏音量値)」を引いた差(dB値)
※2)絶対音量情報は、周囲音用マイクで収音した結果に基づく絶対音量情報(MAX、MAX2、MAX GOのどこに周囲音用マイクがあるのか不明なので使われていないかもしれませんが、メイン音量を変えるとうたスキ動画の音量が変わるような気がするので周囲音用マイクがあるのかもしれません。。)

各種音量調整ボリューム

画像1

(特許6651935より引用)

カラオケ店のJOYPad(キョクナビ)の音量設定画面やカラオケ本体の音量調節つまみで調整する音量には

【メイン】【マイク】【ミュージック】【BGM】

がありますが、このうち【BGM】は曲間CMとかの音量を調整するつまみなので今回は除外します

上図の
【152:マイクボリューム】にあたるのが【マイク】
【153:ミュージックボリューム】にあたるのが【ミュージック】
【157:メインボリューム】にあたるのが【メイン】です

マイク信号に関しては、まず【151;A/D】でアナログの音声信号から、デジタルの音声信号に変換されていて、デジタルの信号に対して【152:マイクボリューム】で音量調整されて、【154:D/A】でアナログ音声信号に戻されて【156:ミキサ】でミュージック音声信号とミックスされて【157:メインボリューム】で再度音量調整されてスピーカーに出力されています。

うたスキ動画アップロード時のボーカル音声データ

では、うたスキ動画撮影後にアップロードされる「ボーカル音声データ」はどの段階の音声データが送られているのでしょうか?

画像2

(特許5522418より引用)

※上図で【44a】はマイクからの音声入力【44b】はギターなどをつないだ場合の入力を表しています

ここで【71a:A/D】とありますが、これが前節の【151:A/D】にあたる【A/D変換】です
【72a:出力音量値】とありますが、これが前節の【152:マイクボリューム】にあたる【マイク】とJOYPadに表記されているマイクボリュームです

図に「録音情報として出力」とあるように、「ボーカル音声データ」は『A/D変換後のデジタルデータでキョクナビでマイク音音量調節前のもの』となります

MAX、MAX2の場合は上記2つの図には記述されていないボリューム調整つまみとして、マイク入力端子横の【ゲインつまみ】がありますが(MAX GOではカラオケ本体メニュー内の音量調整値)それと、赤外線ワイアレスマイクの受信機にゲインつまみがあります

これを考慮するとボーカル音声データの音量調節の流れは

マイク

赤外線マイク受信器つまみのゲインでのアナログ音量調整

カラオケ本体背面のマイク入力端子横のつまみのゲインでのアナログ音量調整

A/D変換

ボーカル音声デジタルデータ

うたスキ動画サーバ

このような流れになります

MAX GOになって、マイク入力端子横のゲインつまみがなくなったので、ここを触ってあるのに気づかなくて、録った動画が事故ることが減った気がします

コラボの時の店での元動画再生のボーカル音量調整

コラボ時の店での元動画のボーカル音量はどのように自動調整されているのでしょうか?

使用されていると思われる特許は、特許5522418と特許5713214と特許6565554です

特許5522418と特許5713214の違いは、店でのコラボ録音の場合は「絶対音量情報」を使うか使わないかの違いに集約されると思います

特許5522418

特許5713214


画像5

(特許5713214より引用)

上図でわかるように、うたスキ動画撮影時の演奏音量を「第一演奏音量値(JOYPadでのミュージックボリュームの数値)」として、マイクの音量を「出力音量値(JOYPadでのマイクボリュームの数値)」として「投稿側制御手段」で「出力音量値」から「第一演奏音量値」を引いて「相対音量値」として「投稿者情報」に含めます

ちなみにJOYPadでのボリュームの表示値は1dB間隔になっているようです
※後出の図参照

ダウンロード

(特許5713214より引用)

単体動画の場合は上図(a)のようにボーカル音声データを「録音情報」として、カメラからの動画を「撮像情報」として、「投稿者情報」に「相対音量情報」などを含めて投稿されるようです

コラボの場合としての上図(b)ですが、特許にはこう書いてありますが、「録音情報(ミキシング済)」とありますが、これは実際の運用とは違うような気がしています

画像7

(特許5713214より引用)

上図は、店で元動画をダウンロードして店再生するときの図です

再生側制御手段が75のJOYPadのミュージック音量値(第2演奏音量値)を取得して、再生側制御手段から一般の私達は操作できないボリューム743に、先程の「相対音量情報」を足して、ボーカルの出力音量値(再生音量値)を決定します

画像5

(特許5713214より引用)

上図のように、相対音量情報分+4dBが足されてボーカルの再生音量になります
仮にもし周囲音マイクからの絶対音量情報があったとしたら、ボーカル録画時の絶対音量に相対音量+4dBを足したのが、再生音量になります

まとめると、マイクボリューム設定値がミュージックボリューム設定値より4大きいと、店でのコラボ時の元動画のボーカル音量は+4dBされて再生されるはずです(測ったことないです)

また、元動画撮影時の周囲音用マイクで収音した結果に基づく絶対音量情報がある場合その値が小さいと、コラボ録画時の店でのボーカルの再生音量は再生再生側設定Aではなく再生側設定Bに下げられる形になります
なので、メインボリュームの音量はある程度上げて元動画を録ってないとコラボ録画時に元動画のボーカル音量が小さくなるはずです(試してないです)

詳しくは特許を読むことをオススメします

特許6565554

特許6565554では、コラボの場合などにノーマライズだけでなく「補正音量」という情報を加味して調整するものですが、全ては実装されていない気がします
参考までに読んでおくといいかもしれません

ユーザー端末での再生用mp4ファイル作成時の音量自動調節(ノーマライズ)

画像6

(特許5522418より引用)

上図のようにユーザー端末での再生では、ユーザー端末からの要求で54の四角で囲んだ中でボーカル音声とオケ演奏が都度再生・合成されている体で書いてありますが、実際はあらかじめ54で囲まれた四角内の処理を経て【再生用mp4ファイル】ができています

ここでの「541:再生手段」が「ボーカル音声データ」「542:演奏手段」が「サーバー側にあるオケの演奏データ」です

54の一連の処理の中で543でノーマライズ(正規化)された音量に調整されます

残念ながら特許5522418にはノーマライズの手法は公開されていませんでした

今のところ私が体験している内容としては

・ボーカルのピーク音量が大きすぎると極端に音量が下げられて合成される
・ハモリで小さく録音しようとして全編小声で録音すると極端に音量が上げられて合成される
・マイクを口にあまり近づけずに録音すると比較的抑揚の効いたボーカル音声として意図した音量で合成される

くらいです

まとめ

一連のうたスキ動画録画・店再生録画・ユーザー端末での再生などについて特許情報をもとに解説してみました

情報が薄くて申し訳ないのですが、何かの参考になれば幸いです




追記(撮影時の音量設定注意点)

FacebookのJOYSOUNDのグループに公開したところほぼ反応がなく、一部のかたからは「わかりにくい」との指摘をいただいたので追記します

画像8

この図の【72a】がJOYpadのマイクボリューム、【75】がJOYpadのミュージックボリュームで、【77】にJOYPadのメインボリュームがあることになります

例えば①さんがマイク41、ミュージック37で録音すると
『録音情報』には

画像9

上記(a)のような感じで「投稿者情報」のところに「マイク音量41」と「ミュージック音量37」の差の「相対音量値 +4」を載せて、音量変更前の「生音声デジタルデータ」とともにサーバーに送ります

なので、例えば声の小さい①さんが店でマイクボリュームを上げて歌って、ちょうどいい音量バランスにしていた場合、マイク音量とミュージック音量の差の「相対音量値」と「生音声デジタルデータ」でそのバランスを再現できます

店での①さんが録ったコラボ元動画の再生では、以下の図で②さんがミュージックボリューム40に設定していると、①さんは相対音量値+4でマイク音量設定されている元動画なので、②さんが再生すると店ではあたかもマイクボリューム44で(dBで言うと-2dBされて)①さんが歌ってるように再生されます

画像10

このように②さんがコラボしようとする店での①さんの元動画のボーカル再生音量は決定されます

ではWebではどうかというと、①さんがマイク41ミュージック37で録って相対音量値+4になった元動画に、②さんがマイク38ミュージック40で重ねると②さんの相対音量値は−2

仮にサーバー側で用意されたオケのミュージックが40くらいになるように調整されていた場合、①さんはあたかもマイク44(-2dB)で歌った感じに、②さんはマイク38(-8dB)で歌った感じに一旦調整されます

しかし実際は①さんも②さんもそれぞれの声自体のdBが違うのであまりに②さんの声自体が小さかったり大きすぎたりすると、サーバー側で②さんのピーク時の音量dB値を元に調整されます(と私は思っています)

なので店で基本的に①さんが元動画を録ったり②さんがコラボを重ねる場合にまず①さんがアップ前の店再生で元動画の音量バランスを上手く取っていた場合は、②さんもアップ前の店再生でアップするコラボ動画の音量バランスを上手く取ってさえいれば、自動調整はほぼ無調整でコラボもいい感じに録れると考えます

一般的な場合①さんの元動画の【自動調整分】が実際はどの程度行われているかが②さんにはわからないので、②さんが重ねる場合のあくまで提案ですが、相対音量値−4から+4くらいの範囲になるようにマイクボリュームを2づつ調整したものを5つくらい録っていればほぼ問題ないのかと思います
(10dB の差は実際は音量2倍になるのでそんな大げさな音量差にならない程度にマイク音量2ずつ(2dB ずつ)くらい上下2個ずつと±0のを1個の合計5個録ってあれば多分大丈夫かと。。。わかりませんが)

問題は店で①さんや②さんが動画を録る時のマイク音量とミュージック音量の「なんとなくの音量設定のバランスの好み」と「動画での理想的な音量バランス」が違う場合が結構多いんじゃないかという気がすることです

これは、①さんや②さんが店で動画を録った後、アップロード前に店再生でバランスを確認したらいいと思います
極端にボーカルが大きいとか小さいとかになっていると、後々コラボされる時の店再生で大きすぎたり小さすぎたりや、Webで再生する時に自動調整が入ってややこしくなると思うのでマイク音量設定を変えて録り直したほうがいいと思います
特に元動画を録る①さんは慎重に調整してください

とりあえずこんな感じでいけるのではないかと思います

(私はとりあえずいけると思ったら検証作業を細かく行う前に喋っちゃって信用を失う人なのですが(自分の元動画、店再生して上げるの最近始めました)、例にもれず今回も一応みなさんでも検証しながらやってみてくださいませ。。すいません)

以上です

読んでいただいてありがとうございます。個人で情報を集めています。サポートいただいたら情報収集に使わせていただきます。