【おかわり】宅録音声クオリティ向上術　～ナレーター/声優の方へ～

2021年8月7日 23:57

どうも。音響エンジニア、オーディオライターの橋爪徹です。

以前私がnoteで公開したこちらの記事。

ありがたいことに私の想定を超えるご感想をたくさんいただきました。参考になった、役に立ったといったリアクションをいただきました。この思いに何かしらのかたちで答えたいと思いました。そこで、寄せられたご質問やご意見にリアクションするスピンオフを作ることにしたのです。この記事は、本編をお読みいただいている方を対象にしていますが、単体で読んでも楽しめるものにしました。

橋爪徹は何者か

私は、音声を専門に扱う音響エンジニアです。2006年から活動を開始し、これまでWEBラジオの録音や公開録音のPA、音声系CDのミックス、ボイスサンプルの録音などを手掛けてきました。最近では、生放送のネットテレビで報道番組の音声スタッフを担当しています。

オーディオライターとしても2015年から活動しており、スピーカーやアンプ、PCオーディオからネットワークオーディオまで、ハードのレビューを始め、ハイレゾ音源やアーティストインタビューなどもこなします。微に入り細に入り音を聞き分けて、それを文字や喋りで相手に伝える専門職です。

民生用オーディオだけでなく、モニタースピーカーのレビューなんかもやっています。（ ⬇この時は、あえてエンタメ要素で使うという趣旨でした）

ライター業も含めたポートフォリオはこちら。ライター仕事全履歴はこちらをご覧下さい。

前記事の概要

noteで公開した「宅録音声クオリティ向上術」は、自分でも驚くほど大勢の方に読んでいただけました。発売は5月頭とだいぶ前になりますが、未だに買って下さる方もいて、本当にありがたく思っています。Twitterなどで広めていただいた方もありがとうございました。

前記事は、宅録音声をオンライン上で送っていただいたものを私が聞いて、その所感をまとめました。気になる傾向と対策、そして私なりの実践例をまとめた記事と言うことで、大ボリュームになっています。

具体的な実践例は有料パート（以下、後半パートと呼称）に掲載していますので、未読の方はぜひご覧になってみて下さい。難解な内容もありますが、「確かに難しいけど、言いたいことは何となく分かる」ような文章になっていると評判です。そこはプロのライターとしてこだわりました。

前回の記事をお読みになった方がいろいろ実践されている写真を上げてくれています。私の記事が影響したのかは分りませんが、具体的にアクションをされている様子はこちらも励まされます。例えば、PCとマイクを離してマシンノイズ（主に排熱ファンの音）を軽減する対策。前回の後半パートに具体例を書きましたが、記事にはないやり方を試している方もいて感激しました。

宅録音声を聞かせていただくと、他はほぼ問題ないのにマシンノイズだけが気になる状況という方もいます。宅録erにとって共通の課題になっていることを痛感します。今後は、単体マイクプリとヘッドフォンアンプを使って、PCだけでなくオーディオインターフェースも録音ブースから離す方法を記事化できればと思っています。これは機材の配置において、USBケーブルの限界長さを考慮しなくてよいので大きなメリットがあります。（オーディオ信号を扱う場合、USBケーブルは2m以内が推奨されます）

以前、Twitterで気まぐれに開催していた「宅録音声聞いてコメント」企画。これはいつでもご依頼いただけるように「つなぐ」でサービス化しました。

↑　プロ/プロ志望の方向け

↑　お気軽版　趣味の方、始めたばかりのプロの方向け

ここからは寄せられた質問に答えていきます。質問の一部から選り抜きとなります。参考になるトピックがあれば幸いです。

金属製ポップガードの共振が心配

ポップガードが共振しないか心配というお話を聞きました。吹きによるノイズを緩和するポップガードには、ストッキングタイプと金属タイプがあります。金属タイプを使っている方によると、自分の声で網の部分が共振して、録り音に影響を与えるのではないかという心配の声を聞きました。私も金属タイプを使っています。ただ、自分自身、ストッキングタイプも使っていましたが、金属タイプに変更して「金属による共振が録音する音に混ざった」という感覚はありませんでした。

心配な方は、ポップガードの有/無で録音しての比較はやってみてもいいでしょう。その際は、マイク距離が変わらないように、かつ同じ声量感で録るようにします。共振による音、特に高音域の変質といった気になる付帯音が混ざってしまうときは、ストッキングタイプのウインドスクリーンを使うのも改善策としてありかと思います。

↑　金属タイプの例（自宅で使ってます）

↑　ストッキングタイプの例

ストッキングタイプは、高域がややロールオフします。音が変わってしまうのが困る人は、できるだけ金属タイプを選んだ方がいいと思います。マイク前の発声で過度に声量に頼ると、録り音がノイジーになったり、表現の微細なコントロールがし難くなるなど、デメリットもあります。発声方法や表現の作り方そのものを見直してみるのも一案かもしれません。

録音中にゲインを上げ下げするのは適切か

声のダイナミクスが大きい方は、声量が大きい時を基準にゲインを合わせると、声が小さいときにレベルが十分に取れないことがありますよね。そのため、小～中音量の時を基準にゲインを決めて、声を張るとき（大きめの声を出すとき）に音が割れないようゲインをリアルタイムに下げるという方法は問題ないかという質問でした。これは（絶対NGではないが）基本的に録音中はやらないと思って欲しいです。

リアルタイムのレベルコントロールは、コンソール（卓）を使っている場合にフェーダー操作で行います。プロのレコーディングスタジオに、いっぱいフェーダーが付いた大きな卓があるのを見たことがある方もいるでしょう。私は、レコーディングスタジオで実際に操作したことはありませんが、ネットテレビの現場ではミキサーのフェーダーをリアルタイムに動かしながら調整しています（音割れ防止ではなく、専らS/Nの確保のため）。もちろん、リハーサルのときにあらかじめ演者さん毎の適切なゲインを調整しておきます。リアルタイムにアウトボードのコンプレッサーを通しているので、音が割れ気味になったときも、耳障りな感じを緩和しています。

実態としては、オーディオインターフェースだけで録音している方が多いと思いますので、もう少し具体的な話は後半パートで解説しています。

機材同士の相性はあるのか

「このマイクだったら、このオーディオインターフェースとの組み合わせがいい」といった相性の有無はあるかという質問でした。私の見識の範囲では、特にないと思います。ただ、人によっては相性の有無を感じ取ることもあると思いますから、絶対無いとは言い切れません。

大事なことは、各機材の特色（個性）を把握し、録る側が意図をもって組み合わせることです。例えばの話ですが、高域に個性があるマイクを使っているのに、高域がロールオフされるマイクケーブルを使っていたら、打ち消し合いが少なからず起こります。意図的にマイクの音の癖を緩和したいならいいのですが、意識せずに単に持っているからと組み合わせるのは、お勧めしません。

機材やケーブルごとの音の個性は、自分で聞いて確認するのが一番ですが、いろんなレビューを参考にして多くの意見が集まっているステータスなら頼りにしてもいいでしょう。新しい製品を買ったときに備えて、判断の基準になるリファレンスを持っておくのも大切です。ここで言うリファレンスとは、周波数バランスはフラット、解像度も高く、歪み感が小さく、付帯音も無い、そんな音が理想です。リファレンスになり得るマイクやケーブルを持っていれば、別の製品を導入するときに、基準に対してどんな音の特性を持っているかの判断が付けやすくなります。機材は好き嫌いで選んで構いませんが、基準となる音をチェックできる準備をしておくことも重要です。（写真は本文とは関係ありません）

個人的には音声の宅録においては、機材同士の相性というより、機材と演者の相性はあるかもという考えです。例えば、演者さんの声の個性に対して、その逆の特性を持つ機材を使うと、その個性を緩和することができます。私の場合は、マイクプリの入力インピーダンスを切替えて、高域がブライトになるインピーダンス設定を暗めの声の方に使うという様な手法を採ることもあります。沈んだ感じの声にならないように、バランスを取る訳です。あくまで台本や演者さん次第です。個性を生かす方向で録ることもあります。

演者さんの声に合わせて、作りたい作品の雰囲気に合わせて、エンジニアは機材を選んでいきます。歌ならともかく、ナレーションや台詞においては、録り音の段階で個性的なサウンドにする必要はあまりないと思います。ただし、明確に意図を持って取り組めるなら試行錯誤もよいでしょう。

MP3で適切な音声を作成するには

MP3での納品を求められる方も少なくないようです。WAVで納品するのが理想ではありますが、クライアントが求めている限り、MP3を用意するのはマナー。ならば、少しでも適切なクオリティで作りたいですよね。MP3にエンコード（WAV⇒MP3）する際、配慮した方がいいことを私なりにまとめてみました。

まず、エンコーダー設定でよく見かけるCBRとVBR。これはVBR（可変ビットレート）でよいでしょう。CBR（固定ビットレート）は常に一定のビットレートを確保します。VBRは音声内容に応じてビットレートを自動調整します。他にも平均ビットレートをあらかじめ指定しておくABRというのもありますが、VBRの方がお勧めなので割愛。今はパソコンのストレージ容量も増えているので、MP3を送るのにファイルサイズを気にする時代ではありません。よって、容量はそこそこデカいが最も音質が良くなるVBRで送るのが適切です。他のCBRやABRで同じファイルサイズにしたとしても、VBRは音がいいと言われています。

エンコーダー品質やVBR品質は最高に設定しましょう。ファイルサイズを気にする必要はないし、今のPCならエンコーダー品質を落としたところで待ち時間は大して変わりません。PCの性能が上がっていますから、MP3のエンコードごときでウンザリするほど待つこともありません。（写真は本文とは関係ありません）

ちょっとマニアックになります。DAWでMP3の元となるWAVを書き出す際、トゥルーピークリミッターはいくつで設定すればいいでしょうか。諸説ありますが、-1dB（dBTP）で設定すればよいと思います。マキシマイザーを使って音圧を上げるとき、トゥルーピークの設定があれば、Ceiling（天井）を「-1dB（dBTP）」に設定しておくと良いでしょう。こうすると、圧縮したあとで再生するとき、歪みやクリップを抑える効果が期待できます。-1という大きな余裕を見積もっておく背景として、WAVをMP3に圧縮するとそれだけでサンプルピークが僅かに上がることが挙げられます。警戒すべき再生時のトゥルーピークは、聞く環境でどのようなDACを使っているかにもよるので深淵の世界ですが、とりあえずトゥルーピークリミッターがあれば、天井を「-1dB（dBTP）」に設定ということだけ知っておいて下さい。

マニアックな話題でワケワカメですよね…、すみません。マキシマイザーを使っていないとか、設定自体が無いときは特に気にしなくてもよいです。基本、宅録の声優さんやナレーターさんが行う整音では、音量へのアプローチはやらないと思いますし、相手のエンジニアさんに任せるのが基本です。ノーマライズも不要です。完パケをくれと言われたり、自主制作のコンテンツなど自分で音圧を整えるときは、本件を意識するとよいでしょう。あとから動画にして、共有サイトにアップする場合も同様です。MP4動画などは、基本的に音声は圧縮されますので。

私が実際に使っているMP3変換アプリは、後半パートでご紹介しています。その他にもビットレートの違いによるスペクトラムグラフの変化、実際の音を聞いての比較レビュー、お勧めの設定、サンプル音源などもダウンロードできるようにしました。MP3をデコード（WAVに戻す）するときに16bitがデフォルトの場合と、32bit浮動小数点数の場合と、2パターンあるのはご存じでしょうか。その辺りも解説しています。MP3の深淵の入り口に触れてみたい方、ぜひご覧下さい。

宅録音声を商業スタジオへ納品したい

クライアントがレコーディングスタジオを持っている法人様であるケース、少なくないようです。おそらく音響制作業務も込みでやっているようなスタジオだと思います。相手がスタジオグレードの音質を熟知している場合、宅録でどのくらいの音質を確保すべきなのかという質問でした。

まずは、何はなくとも適切なルームアコースティックを整えることです。宅録音声をいくつも聴かせていただきましたが、「吸音不足」は多くの方が抱えている課題です。そして「遮音」。遮音は外の音や生活音を入れないということで多くの方が配慮をされていました。一方で吸音や遮音が十分でも、PCのファンノイズだけは入ってしまっている方が何人かいました。

残念ながら、いくら高価なマイクやオーディオインターフェースを揃えても、機材性能を発揮するために電源/ノイズ/振動といった一連の対策を行っても、ルームアコースティックが中途半端だと、それで試合終了です。「まあ、宅録だし……」という評価になりその上のフィールドで勝負できません。厳しいですが、これが現実です。

よって、適切な吸音・遮音状態を達成した上で、その先のクオリティアップを考える、というのが回答になります。後半パートでは、その先について、現時点での見解を書きました。私も日々、システムをレベルアップ中です。　

エンジニアはどうして耳がいいの？

宅録でエンジニアリングを始めた演者の方には、不思議に思う方もいるようです。どうしてプロのエンジニアの人たちは、音の違いに敏感なのか、音の良し悪しに気付けるのか。

「いつから耳がよくなったの？　生まれつき？　経験によるもの？」

自分には思いもつかなかった質問でした。これを受けた私は、知り合いのMAエンジニアの方とzoomによるトークライブを開いて深堀をしてみました。本記事では、そこで語ったこと＋αと具体例をご紹介したいと思います。

まず、答えから先に言います。ずばり経験によるものです。最初から判断力が高い人なんていません。生まれ持って天才的な感覚を持っている人は別として、ほとんどは本人の意識と行動で鍛えていけるのです。読者の方も、判断力や違いを聞き分ける能力を伸ばすために、意識的に行動していけば変わっていくはずです。私自身の耳が鍛えられてきたエピソードは後半パートでご紹介するとして、少し余談をお話ししましょう。

人間は、加齢に伴って高域から聴力の低下が始まります。聴力の衰えは、40～50歳代からはじまり、60代以降は急激に低下します。実家の母親も50代くらいからタイマーの「ピピピ！」が聞こえないとよく言っていました。

自分がいくつまで高い音が聞こえるか気になりますか？　WindowsであればWaveGeneを使って、オーディオインターフェース経由でサイン波の信号を聞いてみましょう。高域は耳にとって刺激が強いので、ヘッドフォンの音量を上げ過ぎないようにします。スピーカーもツィーターをぶっ壊す恐れがあるので、音量の上げ過ぎには注意です。自分の耳で聞こえてないのに、音量が小さいせいにして上げまくると壊れます。事前に400Hzとかで控え目の音量を探ってから、同じ音量で数kHz台を試していく感じです。少しでも耳にキツイと思ったら音量を下げてください。（詳しい設定は後半パートでご紹介しています。あくまで自己の責任で行ってください）

私も改めてモニターヘッドフォンHPH-MT8（写真右）で試したところ、16kHz以上はもう聞こえませんでした。15kHzでギリギリ。

加齢による聴力の衰えは、高域にまず現れますが、実は時間解像度の判別能力は歳を重ねても劣化しません。人間の聴覚は3~5μS（1マイクロセカンドは、100万分の1秒）という極めて短い時間差を聞き分けることができます。これは、2つの耳でも音の方向性や距離を判断できる能力のバックグラウンドでもあります。2つのステレオスピーカーで音の定位や音場の広がりを感じることができるのもこの能力のおかげ。ハイレゾ音源は、とかく超高域の再生能力ばかりに注目が集まりますが、実は48kHz⇒96kHz⇒192kHzとサンプリングレートが上がっていくに従って、時間軸上のにじみが小さくなり精度が上がっていきます。ハイレート音源の方がホールの空間を広く感じたり、楽器の音が立体的に聞こえるのはこのためです。192kHzでは、時間軸上のにじみが250μSくらいまで小さくなります。人間の聴覚限界にはまだまだ遠いですね。人間の聴覚は、音の高低よりも音の時間に関する情報に対して敏感に進化してきました。遥か太古の時代、人間が狩猟民族だったころ、外敵がどちらから襲ってくるのか瞬時に判断するには、周波数の高低よりも時間差の判別の方が大事だったため、だそうです。

前半パートまとめ

いかがでしたでしょうか。実際に疑問に思われた方への返答を書いてみたのですが、ちょっと五月雨気味で退屈な文章になってしまったかもしれませんね。おかわり編ということで、ご容赦いただければと汗

皆さんのSNSでの発信などを見ていると、一番は自分の表現力の向上というのを理解した上で、音のクオリティアップにも気を配っていらっしゃるのが伝わってきます。暗中模索の中、自分の評価基準の一部となってしまう音質へ否が応でも向き合わざるを得ない状況を拝見するに、いちエンジニアとしてこれからも皆さんにお力添えを出来たらと考えています。

それでは、ここからは後半パートです。各質問項目について、より突っ込んだ具体的な話、私ならこうするというノウハウの話を中心に書きました。お勧めです！

ここから先は

12,941字 / 29画像 / 3ファイル

¥ 750

ログイン

よろしければサポートをお願いいたします。お気持ちだけでも構いません。いただいたお金は今後の記事の充実などのために活用させていただきます。