ラップトップ・ミュージック—DAW、プラグイン、音作りを学ぶ際の諸問題

2024年5月24日 21:30

こんにちは、作曲家の村松昂です。専門は作曲ですが、大学院での仕事と研究内容が電子音楽系なので、その知識をもとに今回は現代の音楽家としての立場から、近年のオーディオエンジニアリングに関わる一意見を、お話しできたらなと思います。

先に断っておくと、この記事はいわゆるtipsをまとめたチュートリアル記事ではなく、現代の技術を使って何を目指すのか、つまりHow?ではなくWhat?を考える記事です。

導入 - ラップトップ・ミュージック

まずはラップトップ音楽のあれこれについて詳しくない方のために、用語やコンセプトなんかを説明していきます。そんなの知ってるよ！という方は後ろの方まで飛ばしてくださいね。

DAW

まずはDAWことデジタル・オーディオワークステーションについて。DAWといえば、Cubase、Logic、Pro tools、Ableton Liveなどの有名どころは耳馴染みがあるでしょうか。Pro toolsはAvid、LogicはAppleといったようにそれぞれ違うメーカーによって開発されたソフトウェアですが、基本原理と最終的に目指すところは共通していて、「オーディオをデジタル編集する」そしてそれを「家庭用のラップトップで簡単に動かす」という点です。音楽版のフォトショップとでも言えばいいですかね。今では、スタジオエンジニアも、ミキサー・レコーディング技師、もちろんアーティスト、はたまた宅録Youtuberや私みたいな電子音楽の作曲家なんかも、みんなDAWを使って音楽や音を作っています。

Digital from/to Analog Conversion

そもそも、オーディオをデジタル編集するってどういうこと？ということについて。本来は自然界に存在する物象である音をデジタルにするということは、その物象を一定間隔の時間でサンプル（記録）するということです。(詳しくはPCMなんかを調べてみてください)
サンプルはデジタルの世界においては数字で表され、それによって音が「数値化」されるわけです。そうして、パソコンその他デバイス上でレコーディングや音の編集なんかをします (アナログ→デジタル)。最終的に編集されたサンプルはスピーカーやヘッドフォンに送られ、それがそのサンプルの情報を再現して振動することで、ただの数字だった「音」は、再び私たちが聞こえる形での音に変換されます (デジタル→アナログ)。以前の動画で、MaxMSPで少し説明しました。ビジュアルがあるぶんわかりやすいかなと思いますので、興味のある方はそちらもどうぞ。

このアナログ←→デジタルの処理は、もちろんDAWでも行われています。この約30秒の動画では、無料で使えるDAWソフトの一つ「Audacity」を使って、DAWにインポートされたオーディオが、実際には無数のサンプルの集まりでできていることを示しています。
波形をズームしていくと、「音は波でできている」という高校物理を視覚的に確認でき、そこからさらにズームしていけば、この「波」はデジタル的には無数のサンプル (動画内で言うマッチ棒みたいなやつですね) によって、「それっぽく」再現されているということがわかります。

Audacityにインポートそた曲は、私が以前カバーして記事にしたものからとってきました。よかったらそちらもぜひチェックしてみてください！

Sampling rate

そして、このサンプルを取るペース、つまりマッチ棒をどれくらいの間隔で並べるのか、によって、このデジタル化されたオーディオの質がどのくらいリアルなアナログの音に近いか、ということが変わります。映像の世界で言えば、fpsがそれに該当するでしょうか。より速く、細かくサンプルを取れば音の精度はあがり、より遅く、荒くサンプルを取れば解像度が下がる、というのが、最も感覚的な説明になります。オーディオの世界では、この値はsampling rateと呼ばれています。

fpsとsampling rateについて少し脱線したお話。現状fpsといえば24、30、60fpsなんかがよく聞く値だと思います。fpsはframes per second、つまり1秒間に何枚のフレームを投写するかという単位ですが、sampling rateの単位はHz、そしてfpsと同じように、1秒間に何回サンプルを取るか、ということを表します。オーディオの世界で使われるsampling rateの基本は、44,100Hzもしくは48,000Hz。つまり、1/44100や1/48000秒の間隔で、音のサンプルを記録しているということになります。たとえば、仮にsampling rateをfpsと同じように60Hzに設定してレコーディングをしたとしても、可聴域の音を再現することはほとんどできません。如何に、ヒトの耳というものがより高速に動くモノの振動を物象として捉えることができるのか、ということがわかります。また、耳は非常に繊細な振動の速さの差を正確に捉えることもできます。例えば、中央ドの周波数はおよそ262Hzなのに対し、その半音高いド#は277Hz。1秒間に262回の周期と277回の周期の差を、目で捉えることはできるでしょうか？しかし聴覚は、それを明確に違う音の高さだと判断できます。そういう意味では、私たちは視覚情報からより「多くの」情報や刺激を得て、それに頼って生活している一方で、聴覚から得られる情報にはより「深度」があると言えるのではないでしょうか。別にどちらの感覚がより重要かとかいう話ではなく、そういう風に考えられるのも面白いよね、という話です。

技術はどこまで発展したか、するのか

DAWが登場するより以前から、音楽の世界でない分野で、こうしたサンプリングレートやデジタル ←→アナログの変換といったコンセプトは存在していました。でも、コンピューター・ミュージックやシンセサイザーといったテクノロジー×音楽というものは、DAWが普及する前までは、日本で言えばNHKのようなまとまった予算を持った電子音楽スタジオの特権だった。エレキギターやマイクロフォンのような電子楽器がいち早く戦後ロック音楽のジャンルに現れたのとは裏腹に、フィルター、フランジャー、リバーブ、リングモジュレーター、その他電子音楽の技術は、ローテクなアナログ・ハードウェアの段階では再現可能でも (例えばテープレコードのリールを巻く速度を変えてフランジャーの効果を作ったりとかです)、それは現実的には個人がアクセスできる環境ではありませんでした。

例えばBeatlesの"Revolution 9"という曲を聞いてみましょう。元々は普通の4ピースバンドだったがBeatlesが世界的なバンドとなり、予算を持って、スタジオ(彼らの場合はアビーロードのEMIスタジオです)が保有していた機材と知識に触れる。この曲からは、どうこうして電子音楽の発想と技術を自分の音楽に取り込んでやろうか、そんな彼らの実験的な試みを感じ取ることができるのではないでしょうか。(Wikipediaによると、ジョンレノンは現代音楽作曲家カールハインツ・シュトックハウゼンとジョン・ケージに影響されてこの曲を作ったそうです)

しかし、みなさんご存知のように、今は誰でも簡単に録音ができるし、やろうと思えばそれにリバーブをかけることだって、ちょっと調べれば全然難しいことではありません。Youtubeに無数にアップロードされている「歌ってみた」動画も、私が最初に見始めた10年前と比べれば、明らかにEQやリバーブを通した"整えられた"演奏ばかりです。この電子音楽技術の「家庭版化」の背景には、先に説明した音のデジタル化のテクノロジー、そして家庭用コンピューターのマシン性能が劇的に向上したことがあります。

マシン性能という点で言えば、私が個人的に聞いた話では、90年代にはまだ、44,100HzでDAWやオーディオプログラミングのソフトウェアを(家庭で)使う環境はなかったらしい。正直今では、44,100Hzでさえシリアスなオーディオの世界では少々時代遅れになってきていますから、それさえできない環境で音楽を作るというのは、想像するのも難しいです（ちなみにCDのサンプリングレートは44,100Hzなのですけどね）。そして今では、コンマ数秒でできるようなオーディオ処理も、当時のパソコンでは一晩かかっていたとのことです。
映像に比べればオーディオが扱うデータは遥かに情報量が少ないですけれど、それでもそれ相応のプロセッサーの処理能力と、デジタル化したオーディオをコンピューター上で処理するためのRAMのキャパシティが必要なわけです。

そして、デジタル処理がパソコンの中で完結できるということは、例えばリングモジュレーターを再現するのに、スタジオにあったようなハイテクな機材は、理論的には必要ないということになります。音響効果を作るためのフィジカル・モデルは、デジタルの世界では数学的なa×bで簡単に作れてしまうわけです。(こちらは、以前投稿したMaxMSPのチュートリアル動画を見ていただければある程度直感的にお分かりいただけると思います。)

そんなこんなで、今では誰でもその気になれば自前のパソコンで音楽を作ってプロデュースまですることができる、"ラップトップ・ミュージック"の時代が到来しました。マシンの性能は年々上がり、今では「ラップトップ」どころか、iPadですらDAWの基本機能は動かすことができるようになりました。さらに、これまでのスタンダードだった44,100Hzと48,000Hzに加えて、96,000Hzなんかも、音楽プロダクションにおけるサンプリングレートの選択肢の一つになりました。

テクノロジーを作るひと、使うひと、使わせるひと

しかしそもそも、サンプリングレートをより高く設定する理由とはなんなのでしょうか？「より精度の高い音のために」と説明しましたが、いったいなんの精度が上がるのか？そしてそれはどのように私たちがそのレコーディングを聞いた印象に影響するのでしょうか？

そもそもなぜ44,100Hzがスタンダードなサンプリングレートだったかと言えば、いくつか理由はありますが、まず前提となる理屈として、人間の耳の可聴域はおよそ20,000Hz付近にあります。細かい説明は省きますが、人間の知覚機能は、設定されたサンプリングレートの半分の値までの周波数しか、正しく認識することができません。例えば44,100Hzでレコーディングされた音では、22,050Hzまでの音は正しく高さを聞き取ることができますが、それ以上の音はその周波数地点から折り返されるように低くなって聞こえます。(走行中の車の車輪が逆回転して見えるのと同じような原理です。詳しく知りたい方はnyquist frequencyを調べてみてください) しかしそもそも私たちの耳は、生物として20,000Hz以上の音を聞き取ることができないので、44,100Hzという値は、可聴域の音をカバーするために十分なサンプリングレートとなるわけです。

理論的には、より高いサンプリングレートを設定すれば、それまでの録音では再現しきれていなかった音のディテイルを再現することができるようになるはず。最終的には私の感覚的な説明、「より高い解像度」という説明に逆戻りするわけです。しかし、実際には、普段からよほど良いリスニング環境で音源を聞いている人でもなければ、44,100Hzと48,000Hzの違いに気が付く人は少ないでしょう。（格付けチェックに、ぜひ笑）私も、良いスピーカーやヘッドフォンでちゃんと聞き比べればわかる自信はありますが、いきなり質問されても答えられないと思います。私が思う、より高いサンプリングレートを使う理由は、どんなささやかな「ミス」も制作の段階で聞き漏らさないようにすること。特に今は、出回った音源がどんな再生環境で再生されるかわからないわけですから、制作段階ではより高い解像度の中で作業するのは理にかなっていると思います。

しかしその一方で、ネットに出回っているDTMのチュートリアル記事なんかを見ていると、「高いサンプリングレート」＝「良い音質」みたいな書き方をよく見かけます。厳密に言えば、サンプリングレートと音質は別の話ですから、アカデミックな立場から言えばその時点でまるっきり嘘なわけです。でも、実際サンプリングレートと音質が関係しているように思うのもわかりますから、そこは良いことにしても、まだ何も知らない初心者の人に「とりあえず高めに設定しておけばいいよ！」と教えてしまうのは如何なものでしょうか。

例えばですけど、レコードというものがありますよね。レコードはしばしば音質が良い、CDの音源に比べて暖かみがあると言いますが、実際にはハードの技術的な限界で、レコードで再生されている音は高周波数帯が弱いです。例えばDAWで、レコード風の音にするプラグイン（WavesのAbbey Roadとか）なんかを使って周波数をモニタリングしてみると、レコードからなる音がどんな風に聞こえているのか、ある程度わかると思います。「適切なサンプリングレート」というものは目的次第で変わりますし、「良い音質」＝「良い音」というわけでもない。だから、知識と経験を求める姿勢が、家庭で音楽を作る時にも、あるべきだと思います。

ミキシングにまつわる"How to"

またそんなチュートリアルでよくあるのが、ミキシング作業のあれこれを"How to"形式で紹介しているもの。例えば、①EQをかけよう ②コンプレッサーで音づくり ③最後に音圧調整、みたいな感じです。それ自体は何も間違っていないし、ミキシングにおいて重要な技術ではあるのですが、私個人としては、ここでももうちょっと丁寧に考えたくて、例えばこのチュートリアルで言っている帯域をダブらせないためのEQと、リバーブの前後にかけるEQでは、意図が違います。意図が違うということは、当然EQに関する考え方も変わってくるはず。もしconvolution reverbを使っているのであれば、リバーブをかける音とかけられる音、という概念が存在していて、それぞれの音に共通する周波数帯が強調されることになり、逆に共有しない周波数帯は打ち消されることになります。だから、同じ種類のリバーブを使っていても周波数帯や音の性格によってかかるリバーブの結果が異なり、そのために必要なリバーブ成分と不必要な周波数帯を判断する必要が出てくるわけです。
そして、こうしてできる「リバーブ後」の音を完成品として意識するのであれば、周波数帯をダブらせないためのEQが、本来作りたい音の邪魔になってしまうこともあり得るのです。そもそも、本当に「ダブらない」音が、あなたが最終的に作りたい音像なのでしょうか？それはミキシングの基本ではあるのですが、例えばオーケストラがバイオリンとフルートの音を重ねるように、ダブりそのものは悪ではなく、何ならあなたが求めているものかもしれない。そういう柔軟な思考が大事だと思います。

他にも色々思いつく例はあるのですが、とにかく言いたいことは、「とりあえずまずこれをやっとこう！」的なチュートリアルは、本来制作中にあなたが耳と頭で判断する・考える・トライ＆エラーすべきプロセスを蔑ろにしてしまうのではないか、ということです。もちろん、これからDAWやDTMを始めてみようという人にとっては、こうしたガイドラインが大きな助けになることは重々承知しています。ただ、作品の数・アーティストの数だけ正解が異なるように、オーディオエンジニアの世界に答えはないということ、そして知識というものはあなたに「答え」を与えるのではなく、考える材料を与えてくれるものであるべきだということを、お伝えしたいのです。だからこそ、たくさん数をこなして経験を積んでいくことで上達していくし（当たり前か）、それと同時に、音の世界の理論だって勉強するべきなのではないでしょうか。例え家庭で完結するものであっても、オーディオエンジニアは職人であり、そして知識に貪欲であってほしいのです。

"How to"の先にあるもの

聴覚というものに「深度」があるということを少し書きました。嗅覚とかもそうですけど、私たちは特定の音に対して、何かしらの印象を紐づけています。長三和音が嬉しい、短三和音が悲しいとかもそうですが、音色のレベルでも、オルゴールの音を聞くと懐かしい気持ちになったり、シンセサイザーを聞くとポップなイメージを想起したり、トランペットを聞くとジャズを思い出したり（このあたりはその人の経験によって変わってくるとは思います）、そういうやつです。音響心理学という研究もありますけど、音と心、記憶というものには何かしらの結びつきがあります。

音楽のチュートリアル（今回はDAWについて書いてますが、作曲もそうですね）について、その意図・意義を理解しつつそれでも抵抗感を感じるのは、こうしたHow toの行き着く先にあるものが、均一化された音作りではないだろうかと思うからです。そこまで言うと少し大袈裟にはなってしまいますが、強調されるベース、年々上がっていく音圧、キラキラしたピアノ、そうした"整えられた"音がありふれていくことに、言い表せぬ違和感を感じています。「こうすると音が良くなる」というHow toの積み重ね、それが流行りだよとか、音楽も最終的にはビジネスだからと言われればそれまでですが、音響心理の観点から言って、均一化された音から生まれるものは均一化された印象・効果なのではないだろうか。そしてそれを心地よいと思ってしまう私も含めたオーディエンスだって、もっと色々な音・音楽の可能性を"聴こう"としてみるべきなのではないだろうか。音の世界を、好奇心なしに0 or 100で判断することで、音楽のアートとしての側面は奪われ、そして好奇心だけある人がこれから培うはずの"耳"を、チュートリアルが奪ってしまう。テクノロジーの進化は素晴らしい、でも音作りに関わるのなら、心持ちだけは古臭くありたい、そう思うのでした。

最後に、最近のお気に入りの素晴らしい"弾いてみた"動画を貼っておきます。プロフェッショナルなマイクはないし、部屋鳴りのエコーもひどくて、ノイズもがっつり乗っていますが、とっても良い音が録れているレコーディングだと思います。

今回はここまで！自分はオーディオエンジニアのプロでもないですが、単純に思っていることをつらつら書かせていただきました。読んでくださってありがとうございます:)

この記事が気に入ったらサポートをしてみませんか？