サンプリングレートコンバータの実験

なんだかわかりませんね。今度は一体何をしようというのでしょうか?

サンプリングレート

サンプリングレート、というのは、いろいろな場所で使われる「アナログ量をデジタルで測るときに『1秒に何回測るのか』の回数」で、周波数で表します。

この実験は「オーディオ」つまり「音」なので、たとえばCDや配信やYouTubeにうpするために収録する際、音をマイクなどでひろってそれをデジタル化するわけですが、その時の「測る回数」です。

CDは44.1KHz つまり一秒に44,100回、音の大きさを測って、16bitつまり65536段階で表します。映像系の場合(ビデオカメラなど)は、48KHz(48,000回)であることが多いです。

一般的に音のサンプリングは、サンプリングレートの半分弱の周波数(ナイキスト周波数といいます)まで取り込むことが可能なので、44.1KHzだと20KHz、つまり可聴域とされている周波数をほぼカバーします。映像系が48KHzはいろいろ技術の歴史的な理由です。

このくらいカバーしておけばだいじょうぶだろ、ということで、いろんな実験の結果と、その当時の技術的な水準を考えてこの値になっているわけですが、CDがでてしばらく経ってから、人間の耳って実はもっと聴こえるのじゃないか?という意見、それに実験結果もでてきて、もっと高い周波数(=高いサンプリングレート)で測る・サンプリングした音源もでてきました。

それが、

ハイレゾ

です。high resolution つまり高解像度ということですね。

48KHzもハイレゾに入ってしまっているのでちょっとややこしいのですが、一般的には 96KHz とか、192KHz とか、さらにその倍、4倍、というサンプリングレートでサンプリングされた・制作されたものを指します。

またサンプリングする際の「細かさ」つまり bit数も、16ビットから24ビットになっていることが多いです。24ビットだと65536段階から1677万ちょっとの「細かさ」になります。それだけ滑らかに音の変化を記録できるわけです。

つまり、今の時点で、世の中にはすでに

- 44.1KHz / 16bit サンプリングの CD
- 48KHz / 16bit または 24bit サンプリングの映像系データ
- 96KHz / 192KHz / 384KHz / 768KHz(少数です)で 24bit サンプリングの「ハイレゾ」音源(主にオンライン販売です。最近はストリーミングもあります)
- それ以外の、それぞれちょっと特殊用途の音声データ

が存在するということです。

PC/Macや最近のスマホなどでは、もともと再生できる44.1KHz / 48KHzのほかのデータも「サンプリングレートを変更して」再生できるものが多いです。PCは"HD Audio"となっているものはハイレゾのまま変換せずに再生できます。(最近のMacもかな?)

コンバーター=変換器

この「サンプリングレートを変換する」ことができる機械が「サンプリングレートコンバータ」です。PC/Macの場合はそれをソフトウェア的に処理する場合がほとんどですが、この機械を使うとハードウェアで処理してくれます。ハードウェアで処理してくれることの利点は、システムの処理が忙しくなってCPU時間やメモリが足りなくなった時に「端折られたり、飛ばされたり」することがない、確実に処理してくれる、ということです。まあ今時のPCなら、この程度の処理で問題が出ることはとても少ないんですが。

あまりたくさんではない半導体メーカーが、この半導体一つでサンプリングレートを変換してくれるものを出しているのですが、その中の一つが、最近ハイレゾや業務用(スタジオ用など)のオーディオ系半導体で大きなシェアを持っている旭化成エレクトロニクスです。なんと日本のメーカーなんですね。

で、彼らが満を持してリリースしたのが

AK4137EQ

というサンプリングレートコンバータです。

なぜわざわざ作るのか?

この「サンプリングレートコンバータ」、単体の製品となっているのは実はほとんどなくて、わたしが知る限りこれが唯一なんですが、

(メーカーのサイトよりサウンドハウスさんの紹介の方がわかりやすいので..w)

なのに、なぜわざわざ作るのか。それは↑の製品がもう製造中止になってしまっているから、でもあります。便利なのにね。ただ96KHzまでの対応で、ちょっと古さは否めないかな。中には旭化成の少し前のバージョンのサンプリングレートコンバータ半導体が入っていました、確か。

作ってみよう

AK4137 については、例によって「お気楽オーディオ」さんがキットにしてくれています。

まあキットと言っても、基板と、主となる半導体、それに制御できるマイコンがセットとなっているだけで、そのほかの部品は自分で調達しなければなりません。その半導体も単に同梱されているだけなので、なかなかはんだ付けだけでも大変なのですが、でも回路から起こした基板や制御ソフトウェアがセットになっているのはほんとにありがたいです。

で、ちょっとはんだ付けに苦労しつつw 出来上がったので実験してみました。入力はPCのデジタル音声出力を光ファイバケーブルでつなぎ、出力には手元にあった超簡単DAコンバーター(デジタルデータからアナログ音声への変換器) PCM5102A をつなげてみました。そこからヘッドフォンアンプにつないでいます。

この PCM5102A という製品もとても優れもので、これだけで note 一本書けそうですがw それはまたの機会に。とても使いやすい DAコンバータなので、おそらく知らず知らずのうちに「持ってる」人も多いはず。

画像1

早速、PCからSpotifyでお気に入りの楽曲を48KHzで再生して、それを96KHzに変換して出力してみています。

面白いのは、この「サンプリングレート」を変換するだけで音が変わることです。

まあ技術的にはいろいろ理由があるのですが、ちょっとこれは実際に聞いてみてもらわないとなかなか説明がしづらい。

ただよくなったり、わるくなったり、というかよくなる点もあれば、悪くなる点もあるところがちょっと面白いですね。

それも、96KHzへの変換と、

画像2

384KHzへの変換でも差が出るのが面白い。面白すぎる。

音が変わる。それだけ?

で、実はここまでは前置きです。なんと!w

このサンプリングレートコンバータのもう一つの特徴は、

非同期

であるということです。うーん、難しいですね。なにそれ?非同期息切れ?

サンプリングのためには、「クロック」という、一定のかつ正確な間隔でのパルスが必要です。これは Texas Instruments の ADコンバーター、PCM4202 のデータシートから借用した図ですが、

画像3

このうち、LRCKI というのがサンプリングクロック(= fs = 48KHz)とか、で、実際のサンプリング時にはこれに加えてそれを64倍したビットクロックというのが必要で(ほんとはもう一つ必要なのですがここでは省きます)、それがBCKIです。そのタイミングで「測られた」アナログ量が、DATAとなって出力されています。

つまり、デジタルデータとして音声データを出力する場合、

このクロックのタイミングでデータが出力される

ということです。

ん?何が問題?

なかなか説明が難しいのですが、このデジタルデータを普通に「再生」するときは特に問題になりません。

問題は、同じようにアナログ量をサンプリングしたデータと

同期

させたいとき、です。

さあ、「同期」という言葉がようやく出て来ましたw。

二つの出力元があるデジタルデータを、一緒にがっちゃんこして出力したいとき、このクロックがずれていると、正しいデータにならない。

のです。つまり、サンプリングする周期(サンプリングレート)とともに、その測り始めるタイミング、間隔も一緒にしないと、どんどんずれてしまったり、音の場合は位相というものがあって合算したときに「消えて」しまったりすることが実際に起きます。

そして、2つのデジタルデータを一緒にする機会は実は頻繁にやってきます。

そう、映像と音声をくっつけて収録・配信したいとき、です。

この二つがひとつの同じ機械で処理されているとき、つまりビデオカメラやデジタル一眼などで映像・音声を同時に収録しているときは、同じクロック発生源を使うので問題になりません。問題になるのは、ビデオカメラで撮った映像データと、外部のADコンバーターで収録した音声データを「会わせて一つのものにする」時に

ずれたり、最悪途切れたり

ということが起きます。

人間の「目」は騙されやすいので、例えば1/30にひとコマづつ撮っていて、ひとコマぐらい「飛んで」もわかりません。ところが、音の場合とくに音楽の場合は1/30秒途切れるとすぐわかっちゃいますし、最悪「ノイズ」になったりします。プチ、とかズザッ、とかで聞こえたりします。

で、カメラ1台で収録していればまだいいのですが、複数台カメラを用意して、最近激安になってきた「スイッチャー」を使って切り替えたりした映像に、別にアナログ・デジタル変換した音声を「くっつける(=embed /エンベッド)」するとなると、さあどうすればいいのか。

そこで出てくるのがこの「非同期サンプリングレートコンバーター」なのです。この非同期機能を使うと、例えば映像出力からクロックを別に生成して、そのクロックに新たに同期させて音声データを出力させることができます。クロックの「挿げ替え」ですねw。挿げ替えたデータなら、映像データとがっちゃんこすることができます。

ということで、これも実は、地球規模の「同期」をもくろむ #earthMetronome の一部である、ということでございます。ちゃんちゃん(古い)

じゃあどのように使うのか

では、実際にはどう使うのか。とここまで書いたところでちょうど4,000字。待て次号w


サポート Welcome! いただいたサポートは今後の研究開発や寄付に使わせていただきます。