スマホで良い音を聴くはなし【前編】

鶴沢宗文

2024年5月13日 12:30

今回の電脳随想録は趣味の話題、ハマるとディープなオーディオのお話です。

「オーディオ沼」という言葉があるのですが、自宅の音楽鑑賞環境に高級車１台では済まない金額を掛けるものの満足行かず、底なし沼的にハマって散財していくという、周囲は引くものの本人は楽しそうという趣味がオーディオです。

デジタルオーディオ技術とスマートホンの進歩により、高価な再生システムを買わなくても「良い音」を手軽に楽しむことができるようになりました。

ただし、スマホで曲を聴くときに、「ロスレス」とか「ハイレゾ」といった言葉が表示されても、その意味が分からなければ、どんな良いことがあるのかや、どこにお金をかければ音が良くなるのかが分からないですよね。

そこで今回は長年デジタルオーディオに散財してきた私が「スマホで良い音を聴く」ための基本的な原理や仕組みを説明していきたいと思います。

前編では人の耳と音の関係とデジタルオーディオの録音の仕組みを説明します。
後編ではデジタル・オーディオの再生の仕組みや種類について説明します。

好きな音楽ジャンルや音の好みは人それぞれですので、この記事では特定のデバイスのランキングや予算別の組み合わせなどは紹介しません。

ただし、記事を最後まで読んで頂ければ、どのように選べば良いかが分かるように書いていますので、良い音で聴きたいと思ったときに、ネット記事を読んだり販売店で試聴する時の基本情報として参考にして頂けたら嬉しく思います。

また音楽デュオ・コブクロのお二人が自身のYoutubeチャンネルで本記事でご紹介する様々なデバイスの聴き比べをしていますので後編の文末にリンクを貼ってます。（彼らのトークはビックリするほど面白いですね！）

「良い音で聴く」とはどういうことか？

人が生音を直接耳で聴くという行為を電気的に再現する場合、①音を電気信号にするパート、②音を記録するパート、そして③音を再生するパートの３つに分かれます。

レコードやCDなどの音源を購入したり配信サービスを利用する場合には、①と②は音源という形で準備されています。

自分でSACD（スーパーオーディオCD）などの高品質音源を用意しなくても現在はApple MusicとAmazon music HDがロスレスオーディオ、ハイレゾリューション（ハイレゾ）オーディオというカテゴリーの「良い音」を配信しています。

人間が耳で「音」として認識できる、言い換えると音の高さが分かる周波数は20Hzから20kHz位、この領域の音を「可聴音」、聞こえないほど高い音を「超音波」、低い音を「超低周波音」と呼びます。

25kHzとか30kHz、また10Hzなどの周波数の音は可聴域ではないので音程を判別することはできませんが感じることはできるのです。ここがハイレゾの良さを理解するポイントです。

図１は人の耳の可聴域と耳に届く音源の周波数範囲を比較したものです。人の声や楽器は一番高い音の周波数よりも高い周波数に倍音と書いてあります。この倍音は音程を決める周波数と同時に振動することで音の特色を決めています。

人と電話で話すと音がこもって聞こえたり本当に本人かな？という声で聞こえた経験があると思いますが、それはこの倍音がカットされてしまうためです。

また固定電話よりもスマートホンで通話した方がクリアな音に聞こえるのは、より高い周波数の領域を再現できるためです。また最新のスマートホンでは周囲の雑音を低減して人の声をより聞こえやすくする仕組みを備えている製品もあり、更に明瞭な通話が可能です。

この人間の可聴域（20Hzから20kHz程度）が再生できるのが普通のオーディオシステム、両側の「超低周波音」と「超音波」の領域も再生できるのがハイレゾリューションオーディオシステムです。

この違いを文字で表現するのは難しく感覚的な例えになってしまいますが、標準音源とハイレゾ音源の再生音の差を比較すると、カーテンの向こう側の演奏を聞いているか、何も遮るものがなくなって直接聞いている、といった差を感じることが出来ます。

音をデジタルで記録する

次に「ロスレスオーディオ」と「ハイレゾオーディオ」の理解の基礎となる音のデジタル化について説明します。音楽をデジタルデータに変換する際に重要な概念は、音の標本化、量子化、そして符号化です

音の標本化（Sampling）
音は時間的に連続的な波形で表されますが、デジタル化するためには一定の間隔で音の振幅を観測・記録します。サンプリングレート（サンプリング周波数）は、1秒間に取られるサンプルの数を示し、一般的なコンパクトディスク（CD）音質では44.1 kHz（44,100サンプル/秒）が使われます。

これは前述の人間の可聴域20kHzの2倍以上という要件（ナイキスト-シャノンのサンプリング定理）で決まっています。このサンプリングレートが高いほど原音を正確に再現できます。

量子化（Quantization）
量子化は、標本化した音の振幅を表す数値を一定のレベルで丸めるプロセスです。この値はビット深度と表現され、CD音質では16ビットを使います。ビット深度が高いほど、音の細かな振幅差を表現でき、音質が向上します。

符号化（Encoding）
符号化は、サンプリングと量子化されたデータを効率的に圧縮するための符号化アルゴリズムでデジタルフォーマットに変換するプロセスです。これにより、音声データが特定のファイル形式（FLAC、ALAC、MP3等）で保存され、データの配信や再生することが可能になります。

CD品質を決める条件のことをCD スペックと呼びますが、定義上は44.1kHzのサンプリングレートだけでなくDVD などで使用される「 48kHz サンプリング、16bit 量子化」のディジタルオーディオもCDスペックと呼びます。このCDスペックで保存されたオーディオデータを「ロスレスオーディオ」と呼びます。

ロスレスオーディオのデジタルデータの転送に必要なビットレート（bps）は、サンプリングレートとビット深度を用いて下記のように計算します。

ビットレート=サンプリングレート×ビット深度×チャンネル数

CDの場合のビットレートの計算例：
　　サンプリングレート：CD音質の場合は44.1 kHz（＝44,100 回／秒）
　　ビット深度：CD音質の場合は16ビット
　　チャンネル数：ステレオ音声の場合チャンネル数は2

従って、CD品質の音楽を連続再生するために必要なビットレートは下記の式から約1.4Mbpsとなります。

ビットレート=44,100×16×2=1,411,200 bps（約1.4Mbps）

このビットレートで演奏時間分のデータをまとめたものがロスレス音源の音楽データファイルとなります。

ハイレゾオーディオのスペックはJEITA（電子情報技術産業協会）が規定しており、「サンプリング周波数、量子化 bit 数のいずれかが CD スペックを超えていればハイレゾオーディオとする。但しいずれかが CD スペックを超えていても、もう一方が CD スペック未満の場合は、非該当とする。」とされています。

ハイレゾ・オーディオの呼称について（２５ＪＥＩＴＡ－ＣＰ第４２号）

（例）
①48kHz/24bit →（CD スペック同等/CD スペック超）→ ハイレゾオーディオ
②96kHz/16bit →（CD スペック超/CD スペック同等）→ ハイレゾオーディオ
③96kHz/24bit →（CD スペック超/CD スペック超） → ハイレゾオーディオ
④48kHz/16bit →（CD スペック同等/CD スペック同等）→ ハイレゾ非該当
⑤96kHz/12bit →（CD スペック超/CD スペック未満）→ ハイレゾ非該当
⑥32kHz/24bit →（CD スペック未満/CD スペック超）→ ハイレゾ非該当

図３に標本化と量子化におけるロスレスオーディオとハイレゾオーディオの関係を示しました。サンプリングレートが44.1k/48kHzより高く、ビット深度も16bit以上のデータをハイレゾと呼びますが、サンプリングレートについてはプロセッサの高度化に伴い384kHz, 768kHzなど、より高周期の技術が出てきています。

実際にハイレゾデータを音源として記録する音源ファイルにはいくつかのフォーマットが存在します。

FLAC（Free Lossless Audio Codec）:
　特徴: FLACは非可逆圧縮フォーマットでありながら、圧縮率が高く、元の音質を損なわずにデータを圧縮します。オープンソースであるためハイレゾ音源の記録・再生に広く使われています。

ALAC（Apple Lossless Audio Codec）:
　特徴: Appleが開発した非可逆圧縮フォーマットで、CD音質と同等の音質を保ちつつデータを圧縮します。Apple製品やiTunesで利用されます。

WAV（Waveform Audio File Format）:
　特徴: WAVは非圧縮フォーマットであり、音質を損なうことなく音声データを保存します。幅広いデバイスでサポートされており、高音質な再生を提供します。

これらのフォーマットで記録された音楽データがハイレゾ音源、またCDスペックのデータファイルがロスレス音源となります。ロスレス音源データをMP3やAACなどの非可逆圧縮コーデックでデータサイズを小さくしたファイルをここでは標準音源と呼びます。（図４を参照）

こうして完成した音楽ファイルが音楽配信サービスの音源となり、「ロスレス」「ハイレゾロスレス」などと楽曲名の下に表示されている高品質表記の中身となります。

サンプリングレートが高いほど、より広い周波数レンジと細かい音のニュアンスを捉えることができ、また高いビット深度は音声データの精度を向上させて細かな音の表現が可能になるため、歌声や楽器演奏がよりリアルに再現されます。

つづく

今回の前編では人の耳と音の関係とデジタルオーディオの録音の仕組みを説明しました。後編ではデジタル・オーディオの再生の仕組みや種類について説明します。

最後までお読み頂きありがとうございました。

この記事が参加している募集

新生活をたのしく

45,772件

この記事が気に入ったらサポートをしてみませんか？