【音のデジタルデータ化】波を0と1で表現するって何！？

2022年8月5日 17:12

こんにちは！PLEN Robotics の秋山です。

実は今カナダに留学に来ており、なかなか記事が書けませんでした…！
その間は鈴木さんが頑張って更新してくれていましたので、そちらも記事もぜひご覧くださいね♪

本日は音声データのデジタル化について書いていきたいと思います。

突然ですが皆さん。
画像データと音声データの違いはわかりますか？「目で見るもの」と「耳で聞くもの」という違いがありますが、具体的に何が違うのでしょう？
今回はこの違いも踏まえて説明していきます！

サンプリング

まずアナログデータのデジタル化の手順は音声であれ、画像であれ同じなんです。
サンプリング・量子化・コード化の手順です。

空気の振動というのは「波」です。波の要素は音の大きさ、振幅と音の高さ、周波数に分けることができます。

サンプリング（標本化）とは…
波形のアナログ信号から一定の時間感覚（サンプリング周波数）で音声データを区切り、信号を抽出することです。

この時間感覚はサンプリング周波数と呼ばれます。1秒間に１回データを取ることを1Hzと言います。あ、やっと何か聞いたことのあるワードが出てきましたね（笑）

ちなみに、YouTube動画の音声データのサンプリング周波数は22.05kHzだそうです。人間の耳の可聴域の上限は20kHzなので、ほぼ問題なく音声を再現できていることになります。
（電話は8kHz）

量子化とは、サンプリングで採取されたデータを数値化することです。
サンプリングで時間ごとに区切られた音声はまだアナログデータです。これを進行方向に区切ることが量子化なんです。

専門的に言うと、連続量であるアナログ信号を整数など離散値で近似的に表現することです。（む、難しい…！）

数値の大きさは量子化ビット数と呼ばれます。CDの量子化ビット数は16bit。つまり２進数で16桁になります。ハイレゾ音源だと24bitになります。

最後はコード化です。

コード化とは…
量子化により求められた値を0と1の2進数に変換することを言います。

参考程度に計算方法を書いておきます。（使う人いるかな？？）

サンプリング周波数：44,100Hz
量子化ビット数：16
チャンネル数：2だとすると、
44,100Hz×16bit×2ch = 1,411,200bit/秒 =176,400byte/秒になります…。

コード化の方法にはPCM、ADPCM、CELPなどがあります。音響の世界でよく用いられるPCM（Pulse Code Modulation）は量子化データを8ビットの2進数に変換します。PCMは波形データを圧縮しない形式なんです。

一見難しく見えますが、音声データは時間、サンプリング周波数、量子化ビット数等を掛け算しているだけなんです。
サンプリング周波数や量子化ビット数を増やせば音質は良くなりますが、データの量が増えて、保存や処理が大変になってきます。

16ビットの音源を8ビットにすると金属的な雑音が入ってきますね。

コード化された音源を入れるファイルの形式をファイルフォーマットと言います。音声データをWindowsパソコンで扱うために作られたフォーマットがWAVです。MacはAIFFです。

WAVのファイルはデジタルデータをそのまま保存しているのでファイルサイズが大きくなります。5分くらいの音楽だと50MBくらいになります。写真で2,30枚。小説で100冊くらいです。
これではストレージの容量がだいぶとられるので、圧縮する必要が生じます。
このフォーマットがmp3です。

圧縮の技術は基本的にあまり必要のないデータを消すというものです。50MBくらいのものは5MB程度に圧縮されます。

どうでしたか？音声データについて学べたでしょうか！

こちらの記事を動画でわかりやすく説明しているものがこちらです。

いいねやフォロー、スキもお待ちしております！次回の記事も楽しみにしていてくださいね～！

#企業のnote

with note pro

12,591件