あなたの「もしもし」がデジタルデータに変換される！VoIPのA/D変換

2024年3月7日 12:00

「自分の声って、どうやってデジタルデータになるんだっけ？」

はい、こんにちは！松井真也です。シリーズ「音声通話で世界とつながる：VoIP超入門」第５回であり、最終回です！

前回は、リアルタイムで音声データを伝送させるためのプロトコル「RTP」をご紹介しました。シーケンス番号やタイムスタンプの情報が含まれるRTPヘッダを音声パケットに追加してデータの順序を維持するのでした。またRTCPは、RTPの機能を補足して、通信の監視や速度制御などを行うのでした。

さて、今回は、VoIPにおける符号化（コーデック）、即ちアナログ・デジタル変換（A/D変換）です。私たちが喉から発する音声は、アナログ波です。切れ目がございません。しかし、このままでは、TCP/IP上では取り扱えません。ですから、音声情報をデジタル化しないといけませんね。果たしてそれはどう行われるんでしょうか？

さっそく見ていきましょう！

あなたの「もしもし」をデジタルに

VoIP技術を構成する技術は、シグナリングプロトコルSIP、リアルタイム伝送プロトコルRTPなどがありますが、もう一つ重要なものの一つが、この「音声のデジタル化」です。

アナログ音声をデジタルデータに変換することで、インターネット上で音声を効率良く、そしてクリアに伝送できます！

このプロセスは大きく分けて「標本化」「量子化」「符号化」という三つから成り立っています。「符号化」というと、これらの３つプロセスすべてを表すこともありますし、最後のプロセスだけを指すこともあります。文脈で判断しましょう。

というか、データ形式変換を一般に符号化（エンコード）と呼ぶこともありますね…。ややこしい。

では、順番にこれらのプロセスを紹介しましょう！

１．標本化：データの切り出し

「標本化」（サンプリング）はこの変換プロセスの第一歩です。

ここでは、連続するアナログ音声信号を一定の時間間隔で切り取ります。この「一定の時間間隔」というのが重要がポイントですよ。

「1秒間に取り出すサンプル数」は、「サンプリング周波数」で表されます。例えば、8kHzなら、1秒間に8000回のサンプリングを行います。周波数が大きいほどデータは大きくなります。

音声波形と時間軸に沿って区切った線が重なった地点のことを「標本点」といいます。

２．量子化：アナログを数値に変換

さて、標本化で得られた標本点をどうするか、その次が「量子化」のステップです。

量子化では、標本点を特定の範囲の数値に割り当てます。この数値をどれくらいの細かさで表現するかが、「量子化ビット数」です。

例えば、8ビットであれば、2の8乗とおり、すなわり256段階で信号の振れ幅を表現することができるわけです。

問題は、量子化ビット数は音質に直結することです。値が高ければ高いほど、原音に忠実な再生が可能になりますが、その分データ量が増えるというトレードオフになります…。

３．符号化：データを効率的に圧縮

最後に「符号化」のステージがあります！

ここでは、量子化で得られた数値をさらに圧縮し、効率的な伝送を可能にします。

圧縮方式には、例えば、G.711とG.729があります。他の規格（G.722など）もありますが、代表格の２つを押さえておきましょう。

G.711とG.729はVoIPで使用される二つの主要な符号化方式で、それぞれ特有の利点があります。G.711は音声の品質を最優先する場合に適しており、G.729は帯域幅が限られている環境で有効です。

G.711は、64Kbpsのビットレートを使用し、高品質の音声通話を提供します。ただ、帯域幅をかなり消費します。一方、G.729は、8Kbpsのビットレートでデータをより積極的に圧縮し、音声通話の品質を若干犠牲にしつつも、帯域幅を節約します。

求められる通話品質、ネットワークの帯域幅、および同時通話の量などなどを考慮して、符号化方式を選ぶことになります。

はい、本日はここまで！今回は、VoIPで行われるアナログ・デジタル変換についてご紹介しました。符号化の３つのプロセスの復習みたいな形になりましたけど、記憶がリフレッシュされました！

以上でVoIPシリーズは終了です。次回からは、、、ネットワーク管理技術syslogとSNMPをご紹介する予定です。

では！

この記事が気に入ったらサポートをしてみませんか？