見出し画像

あなたの「もしもし」がデジタルデータに変換される!VoIPのA/D変換

「自分の声って、どうやってデジタルデータになるんだっけ?」

はい、こんにちは!松井真也です。シリーズ「音声通話で世界とつながる:VoIP超入門」第5回であり、最終回です!

前回は、リアルタイムで音声データを伝送させるためのプロトコル「RTP」をご紹介しました。シーケンス番号やタイムスタンプの情報が含まれるRTPヘッダを音声パケットに追加してデータの順序を維持するのでした。またRTCPは、RTPの機能を補足して、通信の監視や速度制御などを行うのでした。

さて、今回は、VoIPにおける符号化(コーデック)、即ちアナログ・デジタル変換(A/D変換)です。私たちが喉から発する音声は、アナログ波です。切れ目がございません。しかし、このままでは、TCP/IP上では取り扱えません。ですから、音声情報をデジタル化しないといけませんね。果たしてそれはどう行われるんでしょうか?

さっそく見ていきましょう!

あなたの「もしもし」をデジタルに

VoIP技術を構成する技術は、シグナリングプロトコルSIP、リアルタイム伝送プロトコルRTPなどがありますが、もう一つ重要なものの一つが、この「音声のデジタル化」です。

アナログ音声をデジタルデータに変換することで、インターネット上で音声を効率良く、そしてクリアに伝送できます!

このプロセスは大きく分けて「標本化」「量子化」「符号化」という三つから成り立っています。「符号化」というと、これらの3つプロセスすべてを表すこともありますし、最後のプロセスだけを指すこともあります。文脈で判断しましょう。

というか、データ形式変換を一般に符号化(エンコード)と呼ぶこともありますね…。ややこしい。

では、順番にこれらのプロセスを紹介しましょう!

1.標本化:データの切り出し

「標本化」(サンプリング)はこの変換プロセスの第一歩です。

ここでは、連続するアナログ音声信号を一定の時間間隔で切り取ります。この「一定の時間間隔」というのが重要がポイントですよ。

「1秒間に取り出すサンプル数」は、「サンプリング周波数」で表されます。例えば、8kHzなら、1秒間に8000回のサンプリングを行います。周波数が大きいほどデータは大きくなります。

音声波形と時間軸に沿って区切った線が重なった地点のことを「標本点」といいます。

2.量子化:アナログを数値に変換

さて、標本化で得られた標本点をどうするか、その次が「量子化」のステップです。

量子化では、標本点を特定の範囲の数値に割り当てます。この数値をどれくらいの細かさで表現するかが、「量子化ビット数」です。

例えば、8ビットであれば、2の8乗とおり、すなわり256段階で信号の振れ幅を表現することができるわけです。

問題は、量子化ビット数は音質に直結することです。値が高ければ高いほど、原音に忠実な再生が可能になりますが、その分データ量が増えるというトレードオフになります…。


3.符号化:データを効率的に圧縮

最後に「符号化」のステージがあります!

ここでは、量子化で得られた数値をさらに圧縮し、効率的な伝送を可能にします。

圧縮方式には、例えば、G.711とG.729があります。他の規格(G.722など)もありますが、代表格の2つを押さえておきましょう。

G.711とG.729はVoIPで使用される二つの主要な符号化方式で、それぞれ特有の利点があります。G.711は音声の品質を最優先する場合に適しており、G.729は帯域幅が限られている環境で有効です。

G.711は、64Kbpsのビットレートを使用し、高品質の音声通話を提供します。ただ、帯域幅をかなり消費します。一方、G.729は、8Kbpsのビットレートでデータをより積極的に圧縮し、音声通話の品質を若干犠牲にしつつも、帯域幅を節約します。

求められる通話品質、ネットワークの帯域幅、および同時通話の量などなどを考慮して、符号化方式を選ぶことになります。


はい、本日はここまで!今回は、VoIPで行われるアナログ・デジタル変換についてご紹介しました。符号化の3つのプロセスの復習みたいな形になりましたけど、記憶がリフレッシュされました!


以上でVoIPシリーズは終了です。次回からは、、、ネットワーク管理技術syslogとSNMPをご紹介する予定です。

では!

この記事が気に入ったらサポートをしてみませんか?