見出し画像

徹底解説!MPEG-H 3D Audio

ドイツのFraunhofer IISが開発し、「ISO/IEC Moving Picture Experts Group (MPEG)」によって国際標準化された次世代音声圧縮技術が「MPEG-H 3D Audio」(以下、MPEG-H 3DA)です。前身技術であるMP3やAACが、すっかり私たちのオーディオ生活に入り込んでいたのに対し、MPEG-H 3DAの認知度はまだそれほど高くありません。しかし、実は立体音響規格としてのポテンシャルは非常に高く、最新のSTBやAVアンプ、サウンドバーでサポートされることも珍しくなくなってきました。

今回はMPEG-H 3DAの技術や普及状況、更にLive Extremeでの対応状況についてご紹介します。


MPEG-H 3DAの技術解説

MPEG-H 3DAの構成

下図はMPEG-H 3DAデコーダーの構成を示しています。これを見ると明らかな通り、MPEG-H 3DAは以下の3つの立体音響技術を内包しており、自由に組み合わせて使用することができます。

  • チャンネル・ベース

  • オブジェクト・ベース

  • シーン・ベース(高次アンビソニックス)

MPEG-H 3DAのデコーダー構成

各レンダラーには、ターゲットとなる最終出力段のスピーカー・レイアウト情報が与えられており、それを元にチャンネルへのレンダリングとミキシングが行われます。例えば、エンコードされた信号が7.1.4ch信号であっても、再生環境が5.1chスピーカー・レイアウトであれば、「Format Converter / Channel Render」の中で5.1chにダウンミックスされて出力されます。また出力先がヘッドホンであれば、バイノーラルにレンダリングして出力することもできます。

オブジェクトのレンダリング

オブジェクトはモノラル音声と音源の3D空間座標・音量などのメタデータをセットにした特殊な信号です。通常は一人の声や一つの楽器が一つのオブジェクトとなります。従来は、このような信号(トラック)は制作時にミックス・ダウンされて、チャンネル・ベースで視聴者に届けられましたが、オブジェクト・ベース・オーディオでは、AVアンプやサウンドバー、TVなど視聴者の機材のなかでリアルタイムにレンダリングされることになります。これにより、視聴者のリスニング環境や好みに応じて、異なるミックスが提供可能となります。

オブジェクト・オーディオの概念
360 Walkmix Creator」のGUIより

視聴者の環境でレンダリングされるというオブジェクト・ベース・オーディオの特徴は、実は立体音響以外にも様々な応用が効きます。

  • アナウンサーのコメンタリーと背景音の音量バランスを変えて、聞き取りやすくする機能を提供する

  • アナウンサーのコメンタリーを複数の言語で提供する

  • 視覚障害者向けに音声ガイド(映像でしか伝わらない場面や登場人物の表情などの情報を逐一音声で解説)を提供する

このあたりは、次世代TV放送フォーマットとしては必要不可欠な機能とされています。

プロファイル

MPEG-H 3DAには、アルゴリズムの複雑さに応じて以下の3つのプロファイルが用意されています。

  • High Profile

  • Low Complexity Profile

  • Baseline Profile

このうち、既に実用化されているのは放送・ストリーミング用途の「Low Complexity Profile」と、その簡略版である「Baseline Profile」です。

もともとLow Complexity Profileは、放送やストリーミング向けにデコーダ負荷を軽減した符号化ツールセットとして2019年に規定されましたが、処理負荷の高い符号化ツールが残っていたため、より実用的で処理負荷を軽減したプロファイルが望まれていました。そこで翌年、Low Complexity Profileから高次アンビソニックス (HAO) と人声に特化した符号化ツール (TCX, ACELP) を除外したBaseline Profileが規定されました。

以降は特に断りのない限り、Baseline Profileに焦点を当てて解説していきます。

Baseline Profileのレベル

Baseline Profileは性能の違いにより、更に5つの「レベル」に分類されます。レベルが高い方がより高性能になっていきますが、現時点で市場に出ている製品(AVアンプやサウンドバー)のほぼ全てがLevel 3までの対応となっています。Level 3対応製品は、チャンネル・ベースでは7.1.4ch、オブジェクト・ベースでは24オブジェクトの再生が可能です。

Baseline Profileのレベルごとの性能の違い

MPEG-H 3DAの音質は?

音楽用フォーマットとして考えると、気になるのがその音質です。MPEG-H 3DAは、膨大なチャンネル数を伝送するために、ロッシーな圧縮を伴いますが、低ビットレートでも音質を担保するために最新の技術が取り入れられています。

音声の非可逆圧縮フォーマットというと「AAC (Advanced Audio Coding)」がよく知られています。これは、マスキング現象などにより人間の耳では聞こえにくくなる周波数成分を間引くことでデータを圧縮する手法で、1997年に規格化されました。

知覚符号化によるオーディオ圧縮の概念(左: 圧縮前、右: 圧縮後)
white croquis「デジタルオーディオの仕組み - 音声圧縮の原理 MP3, AAC, ATRAC, etc.」より

MPEG-H 3DA Baseline Profileの基本的なアルゴリズムもAACの系譜にありますが、AAC以降に標準化された以下の符号化ツールによって更なる高能率化を実現しています。

MPEG-H 3DA Baseline Profileのコア符号化器
ARIB「地上デジタル放送方式高度化に関わる適用技術検討作業 最終報告」より
  • IGF (Intelligent Gap Filling): HE-AACで採用されたSBR (Spectral Band Replication) の考え方を発展させた技術。低周波数領域の符号化スペクトルと補助情報を利用して高周波スペクトルを復元することができる。

IGFデコーダの高域復元処理
"Intelligent Gap Filling in Perceptual Transform Coding of Audio" より
  • MCT (Multichannel Coding Tool): マルチチャンネル信号の中で音源の特性に応じて最適なチャンネルペアを選択し、それぞれに最適なステレオ符号化処理を行う。オブジェクトの符号化にも有効。

以下はARIB(電波産業会)による主観評価実験結果を示していますが、これによると、MPEG-H 3DAはAACの半分のビットレートで同等の音質を実現していることが分かります。

放送品質を満足するビットレート(主観評価実験結果)
ARIB「音声符号化方式に関する 主観評価実験報告(中間報告)」より

360 Reality Audioとの関係

ソニーが2019年から提供している立体音響フォーマット360 Reality Audio」は、MPEG-H 3DA Baseline Profile (Level 3) に準拠していますが、以下のような制約があります。

  • 完全オブジェクト・ベース

  • 最大24オブジェクト

  • 1オブジェクトあたり64kbps

360 Reality Audioロゴ

360 Reality AudioはMPEG-H 3DAのサブセットに当たりますので、MPEG-H 3DAのデコーダーで360 Reality Audioコンテンツを再生することができます。例えば、MPEG-H 3DAに対応したFire TV StickとAVアンプを接続することで、「Amazon Music Unlimited」で配信されている360 Reality Audioコンテンツをマルチスピーカー再生することが可能です。

MPEG-H 3DAの普及状況

AVアンプ/サウンドバー

MPEG-H 3DAの開発元であるFraunhoferのウェブサイトに、MPEG-H 3DA Baseline Profile Level 3デコーダーを搭載し、Fraunhoferによって互換性の検証された製品のリストが掲載されています。Denon & Marantzの多くのAVアンプが対応しているほか、Sennheiserのサウンドバー(Ambeoシリーズ)も含まれています。

(左から)Marantz Cinema 50, Sennheiser Ambeo Plus

尚、本リストの "Performance Level" は、MPEG-Hのプロファイル・レベルではなく、Baseline Profile Level 3を更に細分化した指標であり、

  • P3: 16エレメント(オブジェクト/チャンネル)のデコードに対応

  • P4: 24オブジェクトのデコードまで対応(= 360 Reality Audioのデコードに対応)

していることを示しています。

STB(セットトップ・ボックス)

近年、MPEG-H 3DAのHDMIパススルーに対応したSTBが増えてきました。以下のSTBは、対応アプリをインストールし、MPEG-H 3DA対応のAVアンプ/サウンドバーと接続することで、MPEG-Hをスピーカー再生することが可能です。

  • Amazon Fire TVシリーズ

    • Fire TV Stick 4K Max (2nd Gen, 2023)

    • Fire TV Stick 4K (2nd Gen, 2023)

    • Fire TV Cube (3rd Gen, 2022)

  • Android TVデバイス

    • Chromecast with Google TV (HD, 2022)

    • Chromecast with Google TV (4K, 2020)

    • Nvidia Shield TV Pro (3rd Gen, 2019)

    • Nvidia Shield TV (3rd Gen, 2019)

(左から) Fire TV Stick, Chromecast with Google TV, Nvidia Shield TV

デジタルテレビ放送

2017年5月に開始された韓国の地上波4K放送では、MPEG-H 3DA (Low Complexity Profile Level 3) が唯一の音声フォーマットとして採用されています。また、ブラジルでは次世代地上波デジタルTV規格「TV 3.0」の唯一の必須音声コーデックとしてMPEG-H 3DAが採用され、2022年より試験放送が開始されています(本放送は2025年を予定)。

日本では、次世代地デジ放送の音声として、MPEG-H 3DA Baseline Profile (Level 4) とDolby AC-4の2つの符号化方式が採用されることが決定しています。

インターネット配信

MPEG-H 3DAを利用した世界初のストリーミング・サービスは、2022年に韓国の放送局「SBS」がモバイル向けに提供したサッカー観戦サービスでした。このアプリでは、オブジェクトを利用し、4つのモードから音声を選択することができました。

  • Basic : TV放送と同じ音声

  • Enhanced Dialogue : 解説者の声が大きく聞きやすいモード

  • Site : 解説なしで会場の雰囲気を味わえるモード

  • Dialogue Only : 解説のみ

Fraunhofer AUDIO BLOGより

360 Reality Audioについては、Amazon Music Unlimitedをはじめ、いくつかのサービスでオンデマンド配信されています。

Live Extremeでの対応

Live Extremeは2023年以降、立体音響配信に力を入れており、数々のフォーマットに対応してきましたが、2024年夏にリリースされるLive Extreme Encoder v1.14では、遂にMPEG-H 3DAの配信に対応する予定です。ここには、7.1.4ch配信はもちろんのこと、24オブジェクト配信や22.2ch配信のサポートも含まれています

Live Extreme Encoder v1.14

MPEG-H 3DA配信仕様

  • 配信方式: ライブ配信, 疑似ライブ配信, オンデマンド配信

  • 配信プロトコル: HLS, MPEG-DASH

  • 音声入力チャンネル数: 最大25ch

  • コーデック: MPEG-H 3D Audio Baseline Profile

  • サンプルレート: 48kHz

  • ビットレート: 32, 40, 48, 56, 64, 80, 96, 112, 128 kbps/ch

  • チャンネル・ベース: 2ch, 5.1ch, 7.1ch, 5.1.2ch, 5.1.4ch, 7.1.4ch, 22.2ch

  • オブジェクト・ベース: 最大24エレメント(オブジェクト/チャンネル)

  • メタデータ入力: MPEG-H Control Track

MPEG-H 3DA設定画面

再生環境

MPEG-H 3DAはWebブラウザでの再生ができないため、STB向けに以下のネイティブ・プレイヤーを無償提供予定です。

  • Live Extreme Experience for Fire TV

  • Live Extreme Experience for Android TV

これを前述のMPEG-H 3DAパススルー対応STBにインストールし、MPEG-H 3DA対応AVアンプと接続することで、マルチスピーカー環境で立体音響再生することが可能となります。

Live Extreme Experience for Fire TV
(画面は開発中のものにつき、実際の仕様とは異なる場合があります)

また、このアプリにはMPEG-H 3DAのデコーダーが搭載されていますので、HDMIパススルーに非対応の環境であっても、アプリ内で最大7.1chのPCMにデコード(ダウンミックス)して再生することも可能です。

「Live Extreme Experience for Fire TV」のMPEG-H設定画面
(画面は開発中のものにつき、実際の仕様とは異なる場合があります)

尚、コルグからMPEG-H 3DAのデコードに対応したスマホ・アプリをリリースする予定はありませんが、Live Extreme Encoderには立体音響に対応した「HPL」というバイノーラル・プロセッサが標準搭載されているので、MPEG-H 3DAと同時にHPLを配信することで、あらゆる視聴者にリーチすることができます。

まとめ

MPEG-H 3DAは放送分野での採用が先行し、360 Reality Audioを除きインターネット配信で利用されることはあまりありませんでした。しかし、Live Extremeがエンコード・再生ともに対応することにより、状況が一変するかもしれません。日本の次世代地デジ放送の動向にも注目です。

Live Extremeはこれまでも立体音響に力を入れてきましたが、放送業界が重視している22.2ch、あるいは360 Reality Audioと同等の24オブジェクト配信は、MPEG-H 3DAをサポートすることで初めて実現できた機能であり、今後これを活用したエクストリームなコンテンツが増えていくことを期待しています。

この記事が気に入ったらサポートをしてみませんか?