Voice Engine の概要

2024年3月30日 08:18

以下の記事が面白かったので、簡単にまとめました。

・Navigating the Challenges and Opportunities of Synthetic Voices

1. Voice Engine

「Voice Engine」は、テキスト入力と単一の15秒音声サンプルを使用して、元の話者によく似た自然な音声を生成するモデルです。

「OpenAI」では「Voice Engine」を開発し、それを使用して「Text-to-Speech API」「ChatGPT Voice」「Read Aloud」で利用可能なプリセット音声を強化してきました。同時に、合成音声が悪用される可能性があるため、広範なリリースに向けて慎重かつ十分な情報に基づいたアプローチをとっています。合成音声の責任ある導入と、社会がこれらの新しい機能にどのように適応できるかについて対話を開始したいと考えています。

2. Voice Engine のアプリケーション

「Voice Engine」の潜在的な用途をより深く理解するために、「OpenAI」では昨年末、信頼できるパートナーと非公開でテストを開始しました。

初期の例としては次のようなものがあります。

2-1. 読書アシスタント

プリセット音声では不可能な、より幅広い話者の声を表現することができます。子どもたちの学業成就を目指す教育テクノロジー企業、「Age of Learning」は、これを利用して台本済みのボイスオーバーコンテンツを作成しています。

2-2. コンテンツの翻訳

ビデオやポッドキャストと同様に、クリエイターや企業は世界中のより多くの人々に流暢かつ自分の声でリーチできるようになります。これを早期に導入した企業の1つが、AIビジュアルストーリーテリングプラットフォームである「HeyGen」になります。

2-3. グローバルコミュニティへのリーチ

「Dimagi」は、地域の医療従事者が母親へのカウンセリングなど、さまざまな重要なサービスを提供できるツールを構築しています。
これらの従業員のスキル開発を支援するために、「Dimagi」は音声エンジンとGPT-4を使用して、スワヒリ語を含む各従業員の主言語、またはケニアで人気のあるコード混合言語であるシェンなどの非公式な言語で対話型フィードバックを提供します。

2-4. 言葉を話せない人のサポート

言語に影響を与える症状を持つ個人に対する治療用途や、学習ニーズのある人々に対する教育の強化などです。
AI代替コミュニケーションアプリである「Livox」は、障害のある人々のコミュニケーションを可能にする拡張代替コミュニケーション (AAC) デバイスを強化します。

2-5. 患者の声の回復の支援

突然の言語障害または変性言語障害に苦しんでいる人向けです。
ブラウン大学医学部の主な教育関連機関として機能する非営利医療システムであるライフスパンのノーマンプリンス神経科学研究所は、臨床場面でのAIの使用を検討しています。

3. Voice Enginge を安全に構築する

「OpenAI」では、人々の声に似た言論を生成することには重大なリスクがあり、特に選挙の年にはそれが最優先事項であることを認識しています。

現在、「Voice Engine」をテストしているパートナーは、同意または法的権利なしに、他の個人または組織になりすますことを禁止する使用ポリシーに同意しています。さらに、これらのパートナーとの契約では、元の発言者からの明示的かつ十分な情報に基づく同意が必要であり、開発者が個々のユーザーが独自の音声を作成する方法を構築することは許可されていません。また、パートナーは、聞こえている音声がAIによって生成されたものであることを視聴者に明確に開示する必要があります。最後に、「Voice Engine」によって生成された音声の出所を追跡するための透かしや、音声の使用状況の事前監視など、一連の安全対策を実装しました。

4. 将来を見据えて

AIの安全性に対するアプローチと自主的な取り組みに従って、現時点ではこの技術をプレビューすることを選択していますが、広くリリースすることはしません。このプレビューがその可能性を強調するとともに、より説得力のある生成モデルによってもたらされる課題に対する社会の回復力を強化する必要性を促進することを願っています。

具体的には、次のような手順を推奨します。

・銀行口座やその他の機密情報にアクセスするためのセキュリティ対策として音声ベースの認証を段階的に廃止
・AIにおける個人の声の使用を保護するポリシーを検討
・欺瞞的なAIコンテンツの可能性を含む、AIテクノロジーの機能と限界について一般市民を教育
・オーディオビジュアルコンテンツの出所を追跡する技術の開発と導入を加速し、本物の人間と対話しているのか、AI と対話しているのかを常に明確にする

最終的に自社で導入するかどうかにかかわらず、世界中の人々がこの技術がどこに向かっているのかを理解することが重要です。合成音声の課題と機会について、政策立案者、研究者、開発者、クリエイターと引き続き対話できることを楽しみにしています。

この記事が気に入ったらサポートをしてみませんか？