見出し画像

OpenAIのVoice Engineが切り拓く合成音声の新時代|小規模プレビューから見えてきた、声の未来と社会との調和への道

音声は、私たちが世界とつながる基本的な手段です。そして今、OpenAIが開発したVoice Engineによって、その音声技術革新の波が迫ってきています。たった15秒の音声サンプルから、誰もが自然で感情豊かな合成音声を生成できるようになるかもしれません。この記事では、Voice Engineの概要からその可能性、そして社会が直面する課題まで、一足先にその未来を垣間見てみましょう。


Voice Engineの概要

Voice Engineとは

Voice Engineは、単一の15秒の音声サンプルとテキスト入力を使用して、元の話者に非常に似た自然な響きの音声を生成するモデルです。小規模なモデルでありながら、感情的でリアリスティックな声を作り出すことができる点が特徴です。

開発の背景と応用

OpenAIは、2022年後半にVoice Engineを開発し、これをテキスト読み上げAPIのプリセット声やChatGPT Voice、Read Aloudなどに活用しています。同時に、合成音声の悪用の可能性を考慮し、広範なリリースに向けて慎重かつ情報に基づいたアプローチを取っています。合成音声の責任ある展開や、これらの新しい能力に社会がどう適応するかについての対話を始めることを目指しています。これらの対話と小規模テストの結果に基づき、この技術をどのように、そして是否かを大規模に展開するかについて、より情報に基づいた決定を下す予定のようです。

安全性への取り組み

合成音声の悪用に対するリスクを認識し、選挙年度においては特に意識しています。OpenAIは米国及び国際的なパートナーと協力し、政府、メディア、エンターテイメント、教育、市民社会などからのフィードバックを取り入れながら開発を進めています。Voice Engineをテストしているパートナーは、同意または法的権利なしに他の個人や組織を模倣することを禁じる利用ポリシーに同意しています。また、オリジナルの話者からの明示的かつ情報に基づいた同意を要求し、開発者が個々のユーザーが自分自身の声を作成する方法を構築することを許可していません。また、パートナーは、聞いている声がAI生成であることを聴衆に明確に開示する必要があります。最後に、Voice Engineによって生成された任意の音声の起源を追跡できるウォーターマークを含む一連の安全対策を実施しています。

Voice Engineの初期の適用事例

教育分野での応用

Voice Engineは、文字を読むことができない人や子供たちへの読書支援に使われています。特に、「Age of Learning」という教育技術企業は、プリセットされた声よりも幅広い話者を代表する自然で感情的な声を生成するためにこの技術を使用しています。彼らは、Voice EngineとGPT-4を利用して、生徒とのリアルタイムでパーソナライズされた対話を生成しており、より多くのコンテンツをより広い聞き手に提供できるようになっています。

コンテンツの翻訳

ビデオやポッドキャストの内容を翻訳し、クリエイターやビジネスが世界中の人々に、流暢で自分の声で届けられるようにすることも、Voice Engineの初期の使用例の一つです。例えば、既に有名になっている HeyGenというAIビジュアルストーリーテリングプラットフォームは、製品マーケティングやセールスデモなど、様々なコンテンツ用にカスタムされた人間らしいアバターを企業顧客と共に作成しています。HeyGenは話者の声を複数の言語に翻訳し、グローバルな聴衆に到達するためにVoice Engineを使用しています翻訳時には、Voice Engineがオリジナルの話者のネイティブアクセントを保持します。

アインシュタインの日本語動画も裏でVoice Engineが…

昨年10月に投稿して3,000いいね以上をいただいたアインシュタインの日本語動画ですが、これも裏でOpenAIのVoice Engineが動いていたということになります。そう言われれば、ちょっと声が微妙に小さくなるようなところなど、今回のOpenAIの出した日本語デモにたしかに似ています!
このネイティブアクセントを保持したアインシュタインの音声効果のお陰で、多くの驚きをもって受け止められたと言っても過言ではないでしょう。ネイティブアクセント保持の効果は絶大と言える一つの証でしょう

グローバルコミュニティへの到達

Dimagiは、遠隔地での必要不可欠なサービス提供の改善に取り組んでいます。これには、Voice EngineとGPT-4を使用して、各ワーカーの母国語で対話的なフィードバックを提供することが含まれます。これにより、SwahiliやShengのようなより非公式な言語を話すケニアで人気の言語を含む、各ワーカーのスキル開発を支援しています。

非言語コミュニケーションのサポート

LivoxというAIオルタナティブコミュニケーションアプリは、障害を持つ人々がコミュニケーションをとるための増強代替コミュニケーション(AAC)デバイスを提供しています。Voice Engineを使用することで、彼らは非言語の人々に多くの言語でユニークで非ロボット的な声を提供できます。ユーザーは自分を最もよく表現する声を選び、多言語ユーザーの場合は、各言語で一貫した声を維持することができます。

声を失った患者の支援

急性または進行性の言語障害を持つ人々の声を回復するための支援も、Voice Engineの重要な適用事例です。Norman Prince Neurosciences Institute at Lifespanは、音声障害のある個人にVoice Engineを提供するプログラムを試験運用しています。たった15秒のオーディオサンプルが必要なため、ドクターたちは脳腫瘍により流暢な話ができなくなった若い患者の声を学校のプロジェクト用に録画されたビデオからの音声を使用して回復させることができました。

Voice Engineの安全な構築

利用ポリシーと合意

Voice Engineを安全に構築するため、OpenAIはパートナー企業と協力し、特定の利用ポリシーに合意しています。これには、他人や組織を同意または法的権利なしに模倣することを禁止する内容が含まれます。また、オリジナルの話者からの明示的かつ情報に基づいた同意を得ること、開発者が個別ユーザーによる自分自身の声の生成を許可しないこと、そして、聴衆に対して聞いている声がAI生成であることを明確に開示することが求められています。

安全対策

合成音声の悪用リスクを軽減するためのさまざまな安全対策が講じられています。例えば、Voice Engineによって生成された音声の起源を追跡可能にするウォーターマークの実装や、その使用方法を積極的に監視することが挙げられます。これにより、音声の不正使用を防ぐことができます。

合成音声技術の広範な展開に向けた検討

合成音声技術の広範な展開を検討する際、OpenAIは、オリジナルの話者が意識的に自分の声をサービスに追加することを確認するための声認証体験や、著名人に非常に似ている声の生成を検出し防止するためのノーゴー声リストの導入を含む、いくつかの提案をしています。

将来に向けて

技術のフロンティア理解と共有

OpenAIは、AIの技術的な最前線を理解し、AIが可能にすることを公開的に共有することにコミットしています。Voice Engineのプレビューは、このコミットメントの継続であり、合成音声技術の潜在的な可能性と、ますます説得力のある生成モデルによってもたらされる課題に対する社会的なレジリエンスを強化する必要性の両方を強調しています。

認証体験と声リストの導入

合成音声技術の広範囲な展開にあたり、オリジナルの話者が自分の声をサービスに意識的に追加していることを確認する声認証体験や、著名人に似すぎた声の生成を検出し防止するノーゴーボイスリストの導入が検討されています。これにより、技術の安全な使用と誤用の防止が図られます。

社会的な対応の促進

OpenAIは、銀行口座やその他の機密情報へのアクセスのためのセキュリティ対策としての声に基づく認証の段階的廃止、AIによる個人の声の使用を保護するためのポリシーの探求、AI技術の能力と限界を理解するための公衆教育の促進、そして、実際の人物とAIとのやりとりがいつでも明確になるような音声視覚コンテンツの起源を追跡する技術の開発と採用の加速など、合成音声によってもたらされる課題に対処するための措置を提案しています。

ポリシーメーカーやクリエイティブとの対話

合成音声の課題と機会について、ポリシーメーカー、研究者、開発者、クリエイティブとの継続的な対話を進めることが重要です。OpenAIは、この技術がどのように展開されるかにかかわらず、世界中の人々がこの技術の進む方向を理解することが重要だと考えています。

あとがき

Voice Engineの紹介を通じて、合成音声の持つ無限の可能性とそれを取り巻く課題について考える機会になって居たら幸いです。技術の進化は、常に私たちの想像を超えて進んでいますが、その使い方一つで、より豊かな社会、または新たな課題に直面する社会が生まれます。OpenAIが取り組む、Voice Engineの慎重かつ責任ある展開のアプローチは、他の技術開発にも示唆を与えてくれるはずです。技術の未来と社会との調和を目指し、私たちもこの議論に参加していきましょう。あなたが思う合成音声の未来像はどのようなものでしょうか?

参考文献

Navigating the Challenges and Opportunities of Synthetic Voices (openai.com)


この記事が気に入ったらサポートをしてみませんか?