OpenAIの音声エンジンで早速ディープフェイクのエイプリルネタがアップされる。

2024年3月30日 08:12

3月30日に発表されたわずか15秒の音声をサンプリングしただけでサンプリング元の人が会話しているようにトークを生成できる音声エンジンをOpenAIは発表しましたが、早速これを使ってエイプリルフールネタが発表されました。

No more jobs! pic.twitter.com/lF0pTmxEBG
— chrypnotoad (@chrypnotoad) April 1, 2024

動画生成AI Soraも、フェイク動画に使われるのを懸念されて大統領選後に発表予定ですし音声エンジンも然りです。OpenAIのたのモデルを見てみると、ChatGPTもDALL-E3もアライメント（AIが人間わかりやすく理解されやすい行動をとるように教育する事）やレッドチーミング（著作権・肖像権侵害や道徳に反した生成をしないように倫理規制をAIに教育する事）でガッチガチに固めてあるので、動画および音声モデルもガッチガチに規制が入るものと思われます。規制が入る前に内輪で遊び倒しておこうと言う魂胆ですね。

音声エンジンモデルの公式ブログでの発表はこちらです。

We're sharing our learnings from a small-scale preview of Voice Engine, a model which uses text input and a single 15-second audio sample to generate natural-sounding speech that closely resembles the original speaker. https://t.co/yLsfGaVtrZ
— OpenAI (@OpenAI) March 29, 2024

私たちは、テキスト入力と単一の 15 秒オーディオサンプルを使用して、元の話者によく似た自然な音声を生成するモデルである音声エンジンの小規模プレビューからの学習結果を共有します。

音声エンジンモデル概要

音声エンジンと呼ばれるこのモデルは、テキスト入力と単一の 15 秒音声サンプルを使用して、元の話者によく似た自然な音声を生成します。 15 秒のサンプルが 1 つある小さなモデルでも、感情的でリアルな音声を作成できるとの事。

OpenAIは 2022 年後半に初めて Voice Engine を開発し、それを使用してText-to-Speech APIやChatGPT Voice および Read Aloudで利用可能なプリセット音声を強化してきました。同時に、合成音声が悪用される可能性があるため、広範なリリースに向けて慎重かつ十分な情報に基づいたアプローチをとっています。今後、これらの会話と小規模テストの結果に基づいて、このテクノロジーを大規模に導入するかどうか、またその方法について検証していくそうです。

音声エンジンの初期のアプリケーション

OpenAIは昨年末より、信頼できるパートナーの小グループと非公開でテストを開始し、このグループが開発したアプリケーションに感銘を受け今後このエンジンの導入にあたり、私たちのアプローチ、保護策、そして音声エンジンをさまざまな業界でどのように有益に使用できるかを考えているそうです。

ブログページには様々な音声と利用方法の例が挙げられています。

生徒と対話するためのリアルタイムの個別応答を作成

子どもたちの学業の成功に特化した教育テクノロジー企業であるAge of Learningは、これを使用して、事前にスクリプト化されたナレーションコンテンツを生成しています。また、音声エンジンと GPT-4 を使用して、生徒と対話するためのリアルタイムのパーソナライズされた応答を作成します。このテクノロジーにより、Age of Learning はより幅広い視聴者向けにより多くのコンテンツを作成できるようになりました。

AI ビジュアルストーリーテリングプラットフォームHeyGen

ビデオやポッドキャストなどのコンテンツを翻訳することで、クリエイターや企業が流暢かつ自分の声で世界中のより多くの人々にリーチできるようになります。これを早期に導入した企業の 1 つが、AI ビジュアルストーリーテリングプラットフォームであるHeyGenです。これは企業顧客と協力して、製品マーケティングから販売デモまで、さまざまなコンテンツ用の人間に似たカスタムアバターを作成します。

ビデオ翻訳に音声エンジンを使用しているため、話者の声を複数の言語に翻訳して、世界中の視聴者に届けることができます。翻訳に使用される場合、音声エンジンは元の話者のネイティブのアクセントを保持します。たとえば、フランス語話者の音声サンプルを使用して英語を生成すると、フランス語のアクセントの音声が生成されます。

ブログに掲載されている音声サンプルで様々な言語を話させていますが、日本語に切り替える事もできます。ChatGPTでの音声出力の様に、外国人が日本語を話している様に聞こえますが、十分理解できますので1つのサンプリング音声で複数言語への対応ができるのは便利です。

医療従事者のカウンセリング用ツール

Dimagi は、地域の医療従事者が授乳中の母親へのカウンセリングなど、さまざまな重要なサービスを提供できるツールを構築しています。これらの従業員のスキル開発を支援するために、Dimagi は音声エンジンと GPT-4 を使用して、スワヒリ語を含む各従業員の主言語、またはケニアで人気のあるコード混合言語であるシェンなどの非公式な言語で対話型フィードバックを提供します。

言語障害のある人々のコミュニケーションツール

言語に影響を与える疾患を持つ個人に対する治療的アプリケーションや、学習ニーズのある人々に対する教育の強化など、AI 代替コミュニケーションアプリであるLivox は、言語障害のある人々のコミュニケーションを可能にする拡張代替コミュニケーション (AAC) デバイスを強化します。 Voice Engine を使用することで、多くの言語にまたがる非言語的なユニークで非ロボット的な音声を人々に提供できるようになりました。ユーザーは自分を最もよく表す音声を選択でき、多言語ユーザーの場合は、各音声言語間で一貫した音声を維持できます。

言語障害に苦しむ患者の声の回復を支援するためのAI

ブラウン大学医学部の主な教育関連機関として機能する非営利の医療システムであるライフスパンのノーマンプリンス神経科学研究所は、突発性または変性言語障害に苦しむ患者の声の回復を支援するためのAI の使用を模索しています。彼らは、音声障害の腫瘍性または神経性の病因を持つ個人に音声エンジンを提供するプログラムを試験的に実施しています。 Voice Engine には非常に短い音声サンプルが必要であるため、医師のファティマミルザ、ロハイドアリ、コンスタンティナスヴォコスは、学校用に録画したビデオの音声を使用して、血管性脳腫瘍により流暢な発話を失った若い患者の声を復元することができました。

ブログには言語障害を持つ人の声をサンプリングし、その声を基にスムーズな発音をで会話している音声の生成したサンプルが掲載されています。

この研究に参加したスタンフォード大の脳神経外科研修医ロハイド・アリ医師は下記のXへのポストで、「@OpenAIの Voice Engine を活用して、私たちのチームは若い患者の声を取り戻すのを助けることができました。」と紹介しています。

With @OpenAI's Voice Engine, our team was able to help a young patient recover her voice. https://t.co/DRjFXIbqXg pic.twitter.com/atLYbfNwE8
— Rohaid Ali, MD (@RohaidAliMD) March 29, 2024

音声エンジンを安全に構築する

OpenAIは人々の声に似た言論を生成することには重大なリスクがあり、特に選挙の年にはそれが最優先事項であることを認識しており、政府、メディア、エンターテイメント、教育、市民社会などの米国および国際的なパートナーと連携して、開発の際に彼らのフィードバックを確実に取り入れているそうです。

現在、Voice Engine をテストしているパートナーは、同意または法的権利なしに他の個人または組織になりすますことを禁止する使用ポリシーに同意しており、さらに、これらのパートナーとの契約では、元の発言者からの明示的かつ十分な情報に基づく同意が必要であり、開発者が個々のユーザーが独自の音声を作成する方法を構築することは許可されていません。また、パートナーは、聞こえている音声が AI によって生成されたものであることを視聴者に明確に開示する必要があります。OpenAIは、音声エンジンによって生成された音声の出所を追跡するための透かしや、音声の使用状況の事前監視など、一連の安全対策を実装しています。

OpenAIは、合成音声テクノロジーの広範な展開には、元の話者が故意に自分の声をサービスに追加していることを検証する音声認証エクスペリエンスと、類似しすぎる音声の作成を検出して防止する禁止音声リストを伴う必要があると考えています。

音声エンジンの将来展望

現時点でOpenAIはVoice Engine 開発に置いて、技術的なフロンティアを理解し、AI で可能になりつつあることをオープンに共有するがリリースはしない方針との事。 Voice Engine のこのプレビューが、その可能性を強調するとともに、より説得力のある生成モデルによってもたらされる課題に対する社会の回復力を強化する必要性を促進することを願っています。具体的には、次のような手順を推奨します。

銀行口座やその他の機密情報にアクセスするためのセキュリティ対策として音声ベースの認証を段階的に廃止
AI における個人の声の使用を保護するポリシーを検討する
欺瞞的な AI コンテンツの可能性を含む、AI テクノロジーの機能と限界について一般大衆を教育する
オーディオビジュアルコンテンツの出所を追跡する技術の開発と導入を加速し、本物の人間と対話しているのか、AI と対話しているのかを常に明確にします。

Soraを恐れた人々のOpenAI解体運動や多くの人のAIへの抵抗が見られるなか、人々の同意の元にAIを開発していく事は開発をさらに難航させる原因だと考えられます。OpenAIの音声エンジン発表ポストに対しても下記の様なリポストが見受けられました。

When millions of older adults are defrauded out of billions of dollars by these deepfake voices, will @OpenAI be ready for the tsunami of litigation that follows?
— Geoffrey Miller (@primalpoly) March 29, 2024

何百万人もの高齢者がこれらのディープフェイク音声によって数十億ドルを騙し取られたとき、@OpenAIその後に起こる訴訟の津波への備えはできていますか?

reminder that if openai builds it but doesn't release it, that doesn't mean no one uses it. the government will use it, foreign governments will steal it within a year, and large companies will pay openai for them to use it. the only ones who get hurt are regular people.
— jdun (@ChoctawDoge) March 29, 2024

OpenAI がそれをビルドしてもリリースしないとしても、それは誰もそれを使用しないことを意味するわけではないことに注意してください。政府はそれを使用し、外国政府は1年以内にそれを盗み、大企業はそれを使用するためにopenaiにお金を払うでしょう。怪我をするのは一般人だけです。

Ok but what about the potential for people to use this for deceptive deepfakes? Can you please encourage Congress to pass the No AI FRAUD Act instead of allowing big tech’s lobbyists to obstruct it?
— Heather-Ashley Boyer (@HeatherAshleyB_) March 29, 2024

わかりましたが、人々がこれを欺瞞的なディープフェイクに使用する可能性についてはどうですか?大手テクノロジー企業のロビイストによる妨害を許すのではなく、AI詐欺禁止法を可決するよう議会に奨励していただけないでしょうか。

Striking fear in the people. Thats how your company will end.
— Bjerg Hash (@bjerghash) March 29, 2024

人々の間に広がる恐怖。そうすればあなたの会社は終わります。

Nice, deepfakes just got easier to make
— Victor Gulchenko (@VictorGulchenko) March 29, 2024

いいですね、ディープフェイクの作成がさらに簡単になりました

Any thoughts on the scams this will promote?
— AIGuys (@RealAIGuys) March 29, 2024

これが促進する詐欺について何か考えはありますか?

この記事が気に入ったらサポートをしてみませんか？