見出し画像

OpenVoic発表2024/1/13

新しいオープンソースAI「OpenVoice」

ホームページ:https://myshell.ai/

ホームページ:https://myshell.ai/
X(元Twitter):https://twitter.com/myshell_ai

MyShell社が開発した新しいオープンソースAI「OpenVoice」は、前例のない速度と正確さで声のクローンを作成できます。この技術は、MIT、清華大学、およびカナダのスタートアップ企業MyShellの研究者によって開発されました。
OpenVoiceは、わずか数秒のオーディオサンプルを用いて声をクローンし、音色、感情、アクセント、リズムなどを細かく制御できます。MyShellはこの週に投稿を通じてOpenVoiceを発表し、技術に関する査読前の研究論文と、MyShellおよびHuggingFaceでユーザーが試すことができるデモサイトへのリンクを公開しました。
OpenVoiceには、テキストから音声への変換と声の音調クローニングを行うために連携する2つのAIモデルが含まれています。最初のモデルは言語スタイル、アクセント、感情などの話し言葉のパターンを処理し、30,000のオーディオサンプルで訓練されました。これらのサンプルには、英語、中国語、日本語を話す人々の様々な感情が含まれています。二番目の「トーンコンバータ」モデルは、20,000の声を含む300,000以上のサンプルから学習しました。
ユニバーサル音声モデルとユーザー提供の音声サンプルを組み合わせることで、OpenVoiceは非常に少ないデータで声をクローンすることができます。これにより、MetaのVoiceboxのような代替品よりも大幅に高速にクローン音声を生成することが可能です。
カリフォルニアを拠点とするスタートアップ企業であるMyShellは、2023年に設立され、初期段階で560万ドルの資金を調達し、既に40万人以上のユーザーを抱えています。MyShellは、瞬時に声をクローンする技術を先導するだけでなく、オリジナルのテキストベースのチャットボットの個性、ミームジェネレーター、ユーザーが作成したテキストRPGなども提供しています。一部のコンテンツはサブスクリプション料金の背後にあります。また、同社はボットクリエイターに自社プラットフォーム上でボットを宣伝するための料金も請求しています。
MyShellは、HuggingFaceを通じて声のクローン機能をオープンソース化し、同時に広範なアプリエコシステムを収益化することで、両方のユーザーベースを拡大し、オープンなAI開発モデルを推進することを目指しています。


自分と一緒に学べていけたら幸いです(*^^*)