見出し画像

『ElevenLabs、プロンプトからサウンドエフェクトを生成する新AIをリリース』~【web3&AI-テックビジネスのアイディアのタネ】2024.6.2

先進テックで未来の生活はもっと良くなる!」と信じて、Web3・AI・ガジェットなどのデイリーニュースから毎日ひとつピックアップしてご紹介しています。

新規ビジネスのアイディアのタネがほしい方、未来を想像してワクワクしたい方、読んでちょっといいなと思った方、ぜひフォロー・高評価よろしくお願いします!


■ElevenLabs、プロンプトからサウンドエフェクトを生成する新AIをリリース

ElevenLabs は、サウンドエフェクトを作成するための新しい AI ツールをリリースしました。このツールは、ユーザーのプロンプトに基づいてポッドキャスト、映画、ゲーム用のさまざまなサウンドスケープを作成でき、AI テクノロジーによってクリエイティブなプロセスが容易になります。

AI Secret News Lettterより和訳して引用

画像生成AIはテキストから画像を作れます。
生成した静止画を見ていると、頭の中にその静止画のシーンの音が浮かぶことがあります。

ElevenLabsのデモ例

たとえば左の犬の画像なら激しく吠えている音がイメージできますし、右のドアの鍵であればガチャッという解錠する音がするでしょう。

そんな、生成した静止画のイメージにあったサウンドエフェクト、いわゆるSE音を画像とセットで生成する新しいAIを、音声AI開発企業のElevenLabsが発表しました。


ElevenLabs「SE生成AI」の主な特徴

  • サウンド生成機能:テキスト プロンプトから最大 22 秒のサウンドを作成します。プロンプトごとに少なくとも 4 つのダウンロード可能なオーディオ クリップが提供されます。

  • ユーザー アクセシビリティとライセンス:非商用ユーザーは、適切なクレジットを付与すれば無料で使用できます。商用利用の場合は、生成されたコンテンツのライセンス オプションを備えた有料プランが利用できます。

  • 文字数制限:無料ユーザーの場合、プロンプトの月間制限は 10,000 文字です。

  • 使いやすさと柔軟性:この AI は、豊かなサウンドスケープを素早く生成します。手頃な価格で拡張可能であり、クリエイター、映画制作者、ゲーム開発者向けに設計されています。


生成されたSEのデモ

ElevenLabsの「sound-effects」のページに、実際に生成されたSEと画像のプロンプト例が多数掲載されています。

「a woman filled with fear screaming loudly(大声で叫ぶ恐怖に満ちた女性)」というプロンプトで生成された画像には、文字通り女性の叫び声のSEが当てられています。

「Roaring applause after a successful show(成功を収めたショーの後の盛大な拍手)」ではイメージ通り拍手喝采が劇場に鳴り響くSEが当てられています。

このように、画像を生成させればピッタリのSEを作ってくれるというのがElevenLabsの「SE生成AI」です。


映像作品の絵コンテやストーリーボードに音をつける使い方

また、「SE生成AI」の発表に合わせてプロモーションビデオも用意されました。こちらではAIでSEを生成する実用例も示されています。

映画のシナリオから、各シーンを絵に描き表すことで関係者の共通イメージを作るものを「ストーリーボード」と言います。

シナリオ台本をまるごと読み込ませるとストーリーボードを自動生成してくれるAI「Pimento」を以前ご紹介しましたが、生成された絵コンテごとにSEなど音が付いていると、より一層イメージが湧きやすいはずです。

そんな映画など映像作品を作る作業で活用されることを「SE生成AI」は想定いるそうです。


#SOZO美術館 SNS AIアート投稿にも効果的

私がお手伝いしている「#SOZO美術館」というプロジェクトでは、企業のプロモーションに画像生成AIを活用しています。

「#SOZO日本の怪談」や「#SOZO花見酒」など、PRしたい商材などのプロモーションテーマを企業からいただき、SOZOメンバーズというAIアート職人集団を中心にAIアート作品をSNSに投稿してもらうという、AI時代の新しいSNSマーケティング手法を展開しています。

「#SOZOバラでプロポーズ」でもたくさんのロマンチックなAIアート作品が20日間で1541作品も投稿されました。

画像だけでも素敵なのはもちろんですが、これにシーンイメージを盛り上げるSEがついていたら、投稿されたAIアートで表現されている世界観を膨らませることができたでしょう。

ただ、画像生成はMidjourneyなどAIクリエイターが得意とするツールを使い、SEは別に生成させる手順にならざるを得ないのがちょっと使いづらいところです。


マルチモーダル対応できれば映像制作シーンが変わる

できればElevenLabsの「SE生成AI」がマルチモーダルに対応して、他のAIで生成した画像を読み取ってSEを生成できるようになるとベストです。

今回の「SE生成AI」は「AI Text to Sound Effects Generator」と説明されていますが、「AI Image to Sound Effects Generator」になれば、ストーリーボード生成AI「Pimento」とも組み合わせやすくなります。

シナリオ台本を読み込ませると音が入ったストーリーボードが瞬時に生成される。これが実現されれば、映画やドラマの制作効率が圧倒的に上がります。

Netflixに代表されるサブスク動画サービスが全盛期の時代、コンテンツの量産ニーズも高くなっています。音付きのストーリーボード自動生成ニーズは制作スタジオに求められるAIでしょう。

最終的に目に触れる映像をAIが作るのはもう少し先だろうと思いますが、アイディア検討段階の効率を上げるAIの使い方はプロフェッショナルシーンから加速度的に浸透しそうです。

この記事が気に入ったらサポートをしてみませんか?