Stable diffusionで生成AIに言葉をしゃべらせたら超リアルだった

2023年4月17日 22:04

当記事では、画像生成モデル「Stable Diffusion」を使い生成された画像に音声合成モデル「D-ID」を使って喋らせることを目的とします。

Stable Diffusionは、高品質でリアルな画像を生成することができます。
また、D-IDは、リアルな音声を生成することができます。
これらの2つのモデルを組み合わせることで、高品質でリアルな画像を喋らせることができます。

めちゃくちゃリアルだったので、思わず記事にしてしまいました。

D-IDを使う

下記がTOPページのリンクです。

https://studio.d-id.com/

D-IDに登録すると20creditが配布されて、credit内で合成動画を制作することができます。

自己紹介文を考える

ChatGPTに文章を考えてもらい、自己紹介をしてもらいました。

これをD-IDのテキストゾーンに埋め込み、生成ボタンを押します。
数十秒で生成されます。

以下が実際の動画

https://vimeo.com/818345604

Stable Diffusionで適当に生成した女性の画像にChatGPTで生成した自己紹介文をD-IDにしゃべらせて動画にしてみた。英語は口元と発話に違和感が全くない。（聴き慣れてないのもある）日本語は区切りが難しく、まだ違和感がある。これもすぐに改善されるだろうけど。AIの学習と出力の精度がレベチ。 pic.twitter.com/IWSKqrytws
— Yasuto@エンジニア | 投資家 (@financedog1) April 17, 2023

ダウンロードもできます

※商用利用は有料登録が必要です。詳しくはD-IDのページをご覧ください。

ご覧いただきありがとうございました。サポートしていただいたお金は開発費にかけさせていただきます。