見出し画像

Stable diffusionで生成AIに言葉をしゃべらせたら超リアルだった


当記事では、画像生成モデル「Stable Diffusion」を使い生成された画像に音声合成モデル「D-ID」を使って喋らせることを目的とします。

Stable Diffusionは、高品質でリアルな画像を生成することができます。
また、D-IDは、リアルな音声を生成することができます。
これらの2つのモデルを組み合わせることで、高品質でリアルな画像を喋らせることができます。

めちゃくちゃリアルだったので、思わず記事にしてしまいました。

生成AIのStable Diffusion



女性の画像が生成された



D-IDを使う

下記がTOPページのリンクです。

https://studio.d-id.com/

D-IDトップページ


D-IDに登録すると20creditが配布されて、credit内で合成動画を制作することができます。

create Videoですぐに制作可能


自己紹介文を考える

ChatGPTに文章を考えてもらい、自己紹介をしてもらいました。

chatGPTで生成された自己紹介文


これをD-IDのテキストゾーンに埋め込み、生成ボタンを押します。
数十秒で生成されます。

D-idに登録された画像

以下が実際の動画

https://vimeo.com/818345604

ダウンロードもできます


※商用利用は有料登録が必要です。詳しくはD-IDのページをご覧ください。

ご覧いただきありがとうございました。 サポートしていただいたお金は開発費にかけさせていただきます。