見出し画像

AniPortrait: 音声と画像から自然なアニメーションを生成する革新的技術❗️ComfyUIとGoogle Colabで使ってみよう❗️

どうも皆さん!ヘッドフォンは音質重視のタイプの女、葉加瀬あいです!

今回は最近話題のAniPortraitについて解説をしていきます!

AniPortraitとは

AniPortraitは、オーディオ入力参照画像から高品質のアニメーションを生成するフレームワークです。あのとても有名なIT企業であるTencentの開発チームによって発表されました!

この技術、本当にとてもすごくて、例えばこんな感じで画像と音声データから自然で感情豊かなアニメーションを生成することができるんですよね。
https://twitter.com/i/status/1774996432120078680

具体的には、参照画像の人物が実際に話しているかのような動画を作成したり、歌っているような動画を作成したりすることが可能です。

さらに、参照画像とは異なるテイストの人物の動画を作成することもできますので、今とても注目されているんですよね!

今回はこの技術の詳細について、私のこちらの記事でより詳しく解説していきたいと思います!

なお、私の記事を読む上での注意事項などをこちらで説明しておりますので、以下のプロフィール記事をご一読いただいた上で閲覧するようお願いいたします。

それでは、早速続きを解説していきたいと思います!


AniPortraitの仕組み

本題に入る前に、少し小難しい話をします。使い方だけ知りたいという方は読み飛ばしていただいて大丈夫です!基本的には、AniPortraitは主に2つのモジュールから構成されています。

  1. Audio2Lmkモジュール: 音声から2D顔ランドマーク(顔の特徴点)のシーケンスに変換します。

  2. Lmk2Videoモジュール: ランドマークから高品質で時間的に一貫性のあるアニメーションを生成します。

これらのモジュールでは、wav2vecモデル(音声認識モデル)、Transformerモデル(シーケンス変換モデル)、拡散モデル(画像生成モデル)といった技術が活用されています。

なので、基本的には、インプットされた音声を認識して、それをAIで扱えるように変換して、さらにインプットされている画像を参照して、その画像の人物が喋っているような動画を作り出すという感じになりますね!

ここからは、その特徴と応用例を紹介していきます!

AniPortraitの特徴と応用例

AniPortraitを使えば、1枚の画像と音声データから感情豊かで自然なアニメーションを生成できます。例えば、VTuber(バーチャルYouTuber)のような自分の顔のアニメーション化も可能です。

歌やスピーチの音声を使ったアニメーション生成にも適しています。

AniPortraitは、顔の自然さポーズの多様性高いビジュアル品質を実現しており、EMOなど他の手法と比較しても優れたパフォーマンスを示しています。さらに、顔のモーション編集や再生など、さらなる発展の可能性も期待されています。いくつか、例を掲載するのでぜひ見てみてください!例えばこんな感じの動画ですね!

https://twitter.com/i/status/1774996439095279661

エンターテインメント、教育など多様な分野での活用が期待されるAniPortraitですが、他の技術と組み合わせることでさらに可能性が広がります。

例えば、このように、Elevenlabsの音声合成と組み合わせれば感情表現豊かなアニメーションを生成できます。
Runwayで生成した背景動画とPremiereで合成すれば自然なシーンを作成できます。
Photoshopでグリーンスクリーンを追加して合成することも可能です。

https://twitter.com/i/status/1774996432120078680


ComfyUI、Gooogle Colabで使える AniPortrait

AniPortraitは、Gooogle Colab で 1クリックで実行することができたり、Gooogle Colabでワークフローをダウンロードして実行することができます!

個人的には、Gooogle Colabでワークフローをダウンロードして利用することをお勧めします。

理由としては、まず一つ目として、使用されるVRAMの量がと比較して低い場合があるからです。
AniPortrait自体、かなり容量を消費してしまい、Gooogle Colabで使用しようとすると無料枠では制限がかけられたり、そもそもの動画の先生ができないといった報告も上がっております。

その点、ComfyUI は ノードベースで操作するツールになり、通常の生成よりもVRAMの消費量が低く済む場合が多いんですよね。

2つ目は、こちらの記事で解説していることを実行すると、無料で使うことが出来るからですね!(詳細は後述します!)
https://note.com/ai_hakase/n/ne08c4daf6971?magazine_key=ma5812eb86d3b

なお、実際にワークフローをダウンロードしても必要な学習モデルや学習機能がインストールされていなければ使用できないといったこともよくあります。

実際あまりComfyUIを触ったことがない方で、もともとそんなに技術的な知識も詳しくないという方の場合は、そういった拡張機能や必要な学習モデルのインストールにかなり苦戦したりなどしますよね。

そういった場合、今回のような最新技術が出ても何から手をつければいいかわからずせっかく便利なツールがあるのに全然使えないということに陥りがちです。

そこで、私のこちらの記事で、そういった方の問題を解決するために、ワークフローをダウンロードしたらそれに必要な拡張機能や学習モデルなどをプログラムがサジェストしてくれる(提案してくれる)ものがあるのでそれを紹介しています

!詳しくはこちらの記事で解説をしておりますのでぜひこちらを参考にしてみてください!

https://note.com/ai_hakase/n/n1e50f38c7678?magazine_key=ma5812eb86d3b

それで、皆さんの中にはそもそもここで説明されているComfyUIとは一体どのようなものなのか?といったことを気にされている方やよくわからない方もいらっしゃいますよね。

そういった方のために、私の以下の記事では、ComfyUIを使用したり実際にどういうものなのかといったことを説明したりしています!

また、通常はComfyUIを使用するのに有料のGPUサービスを使用したりするので月額1200円以上の料金がかかってしまうようになったのですが、私のこちらの記事ではある方法で無料でComfyUIを使用する方法についても解説をしています!

こちらがその解説URLになりますので、ComfyUIについてよくわからないという方、最初は無料で使ってみたいという方、今有料で使っているけどそれがもったいないので無料のものに切り替えたい方はぜひ見てみてください!

https://note.com/ai_hakase/n/ne08c4daf6971?magazine_key=ma5812eb86d3b

なお、先ほどのワークフローの詳細はこちらになります!

ここから先は

4,752字 / 2画像

この記事が参加している募集

AIとやってみた

この記事が気に入ったらサポートをしてみませんか?