『1枚の画像から自然に歌う動画を生成「Hallo」』～【web3&AI-テックビジネスのアイディアのタネ】2024.6.17

2024年6月17日 09:23

「先進テックで未来の生活はもっと良くなる！」と信じて、Web3・AI・ガジェットなどのデイリーニュースから毎日ひとつピックアップしてご紹介しています。

新規ビジネスのアイディアのタネがほしい方、未来を想像してワクワクしたい方、読んでちょっといいなと思った方、ぜひフォロー・高評価よろしくお願いします！

■1枚の画像に写る人物キャラクターに楽曲を歌わせるアニメーションを生成できるAIモデル「Hallo」

「Hallo」は、アニメーションを生成したいキャラクターの静止画像と、キャラクターの動きを駆動する音声データを入力し、音声に応じたリアルで表情豊かなポートレート画像アニメーションを生成する技術です。音声入力に駆動される口の動き、顔の表情、および頭の動きの同期と調整を行い、視覚的に魅力的で時間的に一貫性のある高品質のアニメーションを生成します。

iPhone15のテレビCMを見た人は多いと思います。

「Don't Let Me Go（ドレミゴー）＝捨てないで」と写真がクチパクで次々と歌い出すこのCMです。128GBの容量を誇るiPhone15なら写真を捨てなくて済むよというメッセージなわけですが、ロボットっぽい声に口だけ動く映像が不気味です。

写真であることをわかりやすくするためにわざと口だけ動かしているのだと思いますが、最近の生成AIの進化ぐあいを考えるとAppleにしては古臭く感じます。

皆が期待しているような、ちゃんと表情全体を使って歌顔にするAI技術がフダン大学、Baidu Inc、ETHチューリッヒ、南京大学で研究されている「Hallo」です。

↑「Hallo」ProjectのWebサイトはこちら

↑GitHubはこちら

1枚の画像から表情の中間画像を自動生成しアニメーション化

「Hallo」では、左側の写真1枚を与えると、右側のように、表情や顔の動きも含めて自然な歌顔を自動生成できるとしています。

イラストやアニメCGにも対応

https://cdn.aondata.work/video/portrait_style/4.mp4

歌うだけでなく、話す顔も生成できます。
また、実写だけでなくイラスト、CG、鉛筆デッサン画でも顔だと認識して自然な表情アニメーションを生成しています。

高精度なリップシンク

https://cdn.aondata.work/video/cross_id/2.mp4

8人の顔写真を使い、ひとつの同じ声でしゃべらせてみると、リップシンクの精度がとても高いことがよくわかります。

抑揚の程度を調整可能

https://cdn.aondata.work/video/ablation/pose_1.mp4

左が元の写真、右の「Pose↓」が抑揚を抑え気味にしたもの、「Pose↑」が抑揚を大きく表現したものです。

このように、同じセリフと音声でも、演技の仕方を変えられます。映画監督がAIの役者に演技を指示する未来が見えます。

有名人のフェイク動画でAIの現在地を確認

https://cdn.aondata.work/video/cross_actor/1.mp4

最後に、有名人の顔写真を使って演説をさせるフェイク動画を敢えて制作しています。

まだ表情や頭の動かし方にカクツキがあったり目が作りものっぽい違和感はぬぐい切れませんが、少なくとも英語を喋らせることについては騙される人が出てもおかしくないレベルに到達しようとしていることが感じられます。

今年はアメリカ大統領選が行われます。アメリカ国内外でフェイク技術を使った世論工作や選挙妨害が懸念されています。

AI技術の進化そのものは止めようがないため、AI技術を使ってフェイクかどうかを判定することも検討されています。

報道機関が誤ってフェイク情報に基づいた報道をしてしまわないようにするところから利用されることが想定されますが、SNSなど報道機関を介しない情報源が増えている昨今、読み手の我々自身が「すぐに拡散しない」「一度立ち止まる」などと気を付けるしかないのが現状です。

できれば、スマホ自身が「AIで生成されたフェイクかもしれない」と警告してくれる機能を持つことが理想的だと考えます。AIの便利さだけでなく、AIの危うさをカバーできることは、今後のスマホの必須要件になるのではないでしょうか。

この記事が気に入ったらサポートをしてみませんか？