『人物の構造を理解して不自然さを解消「HyperHuman」が生成AIを新ステージに』～【新しいweb3ビジネスのアイディアのタネ】2023.10.19

モリプトタツヤ

2023年10月19日 08:32

■人物の「不自然さ」を極限まで取り除いて超リアルな画像を生成する『HyperHuman（ハイパーヒューマン）』

人物を画像生成する際には、多くの課題が存在しています。代表的なものが、非現実的なポーズや不自然な部分（手足など）が生成される問題です。

画像生成AIが手指や歯を描くのが苦手なのはよく知られています。その原因はAIが学習する元データが足りないことですが、「たくさん学習させる」で解決を目指すのではなく、

生成モデルが人体の解剖学的な認識が不足しているために起こる現象です。

「解剖学を学ばせる」というアプローチをしようというのが、SnapChat運営のSnap Inc.などの研究者らが開発している新しい画像生成技術「HyperHuman」です。

骨格など正しい構造をAIが理解「変な指」が過去に

人物画像が「多様な粒度で構造的に整っている」という基本的なコンセプトに基づいて設計されています。粗いレベルの体の骨格から、細かいレベルの空間幾何学まで、人物画像の多様な構造要素を網羅しています。

「HyperHuman」の考え方の基本は、人間は骨格を持っていて筋肉で関節を曲げ伸ばしする、だとか、指は5本ある、などの人体の構造を理解すれば、構造にあった画像を出力するようになるだろう、というような発想です。

「HyperHuman」の研究論文では実際にはもっと複雑なアプローチをしていますが、確かに人間が絵を描く時も、対象物の構造を理解していると上手に描けるのと同じ原理を応用しようとしています。

これらは骨格構造を学習させた「HyperHuman」の出力結果です。

人間の骨格をどう理解して出力したかが左上の簡単な線画で確認できます。右上のスキーをしている画像では、足を深く屈伸したポーズを取っていますが、破綻せずに出力できています。

骨格の線がかなり荒いのが現状ですが、もっと解像度高く骨格や筋肉の付き方、関節の可動域などを理解すれば、よくある「指が変に描かれたAI画像」というものはAIブーム初期だけの過去のモノになるはずです。

ただし、まれに人体の構造の限界を超えたポーズができる人はいるので、AI画像では異常に見えるポーズを取らせることが難しくはなるかもしれません。そんなニーズはほとんどないと思いますが。

ヒゲは毛、ネクタイはシルク。素材も理解する

人間の骨格を理解すると自然なポーズが取れるのと同様、「ヒゲは毛でできている。毛は細い線状で80ミクロンから100ミクロン程度の太さを持つ。」だとか、「ネクタイは光沢のあるシルクでできている。」ということを理解すれば、ディテールの表現がよりリアルになります。

真ん中のスキーヤーのゴーグルやヘルメットも、素材や厚み、硬さなどを理解すれば、移動させた時も不自然になりません。

一番下のワイングラスを持った男性は、一番左のものだけジャケットを着ていますが、ジャケットがどのような構造なのかを理解することで自然に着こなせます。

ワイングラスと手の位置や指のポーズに若干不自然に感じる部分はありますが、極端な破綻はしていません。

このような素材や構造などをAIが理解することで、構造的に破綻しない画像が出力できるようになります。

問題は計算コストと倫理

「HyperHuman」はまず人体に限って構造を理解させようとしていますが、建物や乗り物、山や木々、海と水など、あらゆるものの素材的特徴や構造的特徴を理解すれば、あらゆるものが正確に描ける生成AIが作れるはずです。

ただし問題は計算コストと倫理です。

HumanVerseは非常に大規模なデータセットであり、多くの注釈が含まれています。そのため、データの管理と処理が複雑になる可能性があります。特定の目的に合わせてサブセットを作成することや、データのクレンジングや前処理にも時間とリソースが必要になります。

すべての構造データ、素材データを用意すること自体が大変ですし、それら膨大なデータを使って画像を生成させると計算量も膨大になります。

「解像度」は画素数ではなく構造理解度を指すように

計算量を小さくするためには、構造理解度を適宜変更することが重要です。

これまでは画像のピクセル数を「解像度」と表現しましたが、今後の画像生成AIにおいては「構造理解の粒度」のことを解像度と呼ぶようになるでしょう。

荒い解像度＝物事の理解度合いで生成させれば、大雑把には構造的に正しいけれど細部に破綻が見られる画像が出力されます。

そのため、上記にもある通り、特定の目的に合わせたサブセットを用意して「人物は高解像度だが風景は低解像度」と使い分けることにもなりそうです。

シミュラクラ現象の応用で計算量を減らす？

点が3つあると人間はそれを「人の顔」だと知覚してしまう現象をシミュらクラ現象と言います。裏返して言うと、人間は人間の顔をある程度構造として理解しているということですが、瞳やまつ毛など「高解像度」な情報がなくても人の顔っぽいものを描けるということでもあります。

解像度が荒くていい部分は「丸3つ」などと模式化することで計算量を減らすような、シミュラクラ現象の原理を応用してデータ量や計算量を減らす工夫もなされるだろうと予想しています。

常識的構造に偏見が入る余地

倫理面では、リアルすぎるが故のフェイク画像や詐欺の発生などが懸念されます。また、構造や素材を理解させる際には「一般的にはこういう構造」と常識感覚に基づいてデータを選別してしまうことで起きる差別や偏見の問題があります。

人の肌の色はこの範囲というのを偏見を持って登録すると、偏った画像が出力されがちになります。これは今も起きていますが、AIに構造を理解させる時にも偏見が入る余地があるということ意識する必要があります。

構造的・素材的に正しいだけだとAIの可能性を狭める

今は明らかに変な画像が出力されるので、AIに構造を理解させることで不自然な画像が出にくくなるニーズは高いと思います。

しかし、リアリティだけを追求するのは発想を狭めます。

空飛ぶクルマは、構造的に正しくすると未来のクルマのようなカッコよさはなくなります。

「飛べば十分。最初から地下鉄のように飛び交うイメージにはならない」と吉村知事。
コレジャナイ感はわかっていらっしゃる様子。

食品サンプルは、本物の食べ物にしか見えませんが、素材はロウなどです。

構造を理解するアプローチはとても面白いのですが、AIをアート方向で使う場合の発想の広がりと、構造的な正しさを両立するような進化発展の仕方ができるとよいなと思います。