⑪(ここをくりっく)
こんにちは。
こんかいは、
『AI顔を動かす?』
です。
もう少し、動かすと,
どうやってるの?
Encoder(エンコーダ)
→データの圧縮を行うもの。
decoder(デコーダ)
→データを元に戻すもの。
GRU
→長期記憶を可能にした時系列処理。
まず、
① 顔画像を圧縮して、
② 音声データを0.2秒区切りにして圧縮し、
③ ガウスノイズと組み合わせて、
デコード(データを元に変換)して
再度、画像化し生成を行ってます。
こうして、
生成された画像を
つなぎ合わせることによって
音声を話している画像の
動画を再現してます。
もう少し、
くわしく言うと、
3つの認識AI(Discriminator)
を用いて判別してます。
Generator 生成AI。
Sync 同期。
Discriminator 認識AI。
Sequence シーケンス、連続、順序。
ざっくり言うと、
それぞれの認識AIには
正解を学習させて、
・音声(Audio)と画像の合成
・顔の輪郭
・自然な動きのつながり
の3つの要素で判別。
音声(Audio)と画像の合成では、
0.2秒ごと切り分けられた
音声(Audio)と
画像から特徴を抽出し、
正解データと見分けがつかなくなるまで
生成を行います。
顔の輪郭と
自然な動きのつながりでは、
正解データを学習した
認識AIを
通りぬけられるように、
本物に近い
ひと続きの画像を生成できるよう
学習を行います。
これらによって、
より自然で高解像度の
動画を生成してます。
ことばの意味は?
Gaussian noise(ガウシアンノイズ)
→ガウスノイズ。
信号のデータ点がガウス分布
(正規分布)を持つノイズ。
正規分布
平均値のところが山の「頂上」で、
左右対象に「裾野」が広がっている分布。
GRU
(Gated recurrent unit)
の略。
→長期記憶を可能にしたRNN。
RNN
(Recurrent Neural Network)
リカレントニューラルネットワーク
→時系列データを扱うもの。
任意のひと続きの入力を処理できる。
つながりのある
音声認識などに応用が可能。
RNNには、
昔の情報を
未来に伝えられない欠点が。
それを改良したのが
→LSTM
(Long Short Term Memory )
LSTMは、
計算が重いという欠点が。
それを解消したのが
→GRU
とりあえず、
アインシュタインさん、話してみる。
AI、モナリザさんを動かす。
照れながら、
なにか「ささやいてる?」
この青年も、ちょっと照れてる?
読んでくださり、ありがとうございました。