JSAI2023 4日目メモ

2023年6月12日 15:57

拡散モデルによる画像生成の基礎と最新研究動向

拡散モデルの進展 (DALLE-2 Imagen)

[1] 拡散モデルの基礎

生成モデル -> データ分布からサンプリングしたい
簡単なデータ分布からサンプルし、変換することで複雑なデータにする
Diffusion Model
- 長所：　定式化が単純、多様なデータが出せる、理論的背景が明確、制御しやすい
- 短所：生成が遅い(順番にノイズを除くので)
DDPM が基本モデル
(1)拡散過程: 標準正規分布をベータを係数にして徐々に足していく
-> 1時刻ごとにサンプリングする。これを繰り返す
　　ベータは付加するノイズの強度。アルファは「残っている強度」
(2) 逆拡散過程
-> ノイズを1個減らすと、ベータが小さければ逆側もガウス分布推定
-> KLD で減らす。上界を押さえていく

[2] 拡散モデルの応用
Classifier-free Guidance 多様性と忠実性のトレードオフ

京子さんという肩載せ案内ロボットで観光案内を支援

ビデオ対話システム + 共有ホワイトボード
遠隔インターフェースの課題：アウェアネス（他者の様子が認識しづらい）
共有ホワイトボード with 排他制御にするとよいのでは？

画面上の顔の位置にカメラを置くと、その方向を見ているようにみえる
-> 画面上で視線を共有する

オフィススペースのレイアウトを決めるタスクで評価
-> ペンのやり取りや、書記がでてきた。

グループディスカッションの知見の蓄積が困難

グループディスカッションの支援に関するこれまでの活動と、
アバターを使ったトレーニングシステムの紹介

この記事が気に入ったらサポートをしてみませんか？