"元画像＋テクスチャ画像＋シーン画像"で直感的に画像を編集するAIの「pOps」を試してみる

2024年6月10日 22:45

「pOps」はPhoto-Inspired Diffusion Operators（写真にインスパイアされた拡散オペレーター）の略語で、画像を編集するための新しい技術として発表されていました。

この技術では、画像に特定のテクスチャを追加したり、複数の画像を合成したり、形容詞で表現を変更したりできるらしく、他にもオブジェクトを特定のシーンに配置することも可能とのことで、工夫次第で色々と調整ができるそう。

pOpsの概要

pOpsは、画像の埋め込み空間で直接動作するセマンティックオペレーターをトレーニングするためのフレームワークとのこと。
(ここでの「セマンティック」は「意味的な」という意味で、画像の内容や特徴を元にした操作を指しています)

テクスチャリングオペレーター：
- 画像のオブジェクトに特定のテクスチャ（表面の模様や質感）を追加するもの
- ex)普通の猫の画像に「木の質感」を追加して、木の彫刻のような猫の画像を作ることができる
ユニオンオペレーター：
- 二つの異なる画像を組み合わせて、新しい画像を作り出すもの
- ex)猫の画像とバナナの画像を組み合わせて、猫がバナナを持っているような画像を作ることができる
シーンオペレーター：
- 特定のオブジェクトを指定された背景に配置するもの
- ex)カップの画像を「ビーチの背景」に配置して、ビーチに置かれたカップの画像を作成する
インストラクトオペレーター：
- 形容詞で指定された特徴を画像に適用するもの
- ex)普通の犬の画像に「とげとげしい」という形容詞を適用して、とげとげしい犬の画像を作る
コンポジションオペレーター：
- 異なるパーツを組み合わせて一つのシーンを作り出すもの
- ex)シャツ、ズボン、靴の画像を組み合わせたファッションの画像を作ることができる