Qosmo Mask 2021

2021年2月10日 13:41

Qosmoでは、2021年の新年のご挨拶として、GANのアルゴリズムを用いてマスクをデザインしました。今回は、そのマスクのデザインについて記したいと思います。

今回の柄生成では、幾何学パターンとGAN特有の崩れた質感を組み合わせたい、というのが基本的な方針でした。GANによる画像生成では、まず学習データとなる画像を多数用意する必要があります。今回の場合では、幾何学パターンの画像をスクレイピングする、あるいは幾何学パターンの学習素材を生成するためのアルゴリズムを別途開発して学習素材を集める必要があります。

モスクワのアーティスト、Vadim EpsteinによるProgressive GANを用いたAzerbaijani patternsの生成

そこで、今回はpix2pixを使用して柄を生成することにしました。pix2pixはGANをベースとした画像生成アルゴリズムであり、ペアとなる画像A・B間のA→Bへの変換を学習することにより、任意の入力画像A’に対してA→Bへの変換を加味した画像B’を生成することができます。以下はその一例になります。A→Bへの変換では、セグメンテーション結果のラベル画像から実世界画像への変換 (Labels to Scene) や、白黒画像からカラー画像への変換 (BW to Color) 、線画から写真への変換 (Edges to Photo) など、A・Bのペア画像を工夫することで様々な変換モデルを学習することができます。

Image-to-Image Translation with Conditional Adversarial Networks (arXiv)

もちろん、pix2pixにおいても学習素材は必要になります。白黒画像からカラー画像への変換であれば、ある白黒画像とカラー版の画像のペア群が学習素材として必要です。しかしpix2pixでは、ペアとなる画像A・Bを工夫することで様々な変換を行うことができます。その一例が、pix2pixを画像の次フレーム予測に使う、という手法です。連続する画像、動画であれば第Nフレーム目と第N+1フレーム目の画像をペアA・Bとして学習することで、任意の画像入力A’に対して、その次のフレームB’を予測するモデルを得ることができます。そして得られたB’を次の入力としてC’を生成、次の入力として使用します。この処理を連続して行い生成した画像群 (A’, B’ C’ …) を連続画像として結合することで、動画として書き出すことができます。このpix2pixによるフレーム予測は、Mario Klingemann氏によって様々な実験が行われています。

I'm training a next-frame-prediction #pix2pix model on some fireworks footage. pic.twitter.com/o0vd7njAai
— Mario Klingemann (@quasimondo) January 2, 2018

This model tries to learn fluid dynamics by watching a video and then generating it via next-frame prediction. #pix2pixHD #feedbackloop #GAN pic.twitter.com/buD8sXkEFD
— Mario Klingemann (@quasimondo) May 23, 2018

またこの手法では、動画を一つ用意して各フレームの画像を書き出すことで学習素材を用意することができます。そのため、今回はグリッドを回転させた動画素材を用意し、次フレーム予測のpix2pixモデルを訓練することで最終的な柄の生成を行いました。動画素材の連続する2フレームをペアとして訓練することで、このpix2pixは与えた画像を少し回転させた画像を出力することができるはずです。そしてその出力を再帰的にpix2pixの入力として次フレームの画像を生成し書き出していくことで、グリッドが回転するような動画の出力に挑戦しました。以下が、学習素材と生成結果の一例になります。

学習素材の幾何学パターン。回転させることで動画素材としました。

生成結果の一例

元々の学習素材が規則正しいグリッド状であったのに対して、pix2pixによる生成結果では元のグリッド構造は徐々に崩壊していき、よりダイナミックで流動的なパターンへと変化していきました。本来、次フレームの画像を予測するためには、時間や空間的な構造を組み込んでモデルを設計する必要があります。しかしpix2pixはそのように設計されているわけではなく、あくまで入力画像の次フレームとして尤もらしい画像を出力しているに過ぎません。動画を生成するモデルとしては不完全ですが、逆にその不完全性をうまく扱うことで、有機的でどこか崩れたような質感を付与することができました。

ニューラルネットワークによる学習では、記号接地問題で知られているように、人間のように記号と意味を結び付けて物事を理解することは現時点ではできていません。しかし、今回のデザインにおいては、記号と意味との不完全な結びつきによってこそ生まれたと考えることもできます。これまで慣れ親しんできたものの見方を意識的に変えていくことは難しいことだと思います。その点、機械学習をデザインなどの創作過程に組み込むことで、自分の視点に揺さぶりをかけ今まで持ち得ていなかった新しい視点にも気づくことができたように思います。今後も、AI技術を用いた創作の可能性について探究を深めていきたいと思います。

参考：

・Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, Alexei A. Efros, “Image-to-Image Translation with Conditional Adversarial Networks”, CVPR, 2017
・Ting-Chun Wang and Ming-Yu Liu and Jun-Yan Zhu and Andrew Tao and Jan Kautz and Bryan Catanzaro, “High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs”, CVPR, 2018

この記事が気に入ったらサポートをしてみませんか？