見出し画像

創造的AIと敵対的AIの不思議な関係、そしてアイデンティティへの脅威 - GAN を概観

本記事は、2020年1月に執筆した生成系モデルに関する記事で、現在の生成AIにつながるポテンシャルを論じています。生成AIに関しては以下の記事を参照ください。


本記事は、創造する AI である Creative AI、そしてそのトレンドの原動力でもある GAN (敵対的生成ネットワーク)についての記事です。創造と敵対というある種相容れないような2つのキーワードが、実はつながっていて新しい分野を切り開きつつ、同時に新しい問題を我々に突きつけているという話です。


Creative AI とは

ディープラーニング等の機械学習のアプローチを用い、データから学習を行ったモデルを構築して様々な分野での識別や予測を実現していくというAIの活用は、徐々にかつ着実に浸透してきています。そのような中、識別や予測という利用法から、今やAIに新しいデータやコンテンツを作り出させるという世界が始まってきています。それが、「創造するAI」=“Creative AI”の世界です。

Creative AIとは、そもそもどんなもので、従来のAIと比較してどのような違いがあるのでしょうか。2018年に開催された世界経済フォーラムで、「Creative Economy」の将来について議論されました。その際に、Creative Economy の定義についてもディスカッションされ、そこで示されたポイントが3つありました。1つ目は、非反復的であること。これは、決められたことや同じことを繰り返すのではなく、毎回一つ一つ異なる、一点別のものを作るということです。例えば、ルールとして定義されたことをただ実行するのではなく、あるいは、様々な大量のデータの中から法則性を発見しそこへ向けて最適化していくというのではなく、毎回異なることを実行します。2つ目は、専門的な知識体系に基づいて作ること。個別の知識でなく、しっかりとした知識の枠組みがなければ実現できないものを作るということです。単に表面的にマネたり、でたらめにやったり、確率任せに実行したりするわけではないということになります。3つ目のポイントは、経済的に価値のあるものを作る。ガラクタを生み出すのではなく、ちゃんとマーケットで価値があると認められ、価格がついて取引されるものを作るということ。この3つを満たすビジネスが Creative Economy であり、これに沿ったアウトプットを作り出す AI を Creative AI と呼びます。

小説を執筆したり、絵を描いたり、音楽を作曲するAI というのはわかりやすい例です。それ以外にも映画の脚本を書きあげたり、予告編を作ったり、報道の分野ではニュース記事や原稿を作成したり、広告分野では広告のキャッチコピーを生成したり、まさにクリエティブそのものを制作したり、ECの分野でも商品説明文を書いたり、またランディングページそのものを構成したり等、多様な応用がありえます。

つまり、Creative AI という言葉は、特定の技術やプロダクトを指すのではなく、創作をするアプリケーション全般を指すものということになります。そのため、実現するための技術要素は新旧問わず色々ありえて、ディープラーニングより前に注目された様々な機械学習のアプローチやアルゴリズムで実現することもあれば、機械学習を一切用いないテンプレートやルールベースのアプローチで実現することもあります。とはいえ、Creative AI の議論が盛り上がり、多くの事例が見受けられるようになってきた背景には、ディープラーニング技術の発達により、生成系の技術として GAN(敵対的生成ネットワーク)が提案され、GANベースの新しくコンテンツを作り出す AI に注目が集まったということがあります。


GAN (敵対的生成ネットワーク)

GAN は、Generative Adversarial Network の略で、日本語では敵対的生成ネットワークと訳されます。主にコンピュータービジョンの領域におけるディープラーニングの発展の中、登場してきました。

生成系の技術としては、以前よりボルツマンマシンやオートエンコーダーを使う手法がありましたが、それらを上回る効率的手法として、カナダのモントリオール大学で博士課程の学生だったIan J. Goodfellow 氏によって2014年に論文が発表されました。

GANは学習時に不安定なケースが存在していましたが、翌年の2015年により高品質なデータ生成と安定した学習を行うGANとして、畳み込みニューラルネットワーク(CNN)で見られる畳み込み層をネットワークに適用したDCGAN(Deep Convolutional GAN)が提案され、一気にブームとなりました。

GANは、サンプルデータを用いない「教師なし学習」の一種です。「生成系技術」と前述しましたが、GANは通常はパターンを学習していくのに用いるニューラルネットワークを2つ組み合わせることで、逆にパターンを作り上げていくことを実現しています。つまりは、データから特徴を学習した上で、新しくデータを生成したり、存在するデータの特徴に沿って変換することができます。生成されたデータはもちろん実際に存在していなかったデータとなります。新規コンテンツの生成やフェイクデータの生成が主たる活用領域ですが、技巧的な応用としては、以下のようなデータ拡張の手段としても使われます。

さて、GANでは、生成器(Generator)と識別機(Discriminator)という2つのニューラルネットワークを併用し、データ生成のモデルをブラッシュアップしていきます。その過程は、このような偽造紙幣を作るというメタファーを使って説明できます。

あなたは偽造紙幣を作っている人だとします。偽造100ドル紙幣を作ろうとします。いくつか偽造100ドル紙幣を入手し、それを調べて自分も偽造紙幣を作ろうとします。最初は何もわからないのでまずは思いつきで(ランダムで)手を入れて偽造紙幣を作ります。そして、コンビニに行ってそれを使おうとします。

もし紙幣の受け取りを拒絶されたら、店員に、どうしてこれが偽造紙幣だと気づいたんですかと尋ねます。店員は「本物の紙幣と違って、この紙幣はここがおかしいんですよ」と答えるとします。あなたはそのフィードバックを持ち帰って、それを踏まえて、改良型の偽造紙幣を作ります。そしてまた同じコンビニに行き、同じ店員相手に偽造紙幣を使おうとすることを繰り返します。現実問題では二回目で通報されてそのまま捕まってしまうわけですが、ここはたとえ話、何度でも繰り返せます。もちろんあなたが作り出す偽造紙幣はどんどん精巧になっていきますが、実は店員も偽造紙幣を見破る能力を同時に向上させており、偽造紙幣を作る・見破るというこのやり取りの応酬により、お互いのスキルを高めあっていくことになります。

このたとえでは、あなたは Generator であり、店員が Discriminator です。そしてこのやり取りの結果誕生するであろう、見破られることのない精巧な偽造紙幣とは、生成したい新しいデータということになります。つまり、2つのニューラルネットワークが戦い合うことで、より高度な本物のデータに近い、新データを作り出すことになります。この戦い合う関係から、敵対的生成ネットワーク (Generative = 生成、Adversarial = 敵対的)という名前がつけられています。

GANの事例

GAN を使ったアプリケーションは例えばどのようなものがあるかというところですが、例えば新しいアニメのキャラクター、ゲームのキャラクター等の生成を行うというのは非常にわかりやすい応用です。また例えばムンクが描いたようにしか見えない、ムンク風の絵を描き出すということもできます。実際、AIによって制作された芸術作品として初めてクリスティーズ(Christie’s)で競売された作品は、GAN によって作られています。

面白い事例としては、GPUメーカーのNVIDIAが、大量の画像を学習させたGANによる、GauGAN という、単純な塗り絵からリアルタイムに景色を生成する支援デモアプリを発表しています。軽く塗っただけの塗り絵が美しい景色へとダイナミックに変換されていく様は衝撃的です。

GauGAN ですが、単なる絵かき支援のデモというPoCにとどまらず、以下のビデオでは、アーティストやクリエイターと GauGAN によるコラボと、彼らのより深い創造性を引き出す可能性について説明されています。


更に面白い事例としては、2018年にMicrosoft Research が発表した、Attentional モデルを導入したAttnGANによる、「文章からの絵の生成」があります。

例えば、「黄色い身体で、黒い羽根で短いくちばしの鳥」と入れると以下のような画像を作り出します。

画像1

例えばこれを応用させていけば、小説を読み込むと自動的に挿絵を作理出すという応用も実現されていくかもしれません。

静止画だけではありません。GANは、動画の編集・変換も可能です。例えば、以下は、GAN の発展型の一つ CyclicGAN による馬の動画をシマウマの動画に変換するというもので、また現在はこのような処理をリアルタイムで行うことが可能になっています。

これまで見てきたように、GAN の技術はパワフルであり、画像・映像のジェネレーションに大きな可能性を持っています。これは、デジタルコンテンツビジネスや広告ビジネスのゲームチェンジャーになりえます。NVIDIA のGauGAN のデモのように、コンテンツ生成を支援する領域での活用を中心に多彩なユースケースが開拓されていくことが期待されます。


アイデンティティへの脅威

しかし、一方でこのようなGAN等の生成系技術に対する懸念点も指摘されてきています。

上記のCNBCのレポートでは、冒頭で映像の中の人物の顔を別の人物に置き換えるフェイススワップが紹介されています。いわゆる Deep Fake という技術です。

従前、このような映像を作り出せるのは、潤沢な予算と人員、ハードウェアやソフトウェアを有した映画スタジオだけでした。しかし、CNBCのこのレポートが警告するように、今ではこのような映像編集技術はオープンソースで入手でき、ダウンロードから数時間で元映像の加工を完了させることが可能になりました。このような技術は、芸能人や政治家のようにサンプルとなる映像が多くある人物は標的になりやすく、言ったこともないような発言をしている映像を作られて貶められたり、また出演していない広告映像を作られて、商品の不正な宣伝等に使われてしまう可能性があります。そして、GAN を中心とした機械学習の進歩は、更に繊細な映像編集を可能にさせ、映像のサンプルが少ない一般人を対象としたものでもオリジナルの映像と偽造の映像を人が見分けるのは極めて困難になるでしょう。早晩、我々は映像だけを見て、その人が本当にその発言をしているのか、確かめる手段がなくなるかもしれません。

大げさな言い方をすれば、これは今までに人類が経験したことのない、情報の信憑性に関する大きな挑戦であり、また自分の複製が自分の意図しないところで意図しない発言をさせられるという、アイデンティティ、ひいては人間の尊厳への挑戦であると言えます。今後はテクノロジーの発達により、人間の尊厳や自らのアイデンティティが大きなテーマになりうることは以下の第四次産業革命の記事でも言及しました。

終わりに

Creative AI というアプリケーション、そしてその原動力たるGAN は、AI の更なる可能性を切り開き、NVIDIAのビデオにもあるように我々の創造性を引き出してくれるポテンシャルも持ちますが、それと同時に我々は Deep Fake 等による今までにない脅威も目にすることになりました。ビジネスがどう変わっていくかというポジティブな視点を持ちながらも、情報の信憑性が今後どうなってくるのか、我々の情報リテラシーは今後どのようにアップデートされるべきなのかという懸念点もあわせて議論しつつ、これら新しい脅威に対する備えを社会的に構築していくことも非常に重要だと言えます。


おまけ

以下は、以前 CreativeAI と GANについて解説した講演資料です。本記事で触れていない Creative AIの事例にも触れています。もしご興味がありましたら、こちらも御覧ください。


また、以下は、Creative AI の言語版といえる、NLG に関する記事です。こちらもどうぞ。


この記事が気に入ったらサポートをしてみませんか?