G検定 DALL・E

2021年1月20日 08:29

株式会社リュディアです。OpenAI が 2021年1月5日に発表した DALL・E について簡単にまとめてみます。

Open-AI が 2021年1月5日に DALL・Eを発表しました。DALL・E というモデル名は芸術家のダリ（Dali）とピクサーの WALL・Eを組み合わせた造語（かばん語）からとったそうです。

OpenAI と GPT-3 について過去にまとめた記事は以下です。予備知識の無い方は事前に御覧ください。

OpenAI の DALL・E のページを開くと以下の文が表示されます。

We’ve trained a neural network called DALL·E that creates images from text captions for a wide range of concepts expressible in natural language.

（訳）自然言語で表現可能な幅広い概念に対するキャプションから画像を生成する DALL・E と呼ぶニューラルネットワークをトレーニングしました。

キャプションとは写真や絵に添えられた説明文のことです。画像や写真からキャプションを生成する技術は過去にも報告されています。NIC (Neural Image Caption) というモデルでは、CNN で画像から特徴を抽出しRNN でテキストを生成していました。

今回の DALL・E はキャプションから画像を生成しています。DALL・E は GPT-3 を使っています。紹介ページに以下のような文があります。

DALL·E is a 12-billion parameter version of GPT-3 trained to generate images from text descriptions, using a dataset of text–image pairs. We’ve found that it has a diverse set of capabilities, including creating anthropomorphized versions of animals and objects, combining unrelated concepts in plausible ways, rendering text, and applying transformations to existing images.

（訳）DALL・E はテキストと画像をペアにしたデータセットを使い、テキストの説明から画像を生成するためにトレーニングされた GPT-3 の 120億のパラメータを使ったバージョンです。動物や物体の擬人化されたバージョンの作成、無関係な概念をもっともらしい方法で組み合わせること、テキストのレンダリング、既存画像への変換の適用など、多様な能力を持っていることがわかりました。

GPT-3 を利用しているようです。120億のパラメータを利用しているとのことなのですが、GPT-3 は上限 1750億のパラメータを利用可能なのでGPT-3 の縮小版を利用したとも言えます。また CLIP という画像の中に何があるかを読み取るモデルも使われていることが記載されています。

上記 DALL・Eのページにはさまざまなサンプルが提示されています。

an illustration of a baby daikon radish in a tutu walking a dog（大根の赤ちゃんが犬の散歩をしているイラスト）

an armchair in the shape of an avocado (アボカド型のアームチェア)

実際に見てみてください。なかなかの出来です。素人がちょっとした画像を作りたいレベルであれば十分なレベルに感じました。

紹介ページの中に We plan to provide more details about the architecture and training procedure in an upcoming paper. と記載されています。アーキテクチャとトレーニング方法の詳細は近いうちに論文を発表予定とのことです。楽しみにしておきましょう。

では、ごきげんよう。

この記事が気に入ったらサポートをしてみませんか？