見出し画像

Image GPT

以下の記事を参考に書いてます。

OpenAI BLOG : Image GPT

1. はじめに

言語で学習した大規模モデルがもっともらしい(論理的に一貫性がある)なテキストを生成できるのと同じように、画像で学習した大規模モデルがもっともらしい画像を生成できることを発見しました。サンプル品質と画像分類精度の相関関係を確立することにより、私たちの教師なし学習の生成モデルは、畳み込みに匹敵する特徴を含むことを示しています。

2. Image GPT

「教師なし学習」と「自己教師あり学習」(人間がラベル付けしたデータを用いない学習)は、機械学習の長期にわたる課題です。最近では、「BERT」「GPT-2」「RoBERTa」「T5」などのTransformerモデルが、様々な言語タスクでトップの性能を達成しています。しかし、画像分類のための強力な特徴量を生成することには成功していません。私たちの研究は、このギャップを理解し、橋渡しすることを目的としています。

「BERT」や「GPT-2」などのTransformerモデルはドメイン付加知で、どのような形式の1次元シーケンスにも直接適用できます。

私たちが「iGPT」と呼んでいるモデルは、長いピクセルシーケンスに展開した画像で「GPT-2」を訓練することで、物体の外観やカテゴリなどの2次元画像の特徴を理解しているように見えます。これは、人間がラベル付したデータを用いなくても、コヒーレントな画像を生成できることによって証明されています。さらに、このモデルの特徴量は、多くの分類データセットにおいてトップ性能を発揮し、ImageNet上ではほぼトップの教師なし精度を達成していることを証明しています。

画像1

一般的な「教師なし学習」の可能性を強調するために、意図的に「GPT-2」と同じTransformerを使用しています。結果として、畳み込みに匹敵するために大量の計算が必要になりました。

ただし、正しいモデルの事前分布が不明な新しいドメインに直面した場合、大規模なGPT-2はドメイン固有のアーキテクチャ設計の選択を必要とせずに優れた特徴を学習できることを、私たちの結果は示しています。

画像2

人間が提供した半分の画像から、残り半分を生成しています。

3. 言語GPTから画像GPTへ

言語では、単語予測の教師なし学習アルゴリズム(GPT-2やBERTなど)が非常に成功しており、多くの言語タスクでトップ性能を達成しています。

その理由は、下流の言語タスクのインスタンスがテキストに自然に現れていることです。対照的に、画像のシーケンスは、それらが属する画像のラベルを明確に含んでいません。

このように明示的な教師がなくても、画像上の「GPT-2」が機能する理由はあります。次のピクセル予測で訓練された大規模Transformerは、最終的には明確に認識可能なオブジェクトを持つ多様なサンプルを生成することを学習するかもしれません。いったん学習すると、「Analysis by Synthesis」として知られている考え方は、モデルがオブジェクトのカテゴリについても知っていることを示しています。初期の生成モデルの多くはこのアイデアに動機づけられており、最近では「BigBiGAN」が有望なサンプルと特徴を生成した例になります。私たちの研究では、より優れた生成モデルがより強い分類性能を達成することを示します。次に、「GPT-2」を生成能力のために最適化することで、多くの設定でトップレベルの分類性能を達成し、合成による分析のための更なる証拠を示します。

4. 一般的な教師なし学習に向けて

生成シーケンスモデリングは、一般的な教師なし学習アルゴリズムです。全てのデータ型はバイトのシーケンスとして表現できるため、追加のエンジニアリングなしにTransformerをどのようなデータ型にも直接適用できます。私たちの研究では、「GPT-2」の自然言語学習に使用したアーキテクチャを画像生成に直接適用することで、この汎用性の威力をテストしています。私たちは、意図的に画像特有の知識をコーディングするのを見送ることにしました。

この手法は一般的な手法であるため、教師なしで競争力のある性能を得るためには、大量の計算を必要とします。実際,画像から高品質の特徴量を生成するためには、コントラスト法が最も計算効率の高い手法であることに変わりはありません。しかし、教師なしTransformerモデルが最高の教師なし畳み込みと匹敵することを示すことで、私たちはハンドコード化されたドメイン知識と計算量をトレードオフすることが可能であることを示しています。ハンドコード化する知識があまりない新しい領域では、スケーリング計算はテストに適した手法であると思われます。

5. アプローチ

iGPT-S (76M)、iGPT-M (445M)、iGPT-L (1.4B)をImageNetで訓練します。iGPT-XL (6.8B)もImageNetとWeb画像を組み合わせて訓練します。計算コストが大きいため、32x32、48x48、64x64の低解像度で訓練しています。

計算コストをさらに削減するために、さらに低い解像度で訓練するのは魅力的ですが、画像分類における人間のパフォーマンスがこれらのサイズを急速に下回り始めていることが、以前の研究で実証されています。代わりに、初期のカラーディスプレイパレットを元に、ピクセルを表す独自の9ビットカラーパレットを作成します。このパレットを使用すると、標準の(R,G,B)パレットより3倍短い入力シーケンス長が得られます。

6. 実験結果

モデルの性能評価方法は2つあり、どちらも下流の分類タスクを含みます。1つ目は「リニアプローブ」と呼ばれる方法で、訓練されたモデルを使用して下流のデータセットの画像から特徴を抽出し、ラベルにロジスティック回帰を適合させます。2つ目の方法は、下流のデータセット上でモデル全体をファインチューニングします。

次のピクセル予測は画像分類には明らかに関係がないので、最終層の特徴は物体のカテゴリ予測に最も適していない可能性があります。私たちの最初の結果は、特徴量の質が深度の関数として急激に増加し、その後は緩やかに減少することを示しています。この挙動は、Transformer生成モデルが2つのフェーズで動作することを示しています。第1フェーズでは、各位置が文脈に沿った画像特徴を生成するために、周囲の文脈から情報を収集します。第2フェーズでは、この文脈化された画像特徴が条件付き次のピクセル予測タスクを解くために使用されます。私たちのリニアプローブで観測された2段階の性能は、別の教師なしニューラルネットであるボトルネックオートエンコーダーを彷彿とさせます。

画像4

特徴の品質は、評価する層に大きく依存します。教師ありモデルとは対照的に,これらの生成モデルの最良の特徴はネットワークの中央にあります。

私たちの結果は、生成性能と特徴量の品質の間のリンクを確立しています。私たちは、モデルの規模を大きくすることと、より多くの反復訓練することの両方が生成性能の向上につながり、それが特徴品質の向上につながることを発見しました。

画像5

各ラインは、生成的な事前学習全体を通じてモデルを追跡します。点線のマーカーは、ステップ131K、262K、524K、1000Kでのチェックポイントを示します。 正の勾配は、生成パフォーマンスの向上と特徴品質の向上の間のリンクを示唆しています。 大きいモデルは、小さいモデルよりも優れた特徴も生成します。 iGPT-XLは別のデータセットで訓練されたため、含まれていません。

CIFAR-10、CIFAR-100、STL-10で「リニアプローブ」を使用して特徴を評価すると、「教師あり」および「教師なし」の全ての転送アルゴリズムの特徴より優れています。私たちの結果は、完全なファインチューニングでも魅力的です。

画像6

「教師なし」または「教師あり」のImageNet転送を利用した上位モデルとの間のリニアプローブとファインチューニング精度の比較。また、CIFAR上でエンド・ツー・エンドで学習された最高性能のモデルであるAutoAugmentも含まれています。

ImageNet上での「教師なし学習」「自己教師あり学習」への関心が復活していることを踏まえ、ImageNet上でのリニアプローブを用いたモデルの性能も評価します。これは,ImageNetの標準的な入力解像度では学習しないため、特に困難な設定です。それにもかかわらず、48x48画像上で学習されたiGPT-Lのベストレイヤーの1536個の特徴に対するリニアプローブは、65.2%のトップ精度を達成し、AlexNetを上回りました。

対照法は通常、8192個の特徴量で最良の結果を報告するので、比較のために8192個の埋め込み次元でiGPTを評価するのが理想的です。しかし、このようなモデルを学習するのは非常に高価なので、代わりに複数のレイヤーからの特徴を連結して近似します。残念ながら、特徴はレイヤー間で相関がある傾向があるため、競争力を高めるためにはより多くの特徴が必要です。iGPT-XLで5つのレイヤーから15360個の特徴を取得すると、72.0%のトップ1の精度が得られ、AMDIM、MoCo、CPC v2を上回りますが、SimCLRをかなりのマージンで下回る結果となりました。

画像7

私たちのモデルと最先端の自己教師ありモデルとのリニアプローブ精度の比較。私たちの手法はより多くのパラメータと計算量を必要としますが、はるかに低い入力分解能で学習しながらも競争力のある性能を達成しています。

BERT のようなマスクされた言語モデルは、ほとんどの言語タスクにおいて生成モデルよりも優れた性能を示しているので、私たちの画像モデルにおける BERT の性能を評価します。先行するすべてのピクセルを与えられた次のピクセルを予測するように私たちのモデルを訓練する代わりに、15%のピクセルをマスクし、マスクされていないピクセルからそれらを予測するように私たちのモデルを訓練します。BERTモデルにおけるリニアプローブの性能は著しく悪いが、ファインチューニングの際には優れていることがわかりました。

画像8

32^2×3の入力解像度でiGPT-Lを用いた生成的事前訓練とBERT事前訓練の比較。 太字はBERTマスクのアンサンブルによる性能向上を示している。事前学習後、生成モデルはBERTモデルよりもはるかに優れた特徴を生成しますが、BERTモデルはファインチューニング後に追いつくことがわかります。

教師なし学習は、人間がラベリ付加したデータを必要としない優れた特徴を持ちますが、最近では、人間がラベル付加したデータの量が限られている半教師あり学習という、より寛容な枠組みの下で大きな進歩が見られます。成功している半教師あり学習は、しばしば一貫性の正則化、データ拡張、擬似ラベリングなどの巧妙な技術に依存しており、純粋な生成ベースのアプローチは何年も競争力がありませんでした。私たちはこの分野の競合ベンチマークでiGPT-Lを評価し、非増大画像からの特徴量に対する単純なリニアプローブがMean TeacherとMixMatchを上回るが、FixMatchには劣ることを発見しました。

画像9

低データのCIFAR-10での性能の比較。多くのラベル付けされていないImageNet画像を利用することで、iGPT-LはMean TeacherやMixMatchなどの手法よりも優れた性能を発揮しますが、最先端の手法よりも劣ります。私たちの半教師付き学習へのアプローチは非常にシンプルで、データの増強や微調整を一切行わずに、iGPT-Lの特徴にロジスティック回帰分類器を適合させるだけなので、特別に設計された半教師付きアプローチとは大きな違いがあります。

7. 制限事項

「iGPT」が強力な画像特徴量を学習できることを示しましたが、私たちのアプローチには、まだ大きな制限があります。

言語では「GPT-2」で使用されている一般的な「シーケンスTransformer」を使用しているため、大量の計算を必要とします。「iGPT-L」は約2500V100日で学習したのに対し、同様の性能を持つ「MoCo」は約70V100日で学習しました。私たちはトランスを使って低解像度入力をモデル化していますが、ほとんどの自己学習結果は、高解像度入力を簡単に消費できる畳み込みのエンコーダを使用しています。さらに拡張するためには、ドメインにとらわれないマルチスケールTransformerのような新しいアーキテクチャが必要になるかもしれません。これらの制限を考えると、私たちの研究は主に、大規模なTransformerが、ハードコード化されたドメイン知識を必要とせずに、新しいドメインで優れた教師なし表現を学習する能力を実証することを目的としています。しかし、これらのモデルを学習するためのリソースコストが高く、畳み込みの手法の方が精度が高いため、これらの表現はVision領域での実用的な実世界での応用には適していません。

最後に、生成モデルは訓練されたデータの結果としてバイアスを示すことがあります。これらのバイアスの多くは有用です。例えば、茶と緑のピクセルの組み合わせが葉で覆われた枝を表すと仮定し、このバイアスを使って画像を継続することができます。しかし、これらのバイアスの中には、公平性と表現のレンズを通して考えると有害なものもあります。例えば、モデルが男性に偏った科学者の視覚的な概念を開発した場合、性別が混在するのではなく、男性が登場する科学者のイメージを一貫して完成させることになるかもしれません。開発者は、システムに入力するデータにますます注意を払い、それが訓練されたモデルのバイアスと、どのように関係しているかを、よりよく理解する必要があると予想されます。

8. おわりに

私たちは、「シーケンスTransformer」が畳み込みに匹敵する特徴を含むことを示しました。特筆すべきは、「GPT-2」を画像生成に直接適用することで、この結果を達成したことです。

私たちの結果は、そのシンプルさと汎用性から、十分な計算が与えられた「シーケンスTransformer」が、多くの領域で優れた特徴を学習するための効果的な方法になる可能性を示しています。

次回



この記事が気に入ったらサポートをしてみませんか?