見出し画像

分類AIの進化史⑲Swin Transformer

前回は、ビジョン・トランスフォーマー(ViT、VisionTransformer)を解説しました。今回は、2021年に、Microsoftが発表した新しいビジョン・トランスフォーマーであるSwin Transformerを紹介します。

論文のタイトルは、「Swin Transformer: Hierarchical Vision Transformer using Shifted Windows」です。

Swin Transformerは異なる大きさのパッチを用いて画像処理を行うことで、階層的な特徴量を抽出することを得意とします。そのため、画像分類、物体検出セマンティック・セグメンテーションといった様々なコンピュータビジョン系のタスクで使えるバックボーン(骨組み、Backbone)を提供することができます。

GoogleのViTでは、16x16のパッチを使いましたが、Swin Transformerでは、4x4のパッチを使います。よって、パッチの数ははるかに多くなり、細かい特徴を捉えることが可能です。しかし、ViTのように画像全体からのパッチ全てに対してアテンション機構を適用すると計算量が多くなりすぎてしまいます。例えば、セマンティック・セグメンテーションなどの高解像度の画像を使う場合、パッチの量が多くて処理時間が長くなり実用的ではありません。

そのため次のようなジレンマ(相反する状況)が生じます。

  • より細かい特徴を捉えるために、より小さなパッチを使用したい。

  • より小さいパッチを使うとアテンションの計算量が増加する。

これは物体検出やセマンティック・セグメンテーションなどより高解像度の大きな画像の処理において問題になりがちです。

このジレンマをSwin Transformerは解決します。そのカギは、Swinという略ごに秘められたShifted Windows(シフトされたウィンドウたち)です。その意味については、本文で解説します。


ここから先は

8,161字 / 14画像

キカベン・読み放題

¥1,000 / 月
初月無料
このメンバーシップの詳細

この記事が気に入ったらサポートをしてみませんか?