マガジンのカバー画像

トランスフォーマーを理解する

22
2017年に、Googleの研究者であるAshish Vaswaniらのチームが発表したトランスフォーマー (Transformer)のアーキテクチャは、近年におけるディープラー…
運営しているクリエイター

#ビジョン・トランスフォーマー

BERTとViT、言語とビジョンモデルの比較

BERTとViT(Vision Transformer、ビジョン・トランスフォーマー)はそれぞれ言語とビジョンのモデルだが同じトランスフォーマーのエンコーダをベースにしています。 この記事では、この二つのモデルを比較して共通点と違いを簡単に考察します。 埋め込みベクトルの作り方相違点 BERTとViTとの1番の違いは埋め込みベクトルを文章から作るBERTに対してViTは画像のパッチから作ります。 BERT BERTは次の前処理を行い入力文章の埋め込みベクトルを準備し

ビジョン・トランスフォーマーとは

画像分類はコンピュータビジョンにおいて重要なタスクの1つです。従来の画像分類のアプローチとして、畳み込みニューラルネットワーク(CNN)があり、定番の手法として定着していました。 2020年、Google Brainチームは、CNNを使用しない画像分類モデルであるビジョン・トランスフォーマー(Vision Transformer、ViT)を開発しました。 ViTは、分類のために画像パッチのシーケンスに直接トランスフォーマーのエンコーダーを適用します。 最近(2023年2月