Vit(VisionTransformer)について理解を深める第一部 [Input layerについて理解する]
1.VisionTransfomerってなに?Visiontransfomerというものは、Attension(注意機構)を活用した画像分類モデルです。
VisionTransfomerが登場する前は、ResNetやEfficientNetなどのCNN(畳み込みニューラルネットワーク)が主流かつ高精度なモデルでした。
しかし、
2020年にVit(VisionTransfomer)が登場したのです。
Vitは簡潔に説明すると、高精度かつ学習コストがCNNよりも少ないモデルです