[ViT] Vision Transformer란?
[ViT] Vision Transformer란? CNN등장 이후, 지난 20여년간 Computer Vision 분야에서는 CNN기반 모델(AlexNet, VGGNet, ResNet, DenseNet, NasNet, EfficientNet 등)이 사용되었습니다. CNN기반 모델이 대부분의 SOTA성능을 갖던 중 작년, 2021년에 Vision Transformer가 등장하며 ImageNet기준 1, 2위를 차지하였습니다. 이번 포스팅에서는 Vision Transformer에 대해 다루어 보도록 하겠습니다. 1. Attention Intuition 다음과 같이 $1\times1$ Convolution Filter를 통과한 이미지 Feature가 있을 때, Attention을 통하여 어느 부분이 중요한지, 중..