반응형 Learning1 [논문리뷰] ViT(Vision Transformer)란? Vision Transformer(ViT)은 이미지 인식에 Transformer 구조를 도입한 모델로, 기존의 CNN(convolutional neural network) 기반 모델과는 다른 방식으로 이미지를 처리합니다.아래는 ViT의 구조와 동작 방식, 장단점에 대한 자세한 설명입니다.🔍 1. 개념 요약Vision Transformer(ViT)는 이미지를 CNN처럼 convolution 연산 없이, Transformer의 self-attention 메커니즘을 기반으로 처리하는 모델입니다.ViT는 2020년 Google의 논문 “An Image is Worth 16x16 Words” 에서 소개되었습니다. https://doi.org/10.48550/arXiv.2010.11929 An Image is W.. 2025. 6. 6. 이전 1 다음 반응형