반응형 Transformer2 [논문 리뷰] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows Swin Transformer: Hierarchical Vision Transformer using Shifted Windowshttps://arxiv.org/abs/2103.14030 Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsThis paper presents a new vision Transformer, called Swin Transformer, that capably serves as a general-purpose backbone for computer vision. Challenges in adapting Transformer from language to vision arise from differences.. 2025. 8. 14. [논문리뷰] ViT(Vision Transformer)란? Vision Transformer(ViT)은 이미지 인식에 Transformer 구조를 도입한 모델로, 기존의 CNN(convolutional neural network) 기반 모델과는 다른 방식으로 이미지를 처리합니다.아래는 ViT의 구조와 동작 방식, 장단점에 대한 자세한 설명입니다.🔍 1. 개념 요약Vision Transformer(ViT)는 이미지를 CNN처럼 convolution 연산 없이, Transformer의 self-attention 메커니즘을 기반으로 처리하는 모델입니다.ViT는 2020년 Google의 논문 “An Image is Worth 16x16 Words” 에서 소개되었습니다. https://doi.org/10.48550/arXiv.2010.11929 An Image is W.. 2025. 6. 6. 이전 1 다음 반응형