[논문리뷰] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
1. An Image is Worth 16x16 Words : Transformers for Image Recognition at Scalehttps://arxiv.org/pdf/2010.11929ICLR 2021배경 및 목적 : Transformer 는 NLP에서 표준이지만, 컴퓨터 비전에서는 응용이 제한적, 전통적으로 Vi는 CNN과 함께 attention을 사용주요 발견 : CNN에 의존하는 것은 필요하지 않으며, 이미지 Patch를 직접 사용하는 순수 Transformer가 이미지 분류 작업에서 더 잘 작동할 수 있음충분한 데이터를 pre-training한 후 여러 중소 규모 이미지 인식 밴치마크에서 ViT는 뛰어난 성능을 최신 CNN과 비교하면 보임성과 : ViT는 큰 데이터 셋 (14M ~ 3..
AI
2025. 2. 17. 12:24