AI
[논문리뷰] EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction
마농농
2025. 2. 20. 00:24
0. EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction
https://arxiv.org/pdf/2205.14756
* 시간 복잡도 햇갈릴 때 쉽게 생각 하는 법 :
하나의 항이(피연산자A) 다른 "몇개의 항과"(피연산자B) 연산하는 지 우선 생각
> 그리고 그 값에 모든 항의 개수를(피연산자A) 곱해준다
1. 기존 Self-Attention 의 한계 by softmax
2. Linear Attention으로 solution
- key, value를 미리 계산하여 query와 연산함 (초록, 파랑)
- 기존 linear
- query와 key를 매번 연산해야하므로 복잡도는 quadratic
- 개선 linear
- ReLU로 인해 query는 미리 연산 가능해짐, 결합 법칙 적용 가능
- 이 점이 미리 계산 가능 + 메모리 사용량 감소
- 기존 linear
3. Linear Attention으로 인한 한계
- 다만 linear attention은 global한 측면은 강해지지만 local은 낮아짐
- 그림을 보면 softmax는 붉은 부분이 강조됨 > local한 능력 강함
- ReLU는 반대로 연함 > local한 능력 감소
- 그래프를 보아도, ReLU는 최저값이 증가하여 Global한 attention score를 보여줌
- 하지만 maximum값이 softmax보다 작음 > local한 능력 감소
- 그래도, latency는 개선됨
- 이유 : softmax는 hw 친화적이지 않은데, 이를 ReLU로 변환
- HW 친화적인 연산은 더하기, 곱하기 단순한 연산
- 결론 : 저전력 환경 (퀄컴 스냅드래곤 855) 에서도 Latency가 softmax보다 개선된 것을 볼 수 있음
- 이유 : softmax는 hw 친화적이지 않은데, 이를 ReLU로 변환