AI

[논문리뷰] EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction

마농농 2025. 2. 20. 00:24

0. EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction

https://arxiv.org/pdf/2205.14756

 

* 시간 복잡도 햇갈릴 때 쉽게 생각 하는 법 :
하나의 항이(피연산자A) 다른 "몇개의 항과"(피연산자B) 연산하는 지 우선 생각
> 그리고 그 값에 모든 항의 개수를(피연산자A) 곱해준다

1. 기존 Self-Attention 의 한계 by softmax


2. Linear Attention으로 solution

 

  • key, value를 미리 계산하여 query와 연산함 (초록, 파랑)
    • 기존 linear
      • query와 key를 매번 연산해야하므로 복잡도는 quadratic
    • 개선 linear 
      • ReLU로 인해 query는 미리 연산 가능해짐, 결합 법칙 적용 가능
      • 이 점이 미리 계산 가능 + 메모리 사용량 감소

3. Linear Attention으로 인한 한계

  • 다만 linear attention은 global한 측면은 강해지지만 local은 낮아짐
    • 그림을 보면 softmax는 붉은 부분이 강조됨 > local한 능력 강함
    • ReLU는 반대로 연함 > local한 능력 감소
    • 그래프를 보아도, ReLU는 최저값이 증가하여 Global한 attention score를 보여줌
      • 하지만 maximum값이 softmax보다 작음 > local한 능력 감소
  • 그래도, latency는 개선됨
    • 이유 : softmax는 hw 친화적이지 않은데, 이를 ReLU로 변환
      • HW 친화적인 연산은 더하기, 곱하기 단순한 연산
    • 결론 : 저전력 환경 (퀄컴 스냅드래곤 855) 에서도 Latency가 softmax보다 개선된 것을 볼 수 있음

4. Multi-scale Aggregation으로 Linear Attention 해결