Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
Fan, Yang, Kankanhalli et al.
When modeling a given type of data, we consider it to involve two key aspects: 1) identifying relevant elements (e.g., image pixels or textual words) to a central element, as in a convolutional receptive field, or to a query element, as in self-attention, and 2) encoding these tokens effectively. Self-attention can adaptively identify these elements but relies on absolute positional embedding for structural representation learning. In contrast, convolution encodes elements in a relative manner, yet their fixed kernel size limits their ability to adaptively select the relevant elements. In this paper, we introduce Translution, an operation that unifies the adaptive identification capability of self-attention and the relative encoding advantage of convolution. However, this integration leads to a substantial increase in the number of parameters, exceeding most currently available computational resources. Therefore, we propose a lightweight variant of Translution, named α-Translution. Experiments on computer vision and natural language processing tasks show that Translution (including α-Translution) achieves superior accuracy compared to self-attention. The code is available at https://github.com/hehefan/Translution.
데이터 모델링 시 저자들은 두 가지 핵심 측면이 관련되어 있다고 주장합니다: 1) 중심 요소(합성곱의 수용 영역 등) 또는 쿼리 요소(자기주의 등)와 관련된 요소 식별; 2) 이러한 토큰들을 효과적으로 인코딩. 자기주의는 이러한 요소들을 적응적으로 식별할 수 있지만 절대 위치 임베딩에 의존하여 구조 표현 학습을 수행합니다. 이와 대조적으로 합성곱은 상대적 방식으로 요소들을 인코딩하지만, 고정된 커널 크기는 관련 요소를 적응적으로 선택하는 능력을 제한합니다. 본 논문은 자기주의의 적응형 식별 능력과 합성곱의 상대적 인코딩 장점을 통합한 Translution 연산을 제안합니다. 그러나 이러한 통합은 매개변수 수를 대폭 증가시켜 현재 대부분의 계산 자원을 초과합니다. 따라서 저자들은 경량 변형인 α-Translution을 제안합니다. 실험 결과 Translution은 컴퓨터 비전 및 자연어 처리 작업에서 자기주의를 능가합니다.
상대 위치 인코딩 관련 연구 (Shaw et al., 2018; Liu et al., 2021 등)
합성곱 신경망 고전 연구 (LeCun et al., 1998; He et al., 2016 등)
종합 평가: 이는 이론과 실제 모두에서 기여하는 고품질 논문입니다. 높은 계산 자원 요구 문제가 있지만, α-Translution 변형의 제안이 성능과 효율성을 잘 균형 있게 조화시킵니다. 본 논문은 심층 학습 기본 연산의 통합에 새로운 관점을 제공하며 중요한 학술적 가치와 실용적 의미를 가집니다.