2025-11-21T23:25:16.078828

Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling

Fan, Yang, Kankanhalli et al.
When modeling a given type of data, we consider it to involve two key aspects: 1) identifying relevant elements (e.g., image pixels or textual words) to a central element, as in a convolutional receptive field, or to a query element, as in self-attention, and 2) encoding these tokens effectively. Self-attention can adaptively identify these elements but relies on absolute positional embedding for structural representation learning. In contrast, convolution encodes elements in a relative manner, yet their fixed kernel size limits their ability to adaptively select the relevant elements. In this paper, we introduce Translution, an operation that unifies the adaptive identification capability of self-attention and the relative encoding advantage of convolution. However, this integration leads to a substantial increase in the number of parameters, exceeding most currently available computational resources. Therefore, we propose a lightweight variant of Translution, named α-Translution. Experiments on computer vision and natural language processing tasks show that Translution (including α-Translution) achieves superior accuracy compared to self-attention. The code is available at https://github.com/hehefan/Translution.
academic

Translution: 자기주의와 합성곱을 통합한 적응형 및 상대적 모델링

기본 정보

  • 논문 ID: 2510.10060
  • 제목: Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
  • 저자: Hehe Fan (저장대학교), Yi Yang (저장대학교), Mohan Kankanhalli (싱가포르국립대학교), Fei Wu (저장대학교)
  • 분류: cs.LG cs.AI cs.CL cs.CV
  • 발표 시간: 2025년 10월 11일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.10060v1

초록

데이터 모델링 시 저자들은 두 가지 핵심 측면이 관련되어 있다고 주장합니다: 1) 중심 요소(합성곱의 수용 영역 등) 또는 쿼리 요소(자기주의 등)와 관련된 요소 식별; 2) 이러한 토큰들을 효과적으로 인코딩. 자기주의는 이러한 요소들을 적응적으로 식별할 수 있지만 절대 위치 임베딩에 의존하여 구조 표현 학습을 수행합니다. 이와 대조적으로 합성곱은 상대적 방식으로 요소들을 인코딩하지만, 고정된 커널 크기는 관련 요소를 적응적으로 선택하는 능력을 제한합니다. 본 논문은 자기주의의 적응형 식별 능력과 합성곱의 상대적 인코딩 장점을 통합한 Translution 연산을 제안합니다. 그러나 이러한 통합은 매개변수 수를 대폭 증가시켜 현재 대부분의 계산 자원을 초과합니다. 따라서 저자들은 경량 변형인 α-Translution을 제안합니다. 실험 결과 Translution은 컴퓨터 비전 및 자연어 처리 작업에서 자기주의를 능가합니다.

연구 배경 및 동기

문제 정의

현대 심층 학습이 직면한 핵심 과제는 데이터를 효과적으로 모델링하는 방법입니다. 저자들은 데이터 모델링을 두 가지 핵심 측면으로 분해합니다:

  1. 관련 요소 식별: 현재 처리 중인 요소와 관련된 데이터 요소 결정
  2. 효과적 인코딩: 이러한 관련 요소들을 효과적인 표현으로 인코딩

기존 방법의 한계

합성곱 신경망의 한계:

  • 고정 크기 커널을 사용하여 국소 수용 영역 정의
  • 특히 객체 경계나 배경 영역에서 무관한 픽셀 포함 회피 불가능
  • 국소 구조를 상대적으로 인코딩할 수 있지만 적응성 부족

자기주의 메커니즘의 한계:

  • 미리 정의된 국소성 제약 없이 관련 영역을 적응적으로 식별 가능
  • 구조 정보 캡처를 위해 절대 위치 임베딩에 의존
  • 동일한 객체가 다른 위치로 이동할 때 식별 어려움 가능

연구 동기

Transformer 등 모델의 직접 확장이 수익 감소에 직면하면서, AI 연구소들은 차세대 모델의 개선 속도가 예상보다 낮음을 인식했습니다. 데이터 포화 및 현재 확장 법칙의 제약 하에서 혁신적인 신경망 아키텍처 설계가 매우 중요해졌습니다.

핵심 기여

  1. Translution 연산 제안: 자기주의의 적응형 식별 능력과 합성곱의 상대적 인코딩 장점 통합
  2. α-Translution 경량 변형 설계: 매개변수 수를 대폭 감소시켜 현재 계산 자원에서 실행 가능하게 함
  3. 이론적 통합: 합성곱과 자기주의가 Translution의 특수한 경우임을 증명
  4. 실험 검증: 컴퓨터 비전 및 자연어 처리 작업에서 방법의 효과성 검증
  5. 오픈소스 구현: 커뮤니티 사용을 위한 완전한 코드 구현 제공

방법 상세 설명

작업 정의

입력 데이터(이미지 패치 또는 텍스트 토큰)가 주어졌을 때, 목표는 다음을 수행할 수 있는 연산을 학습하는 것입니다:

  • 쿼리 요소와 관련된 요소를 적응적으로 식별
  • 이러한 요소들의 구조 관계를 상대적 방식으로 인코딩
  • 효과적인 출력 표현 생성

모델 아키텍처

Translution 연산

Translution은 합성곱 스타일의 접근 방식을 채택하여 각 거리 및 방향에 대해 서로 다른 매개변수 행렬을 할당합니다:

상대 쿼리 인코딩: qi,j = fi · W^q_{δx,δy}, δx = xi - xj, δy = yi - yj
상대 키 인코딩: kj,i = fj · W^k_{-δx,-δy}
상대 주의: ai,j = (qi,j · k^T_{j,i})/√C', αi,j = e^{ai,j}/∑e^{ai,n}
상대 값 인코딩: vi,j = fj · W^v_{δx,δy}
가중 합계: f'i = ∑αi,j × vi,j

여기서 W^q_{δx,δy}, W^k_{δx,δy}, W^v_{δx,δy} ∈ R^{C×C'}는 해당 변위(δx,δy)에 대한 학습 가능한 매개변수 행렬입니다.

α-Translution 경량 변형

Translution이 (2H-1)×(2W-1)×C×C' 개의 매개변수를 필요로 하므로, α-Translution은 입출력 차원을 감소시켜 매개변수를 줄입니다:

W^q_{δx,δy} ⇒ W^q_1 · W^q_{δx,δy}
W^k_{δx,δy} ⇒ W^k_1 · W^k_{δx,δy}
W^v_{δx,δy} ⇒ W^v_1 · W^v_{δx,δy} · W^v_2

여기서 C1 ≪ C, C2 ≪ C'입니다.

기술 혁신 포인트

1. 이론적 통합

저자들은 합성곱과 자기주의가 Translution의 특수한 경우임을 증명했습니다:

  • 합성곱: 수용 영역 내 주의 가중치는 1, 외부는 0
  • 자기주의: 공유 W^q, W^k, W^v 매개변수 사용, 방향 및 거리 인코딩 무시
  • Translution: 두 가지 장점 결합

2. 상대 위치 인코딩

기존 방법(스칼라 편향 또는 벡터 덧셈)과 달리, Translution은 변위 기반 행렬을 사용하여 상대 인코딩을 수행하여 방향 및 거리 정보를 더 잘 캡처할 수 있습니다.

3. 메모리 최적화 구현

α-Translution을 위해 메모리 효율적인 구현을 설계하여 피크 메모리 사용을 N×N×C'에서 N×C'+N×N×C2로 감소시켰습니다.

실험 설정

데이터셋

컴퓨터 비전 작업:

  • Dynamic MNIST: 84×84 픽셀 영역 내에서 이동하는 숫자의 합성 데이터셋
  • Static MNIST: 이미지 중심에 고정된 숫자의 대조 데이터셋
  • ImageNet-1K: 1000개 클래스를 포함한 대규모 이미지 분류 데이터셋

자연어 처리 작업:

  • OpenWebText: 90억 학습 토큰, 400만 검증 토큰, 어휘 크기 50K

평가 지표

  • 이미지 분류: Top-1 및 Top-5 정확도
  • 언어 모델링: 혼란도(Perplexity)

비교 방법

  • 표준 자기주의(Transformer 기준선)
  • 상대 위치 인코딩 변형(Shaw et al., Swin Transformer, ConViT, RoFormer 등)
  • 절대 인코딩 변형(소거 연구용)

구현 세부사항

  • 아키텍처 구성: 깊이 6-12층, 임베딩 차원 192-384, 주의 헤드 수 3-6
  • α-Translution 기본 압축 차원: C1 = C2 = 8
  • 배치 크기: 256(ImageNet), 8(OpenWebText)
  • 모든 학습은 처음부터 시작, 외부 사전학습 없음

실험 결과

주요 결과

Dynamic MNIST 실험

방법매개변수Static→StaticDynamic→DynamicStatic→Dynamic
자기주의2.7M98.48%92.64%18.18%
α-Translution4.6M98.48%97.31%34.90%
Translution116.2M98.60%97.35%36.40%

핵심 발견: Translution은 위치 변화 시나리오에서 현저히 우수한 성능을 보여, 상대 인코딩의 장점을 증명합니다.

ImageNet-1K 실험

ViT-A/56 예시:

방법매개변수Top-1Top-5
자기주의4.7M46.28%71.17%
α-Translution5.3M48.36%73.31%
Translution38.5M52.41%76.50%

자연어 모델링 실험

방법매개변수혼란도
자기주의22.0M60.40
α-Translution23.7M57.97
Translution127.5M56.26

소거 실험

1. 매개변수 증가 대 상대 인코딩의 영향

실험 결과 단순한 매개변수 증가(절대 인코딩)는 성능 향상을 가져오지 않으며, 상대 인코딩 방법 자체의 효과성을 증명합니다.

2. 상대 인코딩 차원의 영향

C1과 C2가 증가함에 따라 α-Translution 성능이 향상되지만 매개변수도 증가하여 효율성-효과 간 트레이드오프가 존재합니다.

3. 위치 인코딩 방법 비교

방법매개변수Top-1Top-5
위치 임베딩 없음4.69M42.49%67.39%
표준 위치 임베딩4.69M46.28%71.17%
Swin Transformer4.69M46.36%71.31%
RoFormer4.69M46.65%71.51%
α-Translution5.33M48.36%73.31%
Translution38.53M52.41%76.50%

실험 발견

  1. 상대 인코딩의 중요성: 위치 변화 시나리오에서 상대 인코딩은 절대 인코딩보다 현저히 우수합니다
  2. 매개변수 효율성: α-Translution은 적은 매개변수 증가로 현저한 성능 향상을 달성합니다
  3. 교차 모달 효과성: 방법은 시각 및 언어 작업 모두에서 효과적입니다
  4. 메모리 제약: 현재 GPU 메모리 제약이 대규모 실험을 제한하며, 더 큰 규모 평가를 위해 2-3TB 메모리가 필요합니다

관련 연구

위치 인코딩 연구

저자들은 관련 연구를 세 가지 범주로 분류합니다:

  1. 상대 위치 벡터: Shaw et al., BoTNet, HaloNet 등
  2. 상대 위치 스칼라: Swin Transformer, CoAtNet, ConViT 등
  3. 회전 위치 임베딩: RoFormer 등

합성곱과 주의 결합

  • 아키텍처 수준 결합: Conformer, CeiT 등이 다양한 층에서 합성곱과 주의 사용
  • 모듈 수준 결합: Translution이 기본 연산 수준에서 두 가지 통합

결론 및 논의

주요 결론

  1. Translution은 자기주의의 적응형 식별 능력과 합성곱의 상대적 인코딩 장점을 성공적으로 통합합니다
  2. α-Translution은 매개변수 효율성과 성능 간 좋은 균형을 제공합니다
  3. 상대 인코딩은 위치 변화 처리 시 절대 인코딩보다 현저히 우수합니다
  4. 방법은 여러 작업 및 모달리티에서 개선을 보여줍니다

한계

  1. 계산 자원 요구: 완전한 Translution은 많은 매개변수와 메모리 필요
  2. 평가 규모 제한: 자원 제약으로 인해 주로 소규모 중규모 아키텍처에서 평가
  3. 특정 시나리오 최적화: 일부 상대 위치는 매개변수를 공유할 수 있으며, 특히 거리가 먼 경우

향후 방향

  1. 최적화 변형 탐색: 더 효율적인 Translution 변형 설계
  2. 다중 모달 확장: 3D, 비디오, 분자 등 다른 모달리티로 확장
  3. 아키텍처 설계: Translution을 위한 더 효과적인 전용 아키텍처 설계
  4. 대규모 평가: 더 큰 규모 프레임워크 및 데이터셋에서 검증

심층 평가

장점

  1. 이론적 기여: 합성곱과 자기주의의 통합 관점 제공, 이론적으로 우아함
  2. 실용적 가치: α-Translution은 자원 제약 상황에서도 성능 향상 제공
  3. 충분한 실험: 여러 작업, 데이터셋 및 소거 연구 포함
  4. 명확한 문제: 기존 방법의 핵심 한계를 명확히 식별하고 해결
  5. 오픈소스 기여: 완전한 구현 제공으로 커뮤니티 연구 촉진

부족한 점

  1. 자원 요구: 완전한 방법의 계산 요구가 실제 응용을 제한할 수 있음
  2. 평가 규모: 자원 제약으로 인해 대규모 모델 평가 부족
  3. 이론 분석: 방법의 수렴성 및 최적화 특성에 대한 심층 이론 분석 부족
  4. 비교 공정성: 기준선과의 매개변수 수 차이가 비교 공정성에 영향 가능

영향력

  1. 학술적 가치: 주의 메커니즘과 합성곱 결합에 새로운 사고방식 제공
  2. 실용적 전망: α-Translution의 실용성으로 실제 응용 채택 가능성
  3. 영감 의미: 기본 연산 통합에 관한 더 많은 연구 영감 가능

적용 시나리오

  1. 위치 민감 작업: 특히 위치 변화 처리가 필요한 작업에 적합
  2. 구조화된 데이터: 이미지, 텍스트 등 공간 또는 순차 구조를 가진 데이터에서 효과적
  3. 자원 충분 환경: 완전한 Translution은 충분한 계산 자원이 있는 시나리오에 적합
  4. 연구 탐색: 기본 아키텍처 연구에 새로운 방향 제공

참고문헌

논문은 심층 학습 분야의 중요한 연구를 인용하고 있습니다:

  • Transformer 원본 논문 (Vaswani et al., 2017)
  • Vision Transformer (Dosovitskiy et al., 2021)
  • 상대 위치 인코딩 관련 연구 (Shaw et al., 2018; Liu et al., 2021 등)
  • 합성곱 신경망 고전 연구 (LeCun et al., 1998; He et al., 2016 등)

종합 평가: 이는 이론과 실제 모두에서 기여하는 고품질 논문입니다. 높은 계산 자원 요구 문제가 있지만, α-Translution 변형의 제안이 성능과 효율성을 잘 균형 있게 조화시킵니다. 본 논문은 심층 학습 기본 연산의 통합에 새로운 관점을 제공하며 중요한 학술적 가치와 실용적 의미를 가집니다.