2025-11-21T23:25:16.078828

Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling

Fan, Yang, Kankanhalli et al.

When modeling a given type of data, we consider it to involve two key aspects: 1) identifying relevant elements (e.g., image pixels or textual words) to a central element, as in a convolutional receptive field, or to a query element, as in self-attention, and 2) encoding these tokens effectively. Self-attention can adaptively identify these elements but relies on absolute positional embedding for structural representation learning. In contrast, convolution encodes elements in a relative manner, yet their fixed kernel size limits their ability to adaptively select the relevant elements. In this paper, we introduce Translution, an operation that unifies the adaptive identification capability of self-attention and the relative encoding advantage of convolution. However, this integration leads to a substantial increase in the number of parameters, exceeding most currently available computational resources. Therefore, we propose a lightweight variant of Translution, named Î±-Translution. Experiments on computer vision and natural language processing tasks show that Translution (including Î±-Translution) achieves superior accuracy compared to self-attention. The code is available at https://github.com/hehefan/Translution.

academic

Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling

基本信息

论文ID: 2510.10060
标题: Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
作者: Hehe Fan (浙江大学), Yi Yang (浙江大学), Mohan Kankanhalli (新加坡国立大学), Fei Wu (浙江大学)
分类: cs.LG cs.AI cs.CL cs.CV
发表时间: 2025年10月11日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.10060v1

摘要

在对数据建模时，作者认为涉及两个关键方面：1）识别与中心元素（如卷积感受野）或查询元素（如自注意力）相关的元素；2）有效编码这些标记。自注意力可以自适应地识别这些元素，但依赖绝对位置嵌入进行结构表示学习。相比之下，卷积以相对方式编码元素，但固定的核大小限制了其自适应选择相关元素的能力。本文提出Translution操作，统一了自注意力的自适应识别能力和卷积的相对编码优势。然而，这种集成导致参数数量大幅增加，超出了当前大多数计算资源。因此，作者提出了轻量级变体α-Translution。实验表明，Translution在计算机视觉和自然语言处理任务上均优于自注意力。

研究背景与动机

问题定义

当前深度学习面临的核心挑战是如何有效地对数据进行建模。作者将数据建模分解为两个关键方面：

相关元素识别：确定哪些数据元素与当前处理的元素相关
有效编码：将这些相关元素编码为有效的表示

现有方法的局限性

卷积神经网络的局限性：

使用固定大小的核来定义局部感受野
无法避免包含不相关的像素，特别是在对象边界或背景区域
虽然能够相对地编码局部结构，但缺乏自适应性

自注意力机制的局限性：

能够自适应地识别相关区域，不受预定义局部性限制
依赖绝对位置嵌入来捕获结构信息
当相同对象移动到不同位置时，可能难以识别

研究动机

随着Transformer等模型的直接扩展遇到收益递减，AI实验室注意到下一代模型的改进速度低于预期。在数据饱和和当前扩展定律限制下，设计创新的神经网络架构变得至关重要。

核心贡献

提出Translution操作：统一了自注意力的自适应识别能力和卷积的相对编码优势
设计α-Translution轻量级变体：显著减少参数数量，使方法在当前计算资源下可行
理论统一：证明卷积和自注意力可以视为Translution的特殊情况
实验验证：在计算机视觉和自然语言处理任务上验证了方法的有效性
开源实现：提供完整的代码实现供社区使用

方法详解

任务定义

给定输入数据（图像块或文本标记），目标是学习一个操作，能够：

自适应地识别与查询元素相关的元素
以相对方式编码这些元素的结构关系
生成有效的输出表示

模型架构

Translution操作

Translution采用卷积风格的方法，为每个距离和方向分配不同的参数矩阵：

相对查询编码：qi,j = fi · W^q_{δx,δy}, δx = xi - xj, δy = yi - yj
相对键编码：kj,i = fj · W^k_{-δx,-δy}
相对注意力：ai,j = (qi,j · k^T_{j,i})/√C', αi,j = e^{ai,j}/∑e^{ai,n}
相对值编码：vi,j = fj · W^v_{δx,δy}
加权求和：f'i = ∑αi,j × vi,j

其中W^q_{δx,δy}, W^k_{δx,δy}, W^v_{δx,δy} ∈ R^{C×C'}是对应位移(δx,δy)的可学习参数矩阵。

α-Translution轻量级变体

由于Translution需要(2H-1)×(2W-1)×C×C'个参数，α-Translution通过降低输入和输出维度来减少参数：

W^q_{δx,δy} ⇒ W^q_1 · W^q_{δx,δy}
W^k_{δx,δy} ⇒ W^k_1 · W^k_{δx,δy}
W^v_{δx,δy} ⇒ W^v_1 · W^v_{δx,δy} · W^v_2

其中C1 ≪ C, C2 ≪ C'。

技术创新点

1. 理论统一

作者证明了卷积和自注意力是Translution的特殊情况：

卷积：注意力权重在感受野内为1，外部为0
自注意力：使用共享的W^q, W^k, W^v参数，忽略方向和距离编码
Translution：结合了两者的优势

2. 相对位置编码

与现有方法（标量偏置或向量加法）不同，Translution使用基于偏移的矩阵进行相对编码，能够更好地捕获方向和距离信息。

3. 内存优化实现

为α-Translution设计了内存高效的实现方式，将峰值内存使用从N×N×C'降低到N×C'+N×N×C2。

实验设置

数据集

计算机视觉任务：

Dynamic MNIST：数字在84×84像素区域内移动的合成数据集
Static MNIST：数字固定在图像中心的对照数据集
ImageNet-1K：包含1000个类别的大规模图像分类数据集

自然语言处理任务：

OpenWebText：90亿训练标记，400万验证标记，词汇量50K

评价指标

图像分类：Top-1和Top-5准确率
语言建模：困惑度（Perplexity）

对比方法

标准自注意力（Transformer基线）
相对位置编码变体（Shaw et al., Swin Transformer, ConViT, RoFormer等）
绝对编码变体（用于消融研究）

实现细节

架构配置：深度6-12层，嵌入维度192-384，注意力头数3-6
α-Translution默认压缩维度：C1 = C2 = 8
批量大小：256（ImageNet），8（OpenWebText）
所有训练从零开始，无外部预训练

实验结果

主要结果

Dynamic MNIST实验

方法	参数量	Static→Static	Dynamic→Dynamic	Static→Dynamic
Self-attention	2.7M	98.48%	92.64%	18.18%
α-Translution	4.6M	98.48%	97.31%	34.90%
Translution	116.2M	98.60%	97.35%	36.40%

关键发现：Translution在位置变化场景下表现显著更好，证明了相对编码的优势。

ImageNet-1K实验

以ViT-A/56为例：

方法	参数量	Top-1	Top-5
Self-attention	4.7M	46.28%	71.17%
α-Translution	5.3M	48.36%	73.31%
Translution	38.5M	52.41%	76.50%

自然语言建模实验

方法	参数量	困惑度
Self-attention	22.0M	60.40
α-Translution	23.7M	57.97
Translution	127.5M	56.26

消融实验

1. 参数增加vs相对编码的影响

实验表明，简单增加参数（绝对编码）并不能带来性能提升，证明相对编码方法本身的有效性。

2. 相对编码维度的影响

随着C1和C2增加，α-Translution性能提升，但参数量也增加，存在效率-效果权衡。

3. 位置编码方法比较

方法	参数量	Top-1	Top-5
无位置嵌入	4.69M	42.49%	67.39%
标准位置嵌入	4.69M	46.28%	71.17%
Swin Transformer	4.69M	46.36%	71.31%
RoFormer	4.69M	46.65%	71.51%
α-Translution	5.33M	48.36%	73.31%
Translution	38.53M	52.41%	76.50%