2025-11-21T23:25:16.078828

Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling

Fan, Yang, Kankanhalli et al.
When modeling a given type of data, we consider it to involve two key aspects: 1) identifying relevant elements (e.g., image pixels or textual words) to a central element, as in a convolutional receptive field, or to a query element, as in self-attention, and 2) encoding these tokens effectively. Self-attention can adaptively identify these elements but relies on absolute positional embedding for structural representation learning. In contrast, convolution encodes elements in a relative manner, yet their fixed kernel size limits their ability to adaptively select the relevant elements. In this paper, we introduce Translution, an operation that unifies the adaptive identification capability of self-attention and the relative encoding advantage of convolution. However, this integration leads to a substantial increase in the number of parameters, exceeding most currently available computational resources. Therefore, we propose a lightweight variant of Translution, named α-Translution. Experiments on computer vision and natural language processing tasks show that Translution (including α-Translution) achieves superior accuracy compared to self-attention. The code is available at https://github.com/hehefan/Translution.
academic

Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling

基本信息

  • 论文ID: 2510.10060
  • 标题: Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
  • 作者: Hehe Fan (浙江大学), Yi Yang (浙江大学), Mohan Kankanhalli (新加坡国立大学), Fei Wu (浙江大学)
  • 分类: cs.LG cs.AI cs.CL cs.CV
  • 发表时间: 2025年10月11日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.10060v1

摘要

在对数据建模时,作者认为涉及两个关键方面:1)识别与中心元素(如卷积感受野)或查询元素(如自注意力)相关的元素;2)有效编码这些标记。自注意力可以自适应地识别这些元素,但依赖绝对位置嵌入进行结构表示学习。相比之下,卷积以相对方式编码元素,但固定的核大小限制了其自适应选择相关元素的能力。本文提出Translution操作,统一了自注意力的自适应识别能力和卷积的相对编码优势。然而,这种集成导致参数数量大幅增加,超出了当前大多数计算资源。因此,作者提出了轻量级变体α-Translution。实验表明,Translution在计算机视觉和自然语言处理任务上均优于自注意力。

研究背景与动机

问题定义

当前深度学习面临的核心挑战是如何有效地对数据进行建模。作者将数据建模分解为两个关键方面:

  1. 相关元素识别:确定哪些数据元素与当前处理的元素相关
  2. 有效编码:将这些相关元素编码为有效的表示

现有方法的局限性

卷积神经网络的局限性

  • 使用固定大小的核来定义局部感受野
  • 无法避免包含不相关的像素,特别是在对象边界或背景区域
  • 虽然能够相对地编码局部结构,但缺乏自适应性

自注意力机制的局限性

  • 能够自适应地识别相关区域,不受预定义局部性限制
  • 依赖绝对位置嵌入来捕获结构信息
  • 当相同对象移动到不同位置时,可能难以识别

研究动机

随着Transformer等模型的直接扩展遇到收益递减,AI实验室注意到下一代模型的改进速度低于预期。在数据饱和和当前扩展定律限制下,设计创新的神经网络架构变得至关重要。

核心贡献

  1. 提出Translution操作:统一了自注意力的自适应识别能力和卷积的相对编码优势
  2. 设计α-Translution轻量级变体:显著减少参数数量,使方法在当前计算资源下可行
  3. 理论统一:证明卷积和自注意力可以视为Translution的特殊情况
  4. 实验验证:在计算机视觉和自然语言处理任务上验证了方法的有效性
  5. 开源实现:提供完整的代码实现供社区使用

方法详解

任务定义

给定输入数据(图像块或文本标记),目标是学习一个操作,能够:

  • 自适应地识别与查询元素相关的元素
  • 以相对方式编码这些元素的结构关系
  • 生成有效的输出表示

模型架构

Translution操作

Translution采用卷积风格的方法,为每个距离和方向分配不同的参数矩阵:

相对查询编码:qi,j = fi · W^q_{δx,δy}, δx = xi - xj, δy = yi - yj
相对键编码:kj,i = fj · W^k_{-δx,-δy}
相对注意力:ai,j = (qi,j · k^T_{j,i})/√C', αi,j = e^{ai,j}/∑e^{ai,n}
相对值编码:vi,j = fj · W^v_{δx,δy}
加权求和:f'i = ∑αi,j × vi,j

其中W^q_{δx,δy}, W^k_{δx,δy}, W^v_{δx,δy} ∈ R^{C×C'}是对应位移(δx,δy)的可学习参数矩阵。

α-Translution轻量级变体

由于Translution需要(2H-1)×(2W-1)×C×C'个参数,α-Translution通过降低输入和输出维度来减少参数:

W^q_{δx,δy} ⇒ W^q_1 · W^q_{δx,δy}
W^k_{δx,δy} ⇒ W^k_1 · W^k_{δx,δy}
W^v_{δx,δy} ⇒ W^v_1 · W^v_{δx,δy} · W^v_2

其中C1 ≪ C, C2 ≪ C'。

技术创新点

1. 理论统一

作者证明了卷积和自注意力是Translution的特殊情况:

  • 卷积:注意力权重在感受野内为1,外部为0
  • 自注意力:使用共享的W^q, W^k, W^v参数,忽略方向和距离编码
  • Translution:结合了两者的优势

2. 相对位置编码

与现有方法(标量偏置或向量加法)不同,Translution使用基于偏移的矩阵进行相对编码,能够更好地捕获方向和距离信息。

3. 内存优化实现

为α-Translution设计了内存高效的实现方式,将峰值内存使用从N×N×C'降低到N×C'+N×N×C2。

实验设置

数据集

计算机视觉任务

  • Dynamic MNIST:数字在84×84像素区域内移动的合成数据集
  • Static MNIST:数字固定在图像中心的对照数据集
  • ImageNet-1K:包含1000个类别的大规模图像分类数据集

自然语言处理任务

  • OpenWebText:90亿训练标记,400万验证标记,词汇量50K

评价指标

  • 图像分类:Top-1和Top-5准确率
  • 语言建模:困惑度(Perplexity)

对比方法

  • 标准自注意力(Transformer基线)
  • 相对位置编码变体(Shaw et al., Swin Transformer, ConViT, RoFormer等)
  • 绝对编码变体(用于消融研究)

实现细节

  • 架构配置:深度6-12层,嵌入维度192-384,注意力头数3-6
  • α-Translution默认压缩维度:C1 = C2 = 8
  • 批量大小:256(ImageNet),8(OpenWebText)
  • 所有训练从零开始,无外部预训练

实验结果

主要结果

Dynamic MNIST实验

方法参数量Static→StaticDynamic→DynamicStatic→Dynamic
Self-attention2.7M98.48%92.64%18.18%
α-Translution4.6M98.48%97.31%34.90%
Translution116.2M98.60%97.35%36.40%

关键发现:Translution在位置变化场景下表现显著更好,证明了相对编码的优势。

ImageNet-1K实验

以ViT-A/56为例:

方法参数量Top-1Top-5
Self-attention4.7M46.28%71.17%
α-Translution5.3M48.36%73.31%
Translution38.5M52.41%76.50%

自然语言建模实验

方法参数量困惑度
Self-attention22.0M60.40
α-Translution23.7M57.97
Translution127.5M56.26

消融实验

1. 参数增加vs相对编码的影响

实验表明,简单增加参数(绝对编码)并不能带来性能提升,证明相对编码方法本身的有效性。

2. 相对编码维度的影响

随着C1和C2增加,α-Translution性能提升,但参数量也增加,存在效率-效果权衡。

3. 位置编码方法比较

方法参数量Top-1Top-5
无位置嵌入4.69M42.49%67.39%
标准位置嵌入4.69M46.28%71.17%
Swin Transformer4.69M46.36%71.31%
RoFormer4.69M46.65%71.51%
α-Translution5.33M48.36%73.31%
Translution38.53M52.41%76.50%

实验发现

  1. 相对编码的重要性:在位置变化场景下,相对编码显著优于绝对编码
  2. 参数效率:α-Translution以较小的参数增加获得了显著的性能提升
  3. 跨模态有效性:方法在视觉和语言任务上均有效
  4. 内存限制:当前GPU内存限制了大规模实验,需要2-3TB内存才能进行更大规模评估

相关工作

位置编码研究

作者将相关工作分为三类:

  1. 相对位置向量:Shaw et al., BoTNet, HaloNet等
  2. 相对位置标量:Swin Transformer, CoAtNet, ConViT等
  3. 旋转位置嵌入:RoFormer等

卷积与注意力结合

  • 架构级结合:Conformer, CeiT等在不同层使用卷积和注意力
  • 模块级结合:Translution在基础操作层面统一两者

结论与讨论

主要结论

  1. Translution成功统一了自注意力的自适应识别能力和卷积的相对编码优势
  2. α-Translution提供了参数效率和性能之间的良好平衡
  3. 相对编码在处理位置变化时显著优于绝对编码
  4. 方法在多个任务和模态上均显示出改进

局限性

  1. 计算资源需求:完整Translution需要大量参数和内存
  2. 评估规模限制:由于资源限制,主要在小中规模架构上评估
  3. 特定场景优化:某些相对位置可能可以共享参数,特别是距离较远时

未来方向

  1. 优化变体探索:设计更高效的Translution变体
  2. 多模态扩展:扩展到3D、视频、分子等其他模态
  3. 架构设计:为Translution设计更有效的专用架构
  4. 大规模评估:在更大规模框架和数据集上验证

深度评价

优点

  1. 理论贡献:提供了卷积和自注意力的统一视角,理论上优雅
  2. 实用价值:α-Translution在资源受限情况下仍能带来性能提升
  3. 实验充分:涵盖了多个任务、数据集和消融研究
  4. 问题明确:清晰地识别并解决了现有方法的核心局限性
  5. 开源贡献:提供完整实现,促进社区研究

不足

  1. 资源需求:完整方法的计算需求可能限制实际应用
  2. 评估规模:由于资源限制,缺乏大规模模型的评估
  3. 理论分析:缺乏对方法收敛性和优化特性的深入理论分析
  4. 比较公平性:与baseline的参数量差异较大,可能影响比较公平性

影响力

  1. 学术价值:为注意力机制和卷积的结合提供了新思路
  2. 实用前景:α-Translution的实用性使其有望在实际应用中采用
  3. 启发意义:可能启发更多关于基础操作统一的研究

适用场景

  1. 位置敏感任务:特别适合需要处理位置变化的任务
  2. 结构化数据:在图像、文本等具有空间或序列结构的数据上效果好
  3. 资源充足环境:完整Translution适合有充足计算资源的场景
  4. 研究探索:为基础架构研究提供新的方向

参考文献

论文引用了深度学习领域的重要工作,包括:

  • Transformer原始论文 (Vaswani et al., 2017)
  • Vision Transformer (Dosovitskiy et al., 2021)
  • 相对位置编码相关工作 (Shaw et al., 2018; Liu et al., 2021等)
  • 卷积神经网络经典工作 (LeCun et al., 1998; He et al., 2016等)

总体评价:这是一篇在理论和实践上都有贡献的高质量论文。虽然存在计算资源需求高的问题,但α-Translution变体的提出很好地平衡了性能和效率。论文为深度学习基础操作的统一提供了新的视角,具有重要的学术价值和实用意义。