2025-11-14T08:19:11.556995

Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings

Zuo, Guerzhoy, Guerzhoy
Transformers with causal attention can solve tasks that require positional information without using positional encodings. In this work, we propose and investigate a new hypothesis about how positional information can be stored without using explicit positional encoding. We observe that nearby embeddings are more similar to each other than faraway embeddings, allowing the transformer to potentially reconstruct the positions of tokens. We show that this pattern can occur in both the trained and the randomly initialized Transformer models with causal attention and no positional encodings over a common range of hyperparameters.
academic

Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings

基本信息

  • 论文ID: 2501.00073
  • 标题: Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings
  • 作者: Chunsheng Zuo (Johns Hopkins University), Pavel Guerzhoy (University of Hawai'i at Mānoa), Michael Guerzhoy (University of Toronto)
  • 分类: cs.CL (Computational Linguistics), cs.LG (Machine Learning)
  • 发表时间: 2024年12月30日
  • 论文链接: https://arxiv.org/abs/2501.00073

摘要

该研究探讨了具有因果注意力的Transformer如何在不使用位置编码的情况下解决需要位置信息的任务。作者提出并验证了一个新假设:位置信息可以通过相邻嵌入向量之间的相似性来存储。研究发现,相邻的嵌入向量比距离较远的嵌入向量更相似,这使得Transformer能够重建token的位置信息。该模式在训练后和随机初始化的因果Transformer模型中都能观察到。

研究背景与动机

问题定义

传统观念认为Transformer需要显式的位置编码来处理序列中token的位置信息,但最近的研究(Haviv et al. 2022; Kazemnejad et al. 2024; Chi et al. 2023)表明,仅使用因果注意力的decoder-only Transformer可以在没有位置编码的情况下学习位置信息。

研究动机

  1. 理论空白:现有研究缺乏对因果Transformer如何存储位置信息的深入理解
  2. 机制探索:Chi et al. (2023)提出位置信息存储在嵌入方差中,但该解释可能不够充分
  3. 新视角需求:需要从新的角度理解位置信息的表示机制

现有方法局限性

  • 非因果注意力机制对输入token的排列具有置换不变性,无法处理位置信息
  • Chi et al.的方差理论在某些实验中表现不佳,无法完全解释观察到的现象

核心贡献

  1. 提出邻接模式假设:发现相邻位置的嵌入向量具有更高的余弦相似度,形成"邻接模式"
  2. 理论分析:从数学角度解释了邻接模式在因果注意力第一层中出现的原因
  3. 广泛实验验证:在多种任务、模型配置和初始化方案下验证了邻接模式的存在
  4. 量化评估方法:提出邻接概率分数(adjacency probability score)来量化位置信息的强度
  5. 对比分析:通过探测实验证明余弦相似度比嵌入方差更能有效编码位置信息

方法详解

任务定义

研究因果Transformer在没有显式位置编码情况下如何表示和利用位置信息,重点关注嵌入向量间的相似性模式。

核心概念

自余弦相似度矩阵

对于长度为n、维度为d的token嵌入序列X ∈ R^(n×d),自余弦相似度矩阵C定义为:

C_ij = cos θ(X_i, X_j) = (X_i · X_j) / (||X_i|| ||X_j||)

邻接模式(Adjacency Pattern)

邻接模式指自余弦相似度矩阵呈现对角线附近值较高、远离对角线值较低的特征,表明相邻位置的嵌入向量更相似。

邻接概率分数

为量化邻接模式的强度,作者提出邻接概率分数:

对于第k行,行级邻接概率分数定义为:

P_Adjacency = P(C_ki < C_kj if i < j) = 1/C(k,2) * Σ I(C_ki < C_kj)

整个矩阵的邻接概率分数为所有行的平均值。

理论分析

平均化效应

在第一层中,位置k的嵌入通过线性组合前k-1个嵌入计算得出:

  • 位置k+t的嵌入:Σ(i=1 to k+t) α_i * e_i
  • 位置k+t+1的嵌入:Σ(i=1 to k+t+1) β_i * e_i

由于相邻位置共享更多的输入嵌入,它们的点积差异为正:

(Σ α_i * v_i) · (Σ β_i * v_i) - (Σ α_i * v_i) · (Σ β'_i * v_i) > 0

这从数学上解释了邻接模式的出现。

实验设置

数据集和任务

作者设计了四个需要位置信息的合成任务:

  1. 加法任务(Addition):生成"123+456="的答案,输入长度最大为9
  2. 反转任务(Reversal):对于"rev(1234)="生成"4321",输入长度最大为22
  3. 索引任务(Indexing):对于"wherex(134504392,4)="输出首次出现位置"2",输入长度最大为20
  4. 排序任务(Ordering):给定原序列和重排序列,输出新的索引顺序,输入长度最大为18

模型配置

  • 基础模型:6层NanoGPT,1060万参数
  • 变体配置:6/12/24层,192/384/768隐藏维度
  • 初始化:默认N(0, 0.02),测试不同均值和方差
  • 训练设置:每任务20000训练样本和20000测试样本,5个随机种子

评价指标

  1. 邻接概率分数:量化邻接模式强度
  2. 任务准确率:模型在各任务上的性能
  3. 探测实验:使用4层MLP探测位置信息,评估NRMSE和Pearson-R

实验结果

主要发现

1. 邻接模式的普遍存在

  • 在token嵌入层,邻接概率分数约为0.5(随机水平)
  • 经过第一层因果注意力后,分数跃升至0.8-1.0
  • 该模式在训练前后、不同任务和模型配置下都保持稳定

2. 层级分析结果

层级初始化模型训练后模型
嵌入层0.480.54
第1层0.980.89
第2层0.990.97
第3层0.990.98
第6层0.990.82

3. 超参数敏感性

  • 层数影响:6-24层模型都显示邻接模式
  • 维度影响:192-768维度配置都保持模式
  • 初始化影响:标准初始化方案(σ ≤ 0.02)下模式稳定

消融实验

初始化方案测试

测试了不同均值(μ ∈ {0,4,8})和标准差(σ ∈ {0.002,0.02,0.2}):

  • 小方差(σ ≤ 0.02):邻接模式稳定
  • 大方差(σ = 0.2):模式消失
  • 大均值对模式影响较小

与方差理论对比

通过探测实验比较余弦相似度和嵌入方差作为位置特征的效果:

特征类型Pearson-RNRMSE
嵌入向量0.710.20
嵌入方差0.490.23
余弦相似度0.930.11

案例分析

图1展示了反转任务中的自余弦相似度矩阵可视化:

  • 初始化模型:从第1层开始出现清晰的对角线模式
  • 训练后模型:前几层保持强邻接模式,后几层逐渐减弱

相关工作

位置编码研究

  • 传统方法:绝对位置编码、相对位置编码
  • 最新发现:Haviv et al. (2022)首次证明因果Transformer可无位置编码训练

因果注意力机制

  • 置换不变性:Tsai et al. (2019)证明非因果注意力具有置换不变性
  • 位置信息存储:Chi et al. (2023)提出方差递减假说

本文贡献

相比Chi et al.的方差理论,本文的邻接模式假说:

  1. 提供了更直观的几何解释
  2. 在探测实验中表现更优
  3. 适用于更广泛的模型配置

结论与讨论

主要结论

  1. 邻接模式普遍存在:因果Transformer在第一层注意力后自然形成邻接模式
  2. 位置信息编码:相邻嵌入的高相似度为位置重建提供了可能
  3. 机制解释:平均化效应从数学上解释了模式出现的原因
  4. 实用价值:余弦相似度比嵌入方差更适合作为位置特征

局限性

  1. 数据集限制:主要在合成任务上验证,真实数据集的泛化性需进一步研究
  2. 架构依赖:结论基于特定Transformer架构,其他变体的适用性未知
  3. 完整性问题:邻接模式和方差都无法完全解释100%的任务性能

未来方向

  1. 大规模验证:在真实语言建模任务中验证邻接模式
  2. 机制融合:探索邻接模式与其他位置编码机制的结合
  3. 理论完善:建立更完整的位置信息表示理论框架

深度评价

优点

  1. 创新视角:从几何相似性角度理解位置信息,提供了新的理论洞察
  2. 严谨验证:通过多任务、多配置、多种分析方法全面验证假设
  3. 数学基础:提供了邻接模式出现的理论解释
  4. 实用工具:邻接概率分数为量化位置信息提供了有效方法

不足

  1. 任务局限:合成任务可能无法完全反映真实应用场景的复杂性
  2. 机制不完整:承认现有理论无法完全解释模型性能
  3. 计算开销:自余弦相似度矩阵计算可能在长序列上成本较高

影响力

  1. 理论贡献:为理解Transformer位置表示提供新视角
  2. 实践指导:为设计无位置编码的模型提供理论支持
  3. 研究启发:开启了从几何角度分析Transformer内部机制的新方向

适用场景

  1. 轻量化模型:减少位置编码参数的模型设计
  2. 长序列处理:避免位置编码限制的序列建模
  3. 模型分析:理解和调试Transformer内部表示

参考文献

本文主要参考了以下重要工作:

  • Haviv et al. (2022): 首次证明无位置编码训练的可行性
  • Chi et al. (2023): 提出方差递减的位置信息假说
  • Tsai et al. (2019): 分析了注意力机制的置换性质
  • Vaswani et al. (2017): Transformer原始论文

该研究为理解Transformer如何处理位置信息提供了重要的新视角,虽然在完整性上仍有不足,但其理论洞察和实验发现为该领域的进一步发展奠定了坚实基础。