2025-11-14T08:19:11.556995

Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings

Zuo, Guerzhoy, Guerzhoy

Transformers with causal attention can solve tasks that require positional information without using positional encodings. In this work, we propose and investigate a new hypothesis about how positional information can be stored without using explicit positional encoding. We observe that nearby embeddings are more similar to each other than faraway embeddings, allowing the transformer to potentially reconstruct the positions of tokens. We show that this pattern can occur in both the trained and the randomly initialized Transformer models with causal attention and no positional encodings over a common range of hyperparameters.

academic

Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings

基本信息

论文ID: 2501.00073
标题: Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings
作者: Chunsheng Zuo (Johns Hopkins University), Pavel Guerzhoy (University of Hawai'i at Mānoa), Michael Guerzhoy (University of Toronto)
分类: cs.CL (Computational Linguistics), cs.LG (Machine Learning)
发表时间: 2024年12月30日
论文链接: https://arxiv.org/abs/2501.00073

理论空白：现有研究缺乏对因果Transformer如何存储位置信息的深入理解
机制探索：Chi et al. (2023)提出位置信息存储在嵌入方差中，但该解释可能不够充分
新视角需求：需要从新的角度理解位置信息的表示机制

现有方法局限性

非因果注意力机制对输入token的排列具有置换不变性，无法处理位置信息
Chi et al.的方差理论在某些实验中表现不佳，无法完全解释观察到的现象

核心贡献

提出邻接模式假设：发现相邻位置的嵌入向量具有更高的余弦相似度，形成"邻接模式"
理论分析：从数学角度解释了邻接模式在因果注意力第一层中出现的原因
广泛实验验证：在多种任务、模型配置和初始化方案下验证了邻接模式的存在
量化评估方法：提出邻接概率分数(adjacency probability score)来量化位置信息的强度
对比分析：通过探测实验证明余弦相似度比嵌入方差更能有效编码位置信息

C_ij = cos θ(X_i, X_j) = (X_i · X_j) / (||X_i|| ||X_j||)

邻接模式(Adjacency Pattern)

邻接模式指自余弦相似度矩阵呈现对角线附近值较高、远离对角线值较低的特征，表明相邻位置的嵌入向量更相似。

邻接概率分数

为量化邻接模式的强度，作者提出邻接概率分数：

对于第k行，行级邻接概率分数定义为：

P_Adjacency = P(C_ki < C_kj if i < j) = 1/C(k,2) * Σ I(C_ki < C_kj)

整个矩阵的邻接概率分数为所有行的平均值。

理论分析

平均化效应

在第一层中，位置k的嵌入通过线性组合前k-1个嵌入计算得出：

位置k+t的嵌入：Σ(i=1 to k+t) α_i * e_i
位置k+t+1的嵌入：Σ(i=1 to k+t+1) β_i * e_i

由于相邻位置共享更多的输入嵌入，它们的点积差异为正：

(Σ α_i * v_i) · (Σ β_i * v_i) - (Σ α_i * v_i) · (Σ β'_i * v_i) > 0

这从数学上解释了邻接模式的出现。

实验设置

数据集和任务

作者设计了四个需要位置信息的合成任务：

加法任务(Addition)：生成"123+456="的答案，输入长度最大为9
反转任务(Reversal)：对于"rev(1234)="生成"4321"，输入长度最大为22
索引任务(Indexing)：对于"wherex(134504392,4)="输出首次出现位置"2"，输入长度最大为20
排序任务(Ordering)：给定原序列和重排序列，输出新的索引顺序，输入长度最大为18

模型配置

基础模型：6层NanoGPT，1060万参数
变体配置：6/12/24层，192/384/768隐藏维度
初始化：默认N(0, 0.02)，测试不同均值和方差
训练设置：每任务20000训练样本和20000测试样本，5个随机种子

评价指标

邻接概率分数：量化邻接模式强度
任务准确率：模型在各任务上的性能
探测实验：使用4层MLP探测位置信息，评估NRMSE和Pearson-R

在token嵌入层，邻接概率分数约为0.5（随机水平）
经过第一层因果注意力后，分数跃升至0.8-1.0
该模式在训练前后、不同任务和模型配置下都保持稳定

2. 层级分析结果

层级	初始化模型	训练后模型
嵌入层	0.48	0.54
第1层	0.98	0.89
第2层	0.99	0.97
第3层	0.99	0.98
第6层	0.99	0.82

3. 超参数敏感性

层数影响：6-24层模型都显示邻接模式
维度影响：192-768维度配置都保持模式
初始化影响：标准初始化方案(σ ≤ 0.02)下模式稳定

消融实验

初始化方案测试

测试了不同均值(μ ∈ {0,4,8})和标准差(σ ∈ {0.002,0.02,0.2})：

小方差(σ ≤ 0.02)：邻接模式稳定
大方差(σ = 0.2)：模式消失
大均值对模式影响较小

与方差理论对比

通过探测实验比较余弦相似度和嵌入方差作为位置特征的效果：

特征类型	Pearson-R	NRMSE
嵌入向量	0.71	0.20
嵌入方差	0.49	0.23
余弦相似度	0.93	0.11

案例分析

图1展示了反转任务中的自余弦相似度矩阵可视化：

初始化模型：从第1层开始出现清晰的对角线模式
训练后模型：前几层保持强邻接模式，后几层逐渐减弱

结论与讨论

主要结论

邻接模式普遍存在：因果Transformer在第一层注意力后自然形成邻接模式
位置信息编码：相邻嵌入的高相似度为位置重建提供了可能
机制解释：平均化效应从数学上解释了模式出现的原因
实用价值：余弦相似度比嵌入方差更适合作为位置特征

局限性

数据集限制：主要在合成任务上验证，真实数据集的泛化性需进一步研究
架构依赖：结论基于特定Transformer架构，其他变体的适用性未知
完整性问题：邻接模式和方差都无法完全解释100%的任务性能

未来方向

大规模验证：在真实语言建模任务中验证邻接模式
机制融合：探索邻接模式与其他位置编码机制的结合
理论完善：建立更完整的位置信息表示理论框架

深度评价

优点

创新视角：从几何相似性角度理解位置信息，提供了新的理论洞察
严谨验证：通过多任务、多配置、多种分析方法全面验证假设
数学基础：提供了邻接模式出现的理论解释
实用工具：邻接概率分数为量化位置信息提供了有效方法

不足

任务局限：合成任务可能无法完全反映真实应用场景的复杂性
机制不完整：承认现有理论无法完全解释模型性能
计算开销：自余弦相似度矩阵计算可能在长序列上成本较高

影响力

理论贡献：为理解Transformer位置表示提供新视角
实践指导：为设计无位置编码的模型提供理论支持
研究启发：开启了从几何角度分析Transformer内部机制的新方向

适用场景

轻量化模型：减少位置编码参数的模型设计
长序列处理：避免位置编码限制的序列建模
模型分析：理解和调试Transformer内部表示

参考文献

本文主要参考了以下重要工作：

Haviv et al. (2022): 首次证明无位置编码训练的可行性
Chi et al. (2023): 提出方差递减的位置信息假说
Tsai et al. (2019): 分析了注意力机制的置换性质
Vaswani et al. (2017): Transformer原始论文

该研究为理解Transformer如何处理位置信息提供了重要的新视角，虽然在完整性上仍有不足，但其理论洞察和实验发现为该领域的进一步发展奠定了坚实基础。