In natural language processing, current methods for understanding Transformers are successful at identifying intermediate predictions during a model's inference. However, these approaches function as limited diagnostic checkpoints, lacking a mathematical framework for mechanistically modeling how each layer facilitates transitions between these evolving states. This interpretability gap and past successes of interdisciplinary outlooks inspire us to turn to physics in search of a descriptive mathematical framework for Transformers. We observe that language models are intrinsically probabilistic, an attribute that is echoed in the core postulates of quantum mechanics. This parallel inspires us to translate insights from this discipline to that of natural language processing. Towards this objective, we propose QLENS a novel attempt to develop a physics-based perspective on the Transformer generation process. Under QLENS, a Transformer is studied by converting its latent activations into a state vector in a Hilbert space derived from the model's output units. This state subsequently evolves through hidden layers - reformulated as unitary operators and analogously defined Hamiltonians - during inference. The model's final probability distribution is obtained by applying the Born rule to the end state using a specific measurement operator. To demonstrate QLENS's potential, we conduct a proof-of-concept by probing a toy Transformer to investigate the influence of individual layers in a model's prediction trajectory. We present our work as a foundation for cross-domain insights to be leveraged towards a broader understanding of Transformers.
- 论文ID: 2510.11963
- 标题: QLENS: Towards A Quantum Perspective of Language Transformers
- 作者: Aditya Gupta (Issaquah High School), Kirandeep Kaur, Vinayak Gupta (University of Washington)
- 分类: cs.LG (Machine Learning)
- 发表时间: 2025年10月13日 (Preprint)
- 论文链接: https://arxiv.org/abs/2510.11963
本文提出了QLENS框架,一种基于量子力学原理来理解Transformer模型的新颖方法。传统的Transformer可解释性方法能够识别推理过程中的中间预测,但缺乏数学框架来机制化建模各层如何促进状态转换。作者观察到语言模型本质上是概率性的,这与量子力学的核心假设相呼应。QLENS将Transformer的潜在激活转换为希尔伯特空间中的状态向量,通过重新定义的酉算子和哈密顿量来描述隐藏层的演化过程,最终通过Born规则和测量算子获得概率分布。
当前Transformer可解释性方法(如Logit Lens和Tuned Lens)主要作为诊断检查点,能够识别推理过程中的中间预测状态,但缺乏描述各层如何促进状态间转换的数学框架。这种可解释性缺口限制了我们对Transformer内部工作机制的深入理解。
理解Transformer的内部机制对于:
- 确保模型在性能指标之外的可信度
- 分析模型的预测轨迹和决策过程
- 为模型改进提供理论指导
- 增强AI系统的可解释性和透明度
- Logit Lens: 存在偏差问题,在不同模型家族间效果不稳定
- Tuned Lens: 虽然改进了偏差问题,但仍缺乏描述层间转换的数学模型
- 其他方法: 多局限于特定行为分析,无法提供整体性的理论框架
作者受到跨学科成功案例启发,观察到语言模型的概率性本质与量子力学的核心假设高度相似,因此提出将量子力学的数学框架应用于Transformer分析。
- 理论创新: 建立了量子力学与Transformer之间的概念类比,发现了量子力学假设在NLP领域的对应关系
- 框架提出: 提出QLENS框架,提供了端到端的Transformer推理过程量子力学类比
- 实证验证: 通过简单情感分类Transformer的概念验证,展示了QLENS在层级解释方面的潜力
- 理论分析: 批判性分析了QLENS的优势和局限性,为该领域的进一步探索奠定基础
QLENS旨在为Transformer的推理过程提供量子力学启发的数学框架,具体包括:
- 输入: 预训练的Transformer模型和输入序列
- 输出: 各层的状态向量、酉算子、哈密顿量以及相应的可解释性洞察
- 约束: 保持与原始Transformer输入输出的兼容性
将Transformer的输出空间转换为正交归一的希尔伯特基 C={∣c1⟩,∣c2⟩,...,∣cN⟩},其中每个基向量对应一个输出单元。
确保不同输出状态的可区分性:
⟨ci∣cj⟩={0,1,for i=jfor i=j
定义模型状态向量 ∣Ψℓ⟩,满足:
P(ci)=∣⟨ci∣Ψℓ⟩∣2
其中 P(ci) 是输出单元 ci 的概率。
将Transformer层建模为酉算子:
∣Ψℓ⟩=Uℓ∣Ψℓ−1⟩
通过哈密顿量 Hℓ 生成酉算子:
Uℓ=exp(−iαHℓ)
并推导出定理1:状态向量变化完全由哈密顿量的特征值和特征向量决定。
定义测量算子 M 来提取最终概率分布,其矩阵元素为:
mkj=jδkj
- 概率分布的量子化表示: 将Transformer的概率输出映射为量子状态向量
- 层级转换的酉算子建模: 用酉算子描述层间状态演化,保持概率守恒
- 哈密顿量的双重视角: 提供了与残差连接对应的加法视角
- 与Tuned Lens的结合: 利用Tuned Lens提取中间概率分布作为状态向量基础
- 数据源: Sentihood数据集,包含5212个标注的伦敦社区评论句子
- 预处理:
- 移除多位置和多方面实例
- 保留1,864个实例(1,329正面,535负面)
- 平衡至1:1比例,最终1,070个实例
- 按80:20划分训练测试集
- 基础模型: 单解码器块的简单Transformer
- 嵌入: GPT-2 tokenizer和嵌入矩阵(768维压缩至12维)
- 注意力: 4头注意力层
- 前馈网络: ReLU激活,中间维度48
- 训练: 12轮,二元交叉熵损失,测试准确率79.44%
- 酉算子相似性: Frobenius余弦相似性
- 哈密顿量相似性: 层间哈密顿量的成对相似性
- 统计显著性: 双样本置换检验(p < 0.0001)
- 使用Householder变换约束酉算子形式
- 训练两个偏置透镜(嵌入透镜和注意力透镜)
- 1000次置换模拟进行统计检验
| 层级 | 酉算子平均相似性 | p值 | 哈密顿量平均相似性 | p值 | 平均∥ΔΨ⟩∥ |
|---|
| 多头注意力 | 0.8398 | 0.0001 | 0.9193 | 0.0001 | (−0.1001,−0.0385) |
| 多层感知机 | 0.4901 | 0.0001 | 0.7445 | 0.0001 | (−0.0009,0.0003) |
- Householder向量聚类: 形成两个集中的簇,表明注意力层仅利用有限的概率更新空间
- 偏差倾向: 平均状态向量变化显示对正面情感的偏好
- 影响力: 对最终预测产生显著影响
- 更大分散性: Householder向量分布更广,表明MLP层能实现更多样的概率更新
- 微调作用: 状态向量变化集中在原点附近,主要进行细微调整
- 较小影响: 对最终预测的贡献相对较小
所有层级的酉算子和哈密顿量相似性均显著高于随机基线(p < 0.0001),表明各层在不同输入上保持一致的变换模式。
- 探针方法: Jawahar等人的线性探针研究显示不同层专门处理不同语言特征
- 激活解释: Dalvi等人的神经元激活与词汇结构关联研究
- 机制化可解释性: Bricken等人的稀疏自编码器和电路发现方法
- 经典方法: Hopfield网络、Boltzmann机器等
- 现代应用: 热力学和经典力学在LLM训练动态中的应用
- 量子机器学习: 主要集中在QML和ML4QM范式,与本文的量子启发可解释性不同
- QLENS成功建立了Transformer与量子力学之间的数学类比
- 该框架能够量化各层对最终输出概率分布的贡献
- 注意力层和MLP层展现出不同的变换模式和影响程度
- 量子力学的数学结构为Transformer分析提供了新的理论工具
- 非线性处理: 量子力学本质上是线性的,而Transformer的能力很大程度上来自非线性组件
- 抽象层次: 当前分析停留在层级输入输出层面,未深入建模层内过程
- 实验范围: 概念验证仅限于简单的玩具模型,泛化性有待验证
- 算子选择: Householder变换的选择可能限制了分析的完整性
- 扩展到大规模模型: 将QLENS应用于预训练的大型Transformer
- 非线性处理: 探索量子通道和非线性薛定谔方程来处理激活函数
- 量子概念扩展: 集成量子纠缠、不确定性原理等更多量子概念
- 新评价指标: 开发基于量子信息论的Transformer评价指标
- 创新性强: 首次系统性地将量子力学框架应用于Transformer可解释性
- 数学严谨: 建立了完整的数学类比体系,包括六大假设和相应定理
- 实证支撑: 通过具体实验验证了框架的可行性和有效性
- 跨学科视角: 为AI可解释性研究提供了新的理论工具
- 实验局限: 仅在简单玩具模型上验证,缺乏大规模实验
- 理论缺口: 对非线性组件的处理仍是开放问题
- 实用性待验证: 相比现有方法的实际优势尚不明确
- 计算复杂度: 未讨论大规模应用时的计算效率问题
- 理论贡献: 为Transformer理解提供了全新的数学框架
- 方法论价值: 展示了跨学科方法在AI研究中的潜力
- 启发性: 可能激发更多物理启发的AI可解释性研究
- 局限性: 当前阶段更多是概念验证,实际应用价值有限
- 理论研究: 适合探索Transformer内部机制的理论分析
- 教育用途: 为理解Transformer提供新的概念框架
- 方法开发: 为开发新的可解释性工具提供基础
- 跨学科合作: 促进AI与物理学的交叉研究
本文引用了54篇相关文献,涵盖了量子力学基础、Transformer架构、可解释性方法和物理启发的机器学习等多个领域的重要工作,为跨学科研究提供了坚实的理论基础。
总体评价: 这是一篇具有创新性和启发性的跨学科研究论文,虽然在实际应用方面仍有局限,但为Transformer可解释性研究开辟了全新的理论方向。作者诚实地承认了当前方法的不足,并为未来研究指明了方向,体现了良好的学术态度。