2025-11-24T08:31:18.188109

Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models

Lee, Zhang, Nguyen et al.

Cross-domain sequential recommendation (CDSR) aims to align heterogeneous user behavior sequences collected from different domains. While cross-attention is widely used to enhance alignment and improve recommendation performance, its underlying mechanism is not fully understood. Most researchers interpret cross-attention as residual alignment, where the output is generated by removing redundant and preserving non-redundant information from the query input by referencing another domain data which is input key and value. Beyond the prevailing view, we introduce Orthogonal Alignment, a phenomenon in which cross-attention discovers novel information that is not present in the query input, and further argue that those two contrasting alignment mechanisms can co-exist in recommendation models We find that when the query input and output of cross-attention are orthogonal, model performance improves over 300 experiments. Notably, Orthogonal Alignment emerges naturally, without any explicit orthogonality constraints. Our key insight is that Orthogonal Alignment emerges naturally because it improves scaling law. We show that baselines additionally incorporating cross-attention module outperform parameter-matched baselines, achieving a superior accuracy-per-model parameter. We hope these findings offer new directions for parameter-efficient scaling in multi-modal research.

academic

Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models

基本信息

论文ID: 2510.09435
标题: Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models
作者: Hyunin Lee, Yong Zhang, Hoang Vu Nguyen, Xiaoyi Liu, Namyong Park, Christopher Jung, Rong Jin, Yang Wang, Zhigang Wang, Somayeh Sojoudi, Xue Feng
机构: Meta, UC Berkeley
分类: cs.LG cs.IR
发表时间: October 13, 2025
论文链接: https://arxiv.org/abs/2510.09435

摘要

跨域序列推荐（CDSR）旨在对齐来自不同域的异构用户行为序列。虽然交叉注意力机制被广泛用于增强对齐并提高推荐性能，但其内在机制尚未完全理解。大多数研究者将交叉注意力解释为残差对齐（residual alignment），即通过参考另一个域的数据（作为key和value）来去除冗余信息并保留非冗余信息。本文超越了这一主流观点，引入了正交对齐（Orthogonal Alignment）现象，即交叉注意力发现查询输入中不存在的新信息，并论证这两种对比性的对齐机制可以在推荐模型中共存。通过超过300次实验发现，当交叉注意力的查询输入与输出正交时，模型性能得到提升。值得注意的是，正交对齐自然出现，无需任何显式的正交性约束。关键洞察是正交对齐自然出现是因为它改善了缩放定律，使模型能够实现更优的准确率-参数比。

研究背景与动机

问题定义

现代AI系统面临的核心挑战是如何有效融合来自多个平台（如Facebook、Instagram、Amazon）的异构用户行为序列。用户在不同域中留下的交互轨迹具有互补性，但简单的信号组合往往因域间信息的噪声、冗余或冲突而导致性能下降。

研究动机

理论理解不足：尽管交叉注意力在跨域序列推荐中广泛应用，但其内在工作机制缺乏深入理解
主流观点局限：当前研究主要将交叉注意力视为残差对齐机制，即通过抑制噪声和冗余来确保只传递非冗余信息
参数效率需求：随着模型规模增长，需要更高效的参数利用策略

现有方法局限性

传统方法将交叉注意力理解为去噪和相关性过滤器
严格的残差对齐可能限制学习到跨模态共享的冗余组件，忽略独特或协同的模态特定信息
缺乏对交叉注意力如何提取互补信息的机制性理解

核心贡献

发现正交对齐现象：首次识别并定义了交叉注意力中的正交对齐机制，即输入查询X和输出X'趋向正交的现象
建立性能-正交性关系：通过300+实验证明了正交程度与推荐性能的负相关关系
提出参数效率解释：证明正交对齐的自然出现是因为它提供了参数高效的模型缩放策略
设计门控交叉注意力模块：提出GCA（Gated Cross-Attention）模块，能够自然诱导正交对齐
跨模型验证：在三个CDSR基线算法和四个多域数据集组合上验证了发现的普遍性

GCA(X_A, X_B) = LayerNorm(X_A + FFN([X_A; X_B]) ⊙ X'_A)

其中：

$X'_A = CA(X_A, X_B)$ 是交叉注意力输出
$FFN([X_A; X_B])$ 是作用于拼接表示的前馈网络，产生门控值
$⊙$ 表示Hadamard积（逐元素乘法）

设计特点

学习型门控：不同于固定门控结构，门控模块根据拼接输入序列学习向量值门控输出
选择性信息传播：门控值控制交叉注意力表示 $X'_A$ 融入原始表示 $X_A$ 的程度
灵活激活函数：支持sigmoid或tanh激活函数

|cos(X, X')| = (1/(B·l)) ∑_{b,i∈[B]×[l]} cos(X⃗_{bi}, X⃗'_{bi})

关键发现

正交对齐自然出现，无需显式正交性正则化
|cos(X, X')|与推荐性能呈负相关关系
正交程度在不同模型间保持稳定（中位数≈0.1-0.2）

实验设置

数据集

使用Amazon Reviews公开数据集，涵盖不同产品类型域：

Cloth-Sport
Electronic-Phone
Beauty-Electronics
Food-Kitchen

基线模型

选择三个近期CDSR算法：

CDSRNP：基于条件神经过程的跨域推荐
ABXI：任务导向的跨域序列推荐
LLM4CDSR：基于大语言模型的跨域推荐

评价指标

NDCG@1, NDCG@10：排序质量
AUC：判别能力
HR@5, HR@10, HR@20：命中率

实验配置

GCA模块插入位置：GCA0（早期）、GCA1（中期）等
激活函数：sigmoid、tanh
注意力头数：4、8
每个配置运行5次随机种子

NDCG@1A：0.716 → 0.728 (+1.2%)
NDCG@10A：0.782 → 0.805 (+2.3%)
AUCA：+1.5%

ABXI在Food-Kitchen数据集：

NDCG@1A：0.059 → 0.072 (+22%)
NDCG@10A：0.154 → 0.176 (+14%)

正交对齐-性能关系

关键发现：|cos(X, X')|与NDCG@10呈显著负相关：

LLM4CDSR域B：r = -0.452
ABXI域A：r = -0.328，域B：r = -0.340
CDSRNP域B：r = -0.296

参数效率验证

对比GCA增强模型与参数匹配的基线模型：

在所有5个测试案例中，基线+GCAearly都优于参数匹配的基线
LLM4CDSR展现最强参数效率，归因于预训练LLM嵌入的固定维度限制

堆叠效应分析

垂直堆叠多个GCA模块并不总是带来单调提升：

CDSRNP：从0,1到更深堆叠无进一步收益
ABXI：选择性放置1,2效果最佳
LLM4CDSR：单独1位置优于堆叠配置0,1

正交化独立性

GCA诱导的正交化独立于X和Y的相似性：

|cos(X, X')|在不同模型间保持稳定（0.1-0.2范围）
|cos(X, Y)|因数据集而异（0.020-0.397）
证明GCA内在地诱导受控程度的正交化

结论与讨论

主要结论

正交对齐的普遍性：在跨域推荐中，交叉注意力自然产生正交对齐现象
性能提升机制：正交程度与推荐性能负相关，提供了新的性能优化视角
参数效率优势：正交对齐通过探索正交子空间实现参数高效缩放
架构设计指导：早期GCA放置最有效，深度堆叠需谨慎应用

局限性

数据集范围：实验主要基于Amazon推荐数据，泛化性需进一步验证
视觉-语言模型适用性：由于预训练编码器的对比学习特性，在VLM中观察正交对齐可能更具挑战性
机制解释：参数效率可能不是正交对齐出现的唯一解释
基线选择：不同基线使用不同数据子集，可能影响结果比较

未来方向

架构探索：开发超越GCA的更有效正交对齐机制
理论分析：深入理解正交对齐的数学原理和收敛性质
跨领域验证：在视觉-语言模型等其他多模态任务中验证发现
度量开发：设计更精细的正交对齐测量方法

深度评价

优点

理论贡献重大：挑战了交叉注意力作为残差对齐的传统理解，提出了正交对齐的新视角
实验设计严谨：300+实验配置，多个基线模型，统计显著性验证
机制解释深入：不仅发现现象，还提供了参数效率的合理解释
实用价值高：GCA模块简单有效，易于集成到现有架构中
写作清晰：概念定义明确，实验结果展示充分

不足

数据集多样性：主要基于电商推荐数据，其他领域的适用性未充分验证
理论基础：缺乏正交对齐现象的严格数学理论分析
计算开销：未详细分析GCA模块的计算复杂度和推理效率
超参数敏感性：对门控函数选择、注意力头数等超参数的敏感性分析不足
长期效应：未评估正交对齐在长序列或大规模部署中的稳定性

影响力

学术价值：为多模态学习和推荐系统提供了新的理论视角
实践指导：为跨域推荐系统设计提供了具体的架构改进方案
方法论贡献：正交对齐度量方法可用于其他多模态任务分析
研究启发：开启了从正交性角度理解注意力机制的新研究方向

适用场景

跨域推荐：电商、社交媒体、内容平台的多域推荐场景
多模态学习：需要融合异构数据源的机器学习任务
参数效率优化：资源受限环境下的模型缩放需求
注意力机制研究：深入理解transformer架构的研究工作

参考文献

论文引用了推荐系统、多模态学习和注意力机制等领域的重要工作，包括：

Vaswani et al. (2017): Transformer架构基础
Radford et al. (2021): CLIP对比学习方法
Alayrac et al. (2022): Flamingo视觉语言模型
多个CDSR相关工作：MiNet, RecGURU, DASL, MAN等

总体评价：这是一篇高质量的研究论文，在理论贡献和实践价值方面都表现出色。通过发现和分析正交对齐现象，为多模态学习领域提供了新的理解视角，具有重要的学术价值和应用前景。