2025-11-24T08:31:18.188109

Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models

Lee, Zhang, Nguyen et al.

Cross-domain sequential recommendation (CDSR) aims to align heterogeneous user behavior sequences collected from different domains. While cross-attention is widely used to enhance alignment and improve recommendation performance, its underlying mechanism is not fully understood. Most researchers interpret cross-attention as residual alignment, where the output is generated by removing redundant and preserving non-redundant information from the query input by referencing another domain data which is input key and value. Beyond the prevailing view, we introduce Orthogonal Alignment, a phenomenon in which cross-attention discovers novel information that is not present in the query input, and further argue that those two contrasting alignment mechanisms can co-exist in recommendation models We find that when the query input and output of cross-attention are orthogonal, model performance improves over 300 experiments. Notably, Orthogonal Alignment emerges naturally, without any explicit orthogonality constraints. Our key insight is that Orthogonal Alignment emerges naturally because it improves scaling law. We show that baselines additionally incorporating cross-attention module outperform parameter-matched baselines, achieving a superior accuracy-per-model parameter. We hope these findings offer new directions for parameter-efficient scaling in multi-modal research.

academic

L'Attention Croisée Effectue Secrètement un Alignement Orthogonal dans les Modèles de Recommandation

Informations Fondamentales

ID de l'article: 2510.09435
Titre: Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models
Auteurs: Hyunin Lee, Yong Zhang, Hoang Vu Nguyen, Xiaoyi Liu, Namyong Park, Christopher Jung, Rong Jin, Yang Wang, Zhigang Wang, Somayeh Sojoudi, Xue Feng
Institutions: Meta, UC Berkeley
Classification: cs.LG cs.IR
Date de publication: 13 octobre 2025
Lien de l'article: https://arxiv.org/abs/2510.09435

Résumé

La recommandation de séquences multi-domaines (CDSR) vise à aligner les séquences de comportement utilisateur hétérogènes provenant de différents domaines. Bien que les mécanismes d'attention croisée soient largement utilisés pour améliorer l'alignement et les performances de recommandation, leurs mécanismes intrinsèques ne sont pas encore entièrement compris. La plupart des chercheurs interprètent l'attention croisée comme un alignement résiduel, c'est-à-dire l'élimination des informations redondantes et la conservation des informations non redondantes en référençant les données d'un autre domaine (comme clés et valeurs). Cet article dépasse ce point de vue dominant en introduisant le phénomène d'alignement orthogonal, où l'attention croisée découvre de nouvelles informations absentes de l'entrée de requête, et soutient que ces deux mécanismes d'alignement contrastés peuvent coexister dans les modèles de recommandation. À travers plus de 300 expériences, nous constatons que les performances du modèle s'améliorent lorsque l'entrée et la sortie de l'attention croisée sont orthogonales. Remarquablement, l'alignement orthogonal émerge naturellement sans aucune contrainte d'orthogonalité explicite. L'intuition clé est que l'alignement orthogonal émerge naturellement car il améliore les lois d'échelle, permettant au modèle d'atteindre un meilleur rapport précision-paramètres.

Contexte de Recherche et Motivation

Définition du Problème

Le défi fondamental des systèmes d'IA modernes est de fusionner efficacement les séquences de comportement utilisateur hétérogènes provenant de multiples plateformes (telles que Facebook, Instagram, Amazon). Les traces d'interaction que les utilisateurs laissent dans différents domaines sont complémentaires, mais la simple combinaison de signaux entraîne souvent une dégradation des performances en raison du bruit, de la redondance ou des conflits d'informations entre domaines.

Motivation de la Recherche

Compréhension théorique insuffisante: Bien que l'attention croisée soit largement appliquée dans la recommandation de séquences multi-domaines, ses mécanismes de fonctionnement intrinsèques manquent d'une compréhension approfondie
Limitations du point de vue dominant: Les recherches actuelles considèrent principalement l'attention croisée comme un mécanisme d'alignement résiduel, c'est-à-dire en supprimant le bruit et la redondance pour assurer que seules les informations non redondantes sont transmises
Besoin d'efficacité des paramètres: Avec la croissance de la taille des modèles, des stratégies d'utilisation des paramètres plus efficaces sont nécessaires

Limitations des Méthodes Existantes

Les méthodes traditionnelles comprennent l'attention croisée comme un filtre de débruitage et de pertinence
Un alignement résiduel strict peut limiter l'apprentissage des composants redondants partagés entre modalités, en ignorant les informations spécifiques aux modalités uniques ou synergiques
Manque de compréhension mécanique de la façon dont l'attention croisée extrait les informations complémentaires

Contributions Principales

Découverte du phénomène d'alignement orthogonal: Identification et définition pour la première fois du mécanisme d'alignement orthogonal dans l'attention croisée, où la requête d'entrée X et la sortie X' tendent à être orthogonales
Établissement de la relation performance-orthogonalité: Démonstration par plus de 300 expériences d'une relation négative entre le degré d'orthogonalité et les performances de recommandation
Proposition d'une explication d'efficacité des paramètres: Preuve que l'émergence naturelle de l'alignement orthogonal est due à une stratégie d'échelle de modèle efficace en paramètres
Conception du module d'attention croisée contrôlée: Proposition du module GCA (Gated Cross-Attention) qui peut induire naturellement l'alignement orthogonal
Validation inter-modèles: Vérification de l'universalité des découvertes sur trois algorithmes de base CDSR et quatre combinaisons de jeux de données multi-domaines

Détails de la Méthode

Définition de la Tâche

La tâche de recommandation de séquences multi-domaines est définie comme suit: étant donné les séquences d'interaction de l'utilisateur dans les domaines A et B $X_A \in \mathbb{R}^{B \times l_A \times d}$ et $X_B \in \mathbb{R}^{B \times l_B \times d}$ , prédire le prochain élément d'interaction de l'utilisateur dans le domaine cible.

Module d'Attention Croisée Contrôlée (GCA)

Architecture Principale

L'expression mathématique du module GCA est:

GCA(X_A, X_B) = LayerNorm(X_A + FFN([X_A; X_B]) ⊙ X'_A)

Où:

$X'_A = CA(X_A, X_B)$ est la sortie de l'attention croisée
$FFN([X_A; X_B])$ est un réseau de neurones à propagation avant agissant sur la représentation concaténée, produisant des valeurs de contrôle
$⊙$ représente le produit de Hadamard (multiplication élément par élément)

Caractéristiques de Conception

Contrôle Apprenable: Contrairement aux structures de contrôle fixes, le module de contrôle apprend des valeurs de contrôle vectorielles basées sur les séquences d'entrée concaténées
Propagation Sélective d'Informations: Les valeurs de contrôle régulent le degré d'intégration de la représentation d'attention croisée $X'_A$ dans la représentation originale $X_A$
Fonctions d'Activation Flexibles: Support des fonctions d'activation sigmoid ou tanh

Mécanisme d'Alignement Orthogonal

Définition du Phénomène

L'alignement orthogonal fait référence à un mécanisme d'alignement de représentation où l'entrée de requête (X) et la sortie (X') de l'attention croisée tendent à être orthogonales, plutôt que de simplement renforcer les caractéristiques pré-alignées existantes de X.

Méthode de Mesure

Utilisation de la similarité cosinus moyennée par lot et position pour mesurer le degré d'orthogonalité:

|cos(X, X')| = (1/(B·l)) ∑_{b,i∈[B]×[l]} cos(X⃗_{bi}, X⃗'_{bi})

Découvertes Clés

L'alignement orthogonal émerge naturellement sans régularisation d'orthogonalité explicite
|cos(X, X')| présente une relation négative avec les performances de recommandation
Le degré d'orthogonalité reste stable entre les modèles (médiane ≈ 0,1-0,2)

Configuration Expérimentale

Jeux de Données

Utilisation du jeu de données public Amazon Reviews, couvrant différents domaines de types de produits:

Cloth-Sport
Electronic-Phone
Beauty-Electronics
Food-Kitchen

Modèles de Base

Sélection de trois algorithmes CDSR récents:

CDSRNP: Recommandation multi-domaines basée sur les processus neuraux conditionnels
ABXI: Recommandation de séquences multi-domaines orientée vers les tâches
LLM4CDSR: Recommandation multi-domaines basée sur les grands modèles de langage

Métriques d'Évaluation

NDCG@1, NDCG@10: Qualité du classement
AUC: Capacité discriminante
HR@5, HR@10, HR@20: Taux de succès

Configuration Expérimentale

Position d'insertion du module GCA: GCA0 (début), GCA1 (milieu), etc.
Fonctions d'activation: sigmoid, tanh
Nombre de têtes d'attention: 4, 8
Cinq graines aléatoires pour chaque configuration

Résultats Expérimentaux

Résultats Principaux

Cohérence de l'Amélioration des Performances

Sur les trois modèles de base, les modules GCA précoces (GCAearly) apportent des améliorations de performances cohérentes:

LLM4CDSR sur le jeu de données Cloth-Sport:

NDCG@1A: 0,716 → 0,728 (+1,2%)
NDCG@10A: 0,782 → 0,805 (+2,3%)
AUCA: +1,5%

ABXI sur le jeu de données Food-Kitchen:

NDCG@1A: 0,059 → 0,072 (+22%)
NDCG@10A: 0,154 → 0,176 (+14%)

Relation Alignement Orthogonal-Performance

Découverte clé: |cos(X, X')| présente une corrélation négative significative avec NDCG@10:

LLM4CDSR domaine B: r = -0,452
ABXI domaine A: r = -0,328, domaine B: r = -0,340
CDSRNP domaine B: r = -0,296

Vérification de l'Efficacité des Paramètres

Comparaison des modèles améliorés par GCA avec les modèles de base à paramètres équivalents:

Dans les 5 cas de test, le modèle de base + GCAearly surpasse le modèle de base à paramètres équivalents
LLM4CDSR démontre l'efficacité des paramètres la plus forte, attribuée aux limitations de dimension fixe des plongements LLM pré-entraînés

Analyse de l'Effet d'Empilement

L'empilement vertical de plusieurs modules GCA n'apporte pas toujours des améliorations monotones:

CDSRNP: Pas de gains supplémentaires de 0,1 à un empilement plus profond
ABXI: Le placement sélectif 1,2 est optimal
LLM4CDSR: La position unique 1 surpasse la configuration empilée 0,1

Indépendance de l'Orthogonalisation

L'orthogonalisation induite par GCA est indépendante de la similarité entre X et Y:

|cos(X, X')| reste stable entre les modèles (plage 0,1-0,2)
|cos(X, Y)| varie selon le jeu de données (0,020-0,397)
Preuve que GCA induit intrinsèquement un degré contrôlé d'orthogonalisation

Travaux Connexes

Méthodes d'apprentissage contrastif: CLIP, ALIGN et autres réalisent l'alignement image-texte par des objectifs contrastifs
Mécanismes d'attention croisée: Utilisés dans les modèles de diffusion texte-image comme filtres de débruitage et de pertinence
Problème d'écart modal: Phénomène où les plongements d'images et de texte occupent des régions disjointes

Recommandation de Séquences Multi-Domaines

Méthodes précoces: MiNet réseau d'intérêts mixtes, RecGURU apprentissage adversarial
Architecture Transformer: DASL attention double, MAN réseau d'attention mixte
Méthodes d'apprentissage par méta: CDSRNP processus neuraux, Tri-CDR apprentissage de séquences triples
Intégration LLM: LLM4CDSR, ABXI et autres avancées récentes

Conclusion et Discussion

Conclusions Principales

Universalité de l'alignement orthogonal: Dans la recommandation multi-domaines, l'attention croisée produit naturellement le phénomène d'alignement orthogonal
Mécanisme d'amélioration des performances: Le degré d'orthogonalité présente une corrélation négative avec les performances de recommandation, offrant une nouvelle perspective d'optimisation des performances
Avantages d'efficacité des paramètres: L'alignement orthogonal réalise une mise à l'échelle efficace en paramètres en explorant les sous-espaces orthogonaux
Orientation de la Conception Architecturale: Le placement précoce de GCA est le plus efficace, l'empilement profond nécessite une application prudente

Limitations

Portée des jeux de données: Les expériences sont principalement basées sur les données de recommandation Amazon, la généralisation nécessite une vérification supplémentaire
Applicabilité aux modèles vision-langage: En raison des caractéristiques d'apprentissage contrastif des encodeurs pré-entraînés, l'observation de l'alignement orthogonal dans les VLM peut être plus difficile
Explication du mécanisme: L'efficacité des paramètres peut ne pas être la seule explication de l'émergence de l'alignement orthogonal
Sélection des modèles de base: Les différents modèles de base utilisent différents sous-ensembles de données, ce qui peut affecter la comparaison des résultats

Directions Futures

Exploration architecturale: Développement de mécanismes d'alignement orthogonal plus efficaces au-delà de GCA
Analyse théorique: Compréhension approfondie des principes mathématiques et des propriétés de convergence de l'alignement orthogonal
Validation inter-domaines: Vérification des découvertes dans d'autres tâches multi-modales telles que les modèles vision-langage
Développement de métriques: Conception de méthodes de mesure d'alignement orthogonal plus raffinées

Évaluation Approfondie

Points Forts

Contribution théorique majeure: Remet en question la compréhension traditionnelle de l'attention croisée comme alignement résiduel, proposant une nouvelle perspective d'alignement orthogonal
Conception expérimentale rigoureuse: Plus de 300 configurations expérimentales, plusieurs modèles de base, vérification de la significativité statistique
Explication mécanique approfondie: Non seulement découverte du phénomène, mais aussi fourniture d'une explication raisonnable de l'efficacité des paramètres
Valeur pratique élevée: Le module GCA est simple et efficace, facile à intégrer dans les architectures existantes
Rédaction claire: Définitions de concepts précises, présentation suffisante des résultats expérimentaux

Insuffisances

Diversité des jeux de données: Principalement basé sur les données de recommandation d'e-commerce, l'applicabilité dans d'autres domaines n'a pas été suffisamment vérifiée
Fondement théorique: Manque d'analyse théorique mathématique rigoureuse du phénomène d'alignement orthogonal
Surcharge de calcul: Analyse insuffisante de la complexité de calcul et de l'efficacité d'inférence du module GCA
Sensibilité aux hyperparamètres: Analyse insuffisante de la sensibilité aux choix de fonction de contrôle, nombre de têtes d'attention et autres hyperparamètres
Effets à long terme: Pas d'évaluation de la stabilité de l'alignement orthogonal dans les séquences longues ou le déploiement à grande échelle

Impact

Valeur académique: Fournit une nouvelle perspective théorique pour l'apprentissage multi-modal et les systèmes de recommandation
Orientation pratique: Fournit des solutions d'amélioration architecturale concrètes pour la conception de systèmes de recommandation multi-domaines
Contribution méthodologique: La méthode de mesure du degré d'alignement orthogonal peut être appliquée à l'analyse d'autres tâches multi-modales
Inspiration de recherche: Ouvre une nouvelle direction de recherche pour comprendre les mécanismes d'attention sous la perspective de l'orthogonalité

Scénarios Applicables

Recommandation multi-domaines: Scénarios de recommandation multi-domaines dans le commerce électronique, les réseaux sociaux et les plateformes de contenu
Apprentissage multi-modal: Tâches d'apprentissage automatique nécessitant la fusion de sources de données hétérogènes
Optimisation de l'efficacité des paramètres: Besoins de mise à l'échelle de modèles dans les environnements aux ressources limitées
Recherche sur les mécanismes d'attention: Travaux de recherche approfondissant la compréhension de l'architecture transformer

Références

L'article cite des travaux importants dans les domaines des systèmes de recommandation, de l'apprentissage multi-modal et des mécanismes d'attention, notamment:

Vaswani et al. (2017): Fondations de l'architecture Transformer
Radford et al. (2021): Méthode d'apprentissage contrastif CLIP
Alayrac et al. (2022): Modèle vision-langage Flamingo
Plusieurs travaux connexes CDSR: MiNet, RecGURU, DASL, MAN, etc.

Évaluation Globale: Cet article est une recherche de haute qualité, excellente tant dans ses contributions théoriques que dans sa valeur pratique. En découvrant et en analysant le phénomène d'alignement orthogonal, il fournit une nouvelle perspective de compréhension pour le domaine de l'apprentissage multi-modal, avec une valeur académique importante et des perspectives d'application prometteuses.