2025-11-24T08:31:18.188109

Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models

Lee, Zhang, Nguyen et al.
Cross-domain sequential recommendation (CDSR) aims to align heterogeneous user behavior sequences collected from different domains. While cross-attention is widely used to enhance alignment and improve recommendation performance, its underlying mechanism is not fully understood. Most researchers interpret cross-attention as residual alignment, where the output is generated by removing redundant and preserving non-redundant information from the query input by referencing another domain data which is input key and value. Beyond the prevailing view, we introduce Orthogonal Alignment, a phenomenon in which cross-attention discovers novel information that is not present in the query input, and further argue that those two contrasting alignment mechanisms can co-exist in recommendation models We find that when the query input and output of cross-attention are orthogonal, model performance improves over 300 experiments. Notably, Orthogonal Alignment emerges naturally, without any explicit orthogonality constraints. Our key insight is that Orthogonal Alignment emerges naturally because it improves scaling law. We show that baselines additionally incorporating cross-attention module outperform parameter-matched baselines, achieving a superior accuracy-per-model parameter. We hope these findings offer new directions for parameter-efficient scaling in multi-modal research.
academic

L'Attention Croisée Effectue Secrètement un Alignement Orthogonal dans les Modèles de Recommandation

Informations Fondamentales

  • ID de l'article: 2510.09435
  • Titre: Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models
  • Auteurs: Hyunin Lee, Yong Zhang, Hoang Vu Nguyen, Xiaoyi Liu, Namyong Park, Christopher Jung, Rong Jin, Yang Wang, Zhigang Wang, Somayeh Sojoudi, Xue Feng
  • Institutions: Meta, UC Berkeley
  • Classification: cs.LG cs.IR
  • Date de publication: 13 octobre 2025
  • Lien de l'article: https://arxiv.org/abs/2510.09435

Résumé

La recommandation de séquences multi-domaines (CDSR) vise à aligner les séquences de comportement utilisateur hétérogènes provenant de différents domaines. Bien que les mécanismes d'attention croisée soient largement utilisés pour améliorer l'alignement et les performances de recommandation, leurs mécanismes intrinsèques ne sont pas encore entièrement compris. La plupart des chercheurs interprètent l'attention croisée comme un alignement résiduel, c'est-à-dire l'élimination des informations redondantes et la conservation des informations non redondantes en référençant les données d'un autre domaine (comme clés et valeurs). Cet article dépasse ce point de vue dominant en introduisant le phénomène d'alignement orthogonal, où l'attention croisée découvre de nouvelles informations absentes de l'entrée de requête, et soutient que ces deux mécanismes d'alignement contrastés peuvent coexister dans les modèles de recommandation. À travers plus de 300 expériences, nous constatons que les performances du modèle s'améliorent lorsque l'entrée et la sortie de l'attention croisée sont orthogonales. Remarquablement, l'alignement orthogonal émerge naturellement sans aucune contrainte d'orthogonalité explicite. L'intuition clé est que l'alignement orthogonal émerge naturellement car il améliore les lois d'échelle, permettant au modèle d'atteindre un meilleur rapport précision-paramètres.

Contexte de Recherche et Motivation

Définition du Problème

Le défi fondamental des systèmes d'IA modernes est de fusionner efficacement les séquences de comportement utilisateur hétérogènes provenant de multiples plateformes (telles que Facebook, Instagram, Amazon). Les traces d'interaction que les utilisateurs laissent dans différents domaines sont complémentaires, mais la simple combinaison de signaux entraîne souvent une dégradation des performances en raison du bruit, de la redondance ou des conflits d'informations entre domaines.

Motivation de la Recherche

  1. Compréhension théorique insuffisante: Bien que l'attention croisée soit largement appliquée dans la recommandation de séquences multi-domaines, ses mécanismes de fonctionnement intrinsèques manquent d'une compréhension approfondie
  2. Limitations du point de vue dominant: Les recherches actuelles considèrent principalement l'attention croisée comme un mécanisme d'alignement résiduel, c'est-à-dire en supprimant le bruit et la redondance pour assurer que seules les informations non redondantes sont transmises
  3. Besoin d'efficacité des paramètres: Avec la croissance de la taille des modèles, des stratégies d'utilisation des paramètres plus efficaces sont nécessaires

Limitations des Méthodes Existantes

  • Les méthodes traditionnelles comprennent l'attention croisée comme un filtre de débruitage et de pertinence
  • Un alignement résiduel strict peut limiter l'apprentissage des composants redondants partagés entre modalités, en ignorant les informations spécifiques aux modalités uniques ou synergiques
  • Manque de compréhension mécanique de la façon dont l'attention croisée extrait les informations complémentaires

Contributions Principales

  1. Découverte du phénomène d'alignement orthogonal: Identification et définition pour la première fois du mécanisme d'alignement orthogonal dans l'attention croisée, où la requête d'entrée X et la sortie X' tendent à être orthogonales
  2. Établissement de la relation performance-orthogonalité: Démonstration par plus de 300 expériences d'une relation négative entre le degré d'orthogonalité et les performances de recommandation
  3. Proposition d'une explication d'efficacité des paramètres: Preuve que l'émergence naturelle de l'alignement orthogonal est due à une stratégie d'échelle de modèle efficace en paramètres
  4. Conception du module d'attention croisée contrôlée: Proposition du module GCA (Gated Cross-Attention) qui peut induire naturellement l'alignement orthogonal
  5. Validation inter-modèles: Vérification de l'universalité des découvertes sur trois algorithmes de base CDSR et quatre combinaisons de jeux de données multi-domaines

Détails de la Méthode

Définition de la Tâche

La tâche de recommandation de séquences multi-domaines est définie comme suit: étant donné les séquences d'interaction de l'utilisateur dans les domaines A et B XARB×lA×dX_A \in \mathbb{R}^{B \times l_A \times d} et XBRB×lB×dX_B \in \mathbb{R}^{B \times l_B \times d}, prédire le prochain élément d'interaction de l'utilisateur dans le domaine cible.

Module d'Attention Croisée Contrôlée (GCA)

Architecture Principale

L'expression mathématique du module GCA est:

GCA(X_A, X_B) = LayerNorm(X_A + FFN([X_A; X_B]) ⊙ X'_A)

Où:

  • XA=CA(XA,XB)X'_A = CA(X_A, X_B) est la sortie de l'attention croisée
  • FFN([XA;XB])FFN([X_A; X_B]) est un réseau de neurones à propagation avant agissant sur la représentation concaténée, produisant des valeurs de contrôle
  • représente le produit de Hadamard (multiplication élément par élément)

Caractéristiques de Conception

  1. Contrôle Apprenable: Contrairement aux structures de contrôle fixes, le module de contrôle apprend des valeurs de contrôle vectorielles basées sur les séquences d'entrée concaténées
  2. Propagation Sélective d'Informations: Les valeurs de contrôle régulent le degré d'intégration de la représentation d'attention croisée XAX'_A dans la représentation originale XAX_A
  3. Fonctions d'Activation Flexibles: Support des fonctions d'activation sigmoid ou tanh

Mécanisme d'Alignement Orthogonal

Définition du Phénomène

L'alignement orthogonal fait référence à un mécanisme d'alignement de représentation où l'entrée de requête (X) et la sortie (X') de l'attention croisée tendent à être orthogonales, plutôt que de simplement renforcer les caractéristiques pré-alignées existantes de X.

Méthode de Mesure

Utilisation de la similarité cosinus moyennée par lot et position pour mesurer le degré d'orthogonalité:

|cos(X, X')| = (1/(B·l)) ∑_{b,i∈[B]×[l]} cos(X⃗_{bi}, X⃗'_{bi})

Découvertes Clés

  • L'alignement orthogonal émerge naturellement sans régularisation d'orthogonalité explicite
  • |cos(X, X')| présente une relation négative avec les performances de recommandation
  • Le degré d'orthogonalité reste stable entre les modèles (médiane ≈ 0,1-0,2)

Configuration Expérimentale

Jeux de Données

Utilisation du jeu de données public Amazon Reviews, couvrant différents domaines de types de produits:

  • Cloth-Sport
  • Electronic-Phone
  • Beauty-Electronics
  • Food-Kitchen

Modèles de Base

Sélection de trois algorithmes CDSR récents:

  1. CDSRNP: Recommandation multi-domaines basée sur les processus neuraux conditionnels
  2. ABXI: Recommandation de séquences multi-domaines orientée vers les tâches
  3. LLM4CDSR: Recommandation multi-domaines basée sur les grands modèles de langage

Métriques d'Évaluation

  • NDCG@1, NDCG@10: Qualité du classement
  • AUC: Capacité discriminante
  • HR@5, HR@10, HR@20: Taux de succès

Configuration Expérimentale

  • Position d'insertion du module GCA: GCA0 (début), GCA1 (milieu), etc.
  • Fonctions d'activation: sigmoid, tanh
  • Nombre de têtes d'attention: 4, 8
  • Cinq graines aléatoires pour chaque configuration

Résultats Expérimentaux

Résultats Principaux

Cohérence de l'Amélioration des Performances

Sur les trois modèles de base, les modules GCA précoces (GCAearly) apportent des améliorations de performances cohérentes:

LLM4CDSR sur le jeu de données Cloth-Sport:

  • NDCG@1A: 0,716 → 0,728 (+1,2%)
  • NDCG@10A: 0,782 → 0,805 (+2,3%)
  • AUCA: +1,5%

ABXI sur le jeu de données Food-Kitchen:

  • NDCG@1A: 0,059 → 0,072 (+22%)
  • NDCG@10A: 0,154 → 0,176 (+14%)

Relation Alignement Orthogonal-Performance

Découverte clé: |cos(X, X')| présente une corrélation négative significative avec NDCG@10:

  • LLM4CDSR domaine B: r = -0,452
  • ABXI domaine A: r = -0,328, domaine B: r = -0,340
  • CDSRNP domaine B: r = -0,296

Vérification de l'Efficacité des Paramètres

Comparaison des modèles améliorés par GCA avec les modèles de base à paramètres équivalents:

  • Dans les 5 cas de test, le modèle de base + GCAearly surpasse le modèle de base à paramètres équivalents
  • LLM4CDSR démontre l'efficacité des paramètres la plus forte, attribuée aux limitations de dimension fixe des plongements LLM pré-entraînés

Analyse de l'Effet d'Empilement

L'empilement vertical de plusieurs modules GCA n'apporte pas toujours des améliorations monotones:

  • CDSRNP: Pas de gains supplémentaires de 0,1 à un empilement plus profond
  • ABXI: Le placement sélectif 1,2 est optimal
  • LLM4CDSR: La position unique 1 surpasse la configuration empilée 0,1

Indépendance de l'Orthogonalisation

L'orthogonalisation induite par GCA est indépendante de la similarité entre X et Y:

  • |cos(X, X')| reste stable entre les modèles (plage 0,1-0,2)
  • |cos(X, Y)| varie selon le jeu de données (0,020-0,397)
  • Preuve que GCA induit intrinsèquement un degré contrôlé d'orthogonalisation

Travaux Connexes

Alignement Multi-Modal

  • Méthodes d'apprentissage contrastif: CLIP, ALIGN et autres réalisent l'alignement image-texte par des objectifs contrastifs
  • Mécanismes d'attention croisée: Utilisés dans les modèles de diffusion texte-image comme filtres de débruitage et de pertinence
  • Problème d'écart modal: Phénomène où les plongements d'images et de texte occupent des régions disjointes

Recommandation de Séquences Multi-Domaines

  • Méthodes précoces: MiNet réseau d'intérêts mixtes, RecGURU apprentissage adversarial
  • Architecture Transformer: DASL attention double, MAN réseau d'attention mixte
  • Méthodes d'apprentissage par méta: CDSRNP processus neuraux, Tri-CDR apprentissage de séquences triples
  • Intégration LLM: LLM4CDSR, ABXI et autres avancées récentes

Conclusion et Discussion

Conclusions Principales

  1. Universalité de l'alignement orthogonal: Dans la recommandation multi-domaines, l'attention croisée produit naturellement le phénomène d'alignement orthogonal
  2. Mécanisme d'amélioration des performances: Le degré d'orthogonalité présente une corrélation négative avec les performances de recommandation, offrant une nouvelle perspective d'optimisation des performances
  3. Avantages d'efficacité des paramètres: L'alignement orthogonal réalise une mise à l'échelle efficace en paramètres en explorant les sous-espaces orthogonaux
  4. Orientation de la Conception Architecturale: Le placement précoce de GCA est le plus efficace, l'empilement profond nécessite une application prudente

Limitations

  1. Portée des jeux de données: Les expériences sont principalement basées sur les données de recommandation Amazon, la généralisation nécessite une vérification supplémentaire
  2. Applicabilité aux modèles vision-langage: En raison des caractéristiques d'apprentissage contrastif des encodeurs pré-entraînés, l'observation de l'alignement orthogonal dans les VLM peut être plus difficile
  3. Explication du mécanisme: L'efficacité des paramètres peut ne pas être la seule explication de l'émergence de l'alignement orthogonal
  4. Sélection des modèles de base: Les différents modèles de base utilisent différents sous-ensembles de données, ce qui peut affecter la comparaison des résultats

Directions Futures

  1. Exploration architecturale: Développement de mécanismes d'alignement orthogonal plus efficaces au-delà de GCA
  2. Analyse théorique: Compréhension approfondie des principes mathématiques et des propriétés de convergence de l'alignement orthogonal
  3. Validation inter-domaines: Vérification des découvertes dans d'autres tâches multi-modales telles que les modèles vision-langage
  4. Développement de métriques: Conception de méthodes de mesure d'alignement orthogonal plus raffinées

Évaluation Approfondie

Points Forts

  1. Contribution théorique majeure: Remet en question la compréhension traditionnelle de l'attention croisée comme alignement résiduel, proposant une nouvelle perspective d'alignement orthogonal
  2. Conception expérimentale rigoureuse: Plus de 300 configurations expérimentales, plusieurs modèles de base, vérification de la significativité statistique
  3. Explication mécanique approfondie: Non seulement découverte du phénomène, mais aussi fourniture d'une explication raisonnable de l'efficacité des paramètres
  4. Valeur pratique élevée: Le module GCA est simple et efficace, facile à intégrer dans les architectures existantes
  5. Rédaction claire: Définitions de concepts précises, présentation suffisante des résultats expérimentaux

Insuffisances

  1. Diversité des jeux de données: Principalement basé sur les données de recommandation d'e-commerce, l'applicabilité dans d'autres domaines n'a pas été suffisamment vérifiée
  2. Fondement théorique: Manque d'analyse théorique mathématique rigoureuse du phénomène d'alignement orthogonal
  3. Surcharge de calcul: Analyse insuffisante de la complexité de calcul et de l'efficacité d'inférence du module GCA
  4. Sensibilité aux hyperparamètres: Analyse insuffisante de la sensibilité aux choix de fonction de contrôle, nombre de têtes d'attention et autres hyperparamètres
  5. Effets à long terme: Pas d'évaluation de la stabilité de l'alignement orthogonal dans les séquences longues ou le déploiement à grande échelle

Impact

  1. Valeur académique: Fournit une nouvelle perspective théorique pour l'apprentissage multi-modal et les systèmes de recommandation
  2. Orientation pratique: Fournit des solutions d'amélioration architecturale concrètes pour la conception de systèmes de recommandation multi-domaines
  3. Contribution méthodologique: La méthode de mesure du degré d'alignement orthogonal peut être appliquée à l'analyse d'autres tâches multi-modales
  4. Inspiration de recherche: Ouvre une nouvelle direction de recherche pour comprendre les mécanismes d'attention sous la perspective de l'orthogonalité

Scénarios Applicables

  1. Recommandation multi-domaines: Scénarios de recommandation multi-domaines dans le commerce électronique, les réseaux sociaux et les plateformes de contenu
  2. Apprentissage multi-modal: Tâches d'apprentissage automatique nécessitant la fusion de sources de données hétérogènes
  3. Optimisation de l'efficacité des paramètres: Besoins de mise à l'échelle de modèles dans les environnements aux ressources limitées
  4. Recherche sur les mécanismes d'attention: Travaux de recherche approfondissant la compréhension de l'architecture transformer

Références

L'article cite des travaux importants dans les domaines des systèmes de recommandation, de l'apprentissage multi-modal et des mécanismes d'attention, notamment:

  • Vaswani et al. (2017): Fondations de l'architecture Transformer
  • Radford et al. (2021): Méthode d'apprentissage contrastif CLIP
  • Alayrac et al. (2022): Modèle vision-langage Flamingo
  • Plusieurs travaux connexes CDSR: MiNet, RecGURU, DASL, MAN, etc.

Évaluation Globale: Cet article est une recherche de haute qualité, excellente tant dans ses contributions théoriques que dans sa valeur pratique. En découvrant et en analysant le phénomène d'alignement orthogonal, il fournit une nouvelle perspective de compréhension pour le domaine de l'apprentissage multi-modal, avec une valeur académique importante et des perspectives d'application prometteuses.