Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models
Lee, Zhang, Nguyen et al.
Cross-domain sequential recommendation (CDSR) aims to align heterogeneous user behavior sequences collected from different domains. While cross-attention is widely used to enhance alignment and improve recommendation performance, its underlying mechanism is not fully understood. Most researchers interpret cross-attention as residual alignment, where the output is generated by removing redundant and preserving non-redundant information from the query input by referencing another domain data which is input key and value. Beyond the prevailing view, we introduce Orthogonal Alignment, a phenomenon in which cross-attention discovers novel information that is not present in the query input, and further argue that those two contrasting alignment mechanisms can co-exist in recommendation models We find that when the query input and output of cross-attention are orthogonal, model performance improves over 300 experiments. Notably, Orthogonal Alignment emerges naturally, without any explicit orthogonality constraints. Our key insight is that Orthogonal Alignment emerges naturally because it improves scaling law. We show that baselines additionally incorporating cross-attention module outperform parameter-matched baselines, achieving a superior accuracy-per-model parameter. We hope these findings offer new directions for parameter-efficient scaling in multi-modal research.
academic
L'Attention Croisée Effectue Secrètement un Alignement Orthogonal dans les Modèles de Recommandation
Titre: Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models
Auteurs: Hyunin Lee, Yong Zhang, Hoang Vu Nguyen, Xiaoyi Liu, Namyong Park, Christopher Jung, Rong Jin, Yang Wang, Zhigang Wang, Somayeh Sojoudi, Xue Feng
La recommandation de séquences multi-domaines (CDSR) vise à aligner les séquences de comportement utilisateur hétérogènes provenant de différents domaines. Bien que les mécanismes d'attention croisée soient largement utilisés pour améliorer l'alignement et les performances de recommandation, leurs mécanismes intrinsèques ne sont pas encore entièrement compris. La plupart des chercheurs interprètent l'attention croisée comme un alignement résiduel, c'est-à-dire l'élimination des informations redondantes et la conservation des informations non redondantes en référençant les données d'un autre domaine (comme clés et valeurs). Cet article dépasse ce point de vue dominant en introduisant le phénomène d'alignement orthogonal, où l'attention croisée découvre de nouvelles informations absentes de l'entrée de requête, et soutient que ces deux mécanismes d'alignement contrastés peuvent coexister dans les modèles de recommandation. À travers plus de 300 expériences, nous constatons que les performances du modèle s'améliorent lorsque l'entrée et la sortie de l'attention croisée sont orthogonales. Remarquablement, l'alignement orthogonal émerge naturellement sans aucune contrainte d'orthogonalité explicite. L'intuition clé est que l'alignement orthogonal émerge naturellement car il améliore les lois d'échelle, permettant au modèle d'atteindre un meilleur rapport précision-paramètres.
Le défi fondamental des systèmes d'IA modernes est de fusionner efficacement les séquences de comportement utilisateur hétérogènes provenant de multiples plateformes (telles que Facebook, Instagram, Amazon). Les traces d'interaction que les utilisateurs laissent dans différents domaines sont complémentaires, mais la simple combinaison de signaux entraîne souvent une dégradation des performances en raison du bruit, de la redondance ou des conflits d'informations entre domaines.
Compréhension théorique insuffisante: Bien que l'attention croisée soit largement appliquée dans la recommandation de séquences multi-domaines, ses mécanismes de fonctionnement intrinsèques manquent d'une compréhension approfondie
Limitations du point de vue dominant: Les recherches actuelles considèrent principalement l'attention croisée comme un mécanisme d'alignement résiduel, c'est-à-dire en supprimant le bruit et la redondance pour assurer que seules les informations non redondantes sont transmises
Besoin d'efficacité des paramètres: Avec la croissance de la taille des modèles, des stratégies d'utilisation des paramètres plus efficaces sont nécessaires
Les méthodes traditionnelles comprennent l'attention croisée comme un filtre de débruitage et de pertinence
Un alignement résiduel strict peut limiter l'apprentissage des composants redondants partagés entre modalités, en ignorant les informations spécifiques aux modalités uniques ou synergiques
Manque de compréhension mécanique de la façon dont l'attention croisée extrait les informations complémentaires
Découverte du phénomène d'alignement orthogonal: Identification et définition pour la première fois du mécanisme d'alignement orthogonal dans l'attention croisée, où la requête d'entrée X et la sortie X' tendent à être orthogonales
Établissement de la relation performance-orthogonalité: Démonstration par plus de 300 expériences d'une relation négative entre le degré d'orthogonalité et les performances de recommandation
Proposition d'une explication d'efficacité des paramètres: Preuve que l'émergence naturelle de l'alignement orthogonal est due à une stratégie d'échelle de modèle efficace en paramètres
Conception du module d'attention croisée contrôlée: Proposition du module GCA (Gated Cross-Attention) qui peut induire naturellement l'alignement orthogonal
Validation inter-modèles: Vérification de l'universalité des découvertes sur trois algorithmes de base CDSR et quatre combinaisons de jeux de données multi-domaines
La tâche de recommandation de séquences multi-domaines est définie comme suit: étant donné les séquences d'interaction de l'utilisateur dans les domaines A et B XA∈RB×lA×d et XB∈RB×lB×d, prédire le prochain élément d'interaction de l'utilisateur dans le domaine cible.
Contrôle Apprenable: Contrairement aux structures de contrôle fixes, le module de contrôle apprend des valeurs de contrôle vectorielles basées sur les séquences d'entrée concaténées
Propagation Sélective d'Informations: Les valeurs de contrôle régulent le degré d'intégration de la représentation d'attention croisée XA′ dans la représentation originale XA
Fonctions d'Activation Flexibles: Support des fonctions d'activation sigmoid ou tanh
L'alignement orthogonal fait référence à un mécanisme d'alignement de représentation où l'entrée de requête (X) et la sortie (X') de l'attention croisée tendent à être orthogonales, plutôt que de simplement renforcer les caractéristiques pré-alignées existantes de X.
Universalité de l'alignement orthogonal: Dans la recommandation multi-domaines, l'attention croisée produit naturellement le phénomène d'alignement orthogonal
Mécanisme d'amélioration des performances: Le degré d'orthogonalité présente une corrélation négative avec les performances de recommandation, offrant une nouvelle perspective d'optimisation des performances
Avantages d'efficacité des paramètres: L'alignement orthogonal réalise une mise à l'échelle efficace en paramètres en explorant les sous-espaces orthogonaux
Orientation de la Conception Architecturale: Le placement précoce de GCA est le plus efficace, l'empilement profond nécessite une application prudente
Portée des jeux de données: Les expériences sont principalement basées sur les données de recommandation Amazon, la généralisation nécessite une vérification supplémentaire
Applicabilité aux modèles vision-langage: En raison des caractéristiques d'apprentissage contrastif des encodeurs pré-entraînés, l'observation de l'alignement orthogonal dans les VLM peut être plus difficile
Explication du mécanisme: L'efficacité des paramètres peut ne pas être la seule explication de l'émergence de l'alignement orthogonal
Sélection des modèles de base: Les différents modèles de base utilisent différents sous-ensembles de données, ce qui peut affecter la comparaison des résultats
Contribution théorique majeure: Remet en question la compréhension traditionnelle de l'attention croisée comme alignement résiduel, proposant une nouvelle perspective d'alignement orthogonal
Conception expérimentale rigoureuse: Plus de 300 configurations expérimentales, plusieurs modèles de base, vérification de la significativité statistique
Explication mécanique approfondie: Non seulement découverte du phénomène, mais aussi fourniture d'une explication raisonnable de l'efficacité des paramètres
Valeur pratique élevée: Le module GCA est simple et efficace, facile à intégrer dans les architectures existantes
Rédaction claire: Définitions de concepts précises, présentation suffisante des résultats expérimentaux
Diversité des jeux de données: Principalement basé sur les données de recommandation d'e-commerce, l'applicabilité dans d'autres domaines n'a pas été suffisamment vérifiée
Surcharge de calcul: Analyse insuffisante de la complexité de calcul et de l'efficacité d'inférence du module GCA
Sensibilité aux hyperparamètres: Analyse insuffisante de la sensibilité aux choix de fonction de contrôle, nombre de têtes d'attention et autres hyperparamètres
Effets à long terme: Pas d'évaluation de la stabilité de l'alignement orthogonal dans les séquences longues ou le déploiement à grande échelle
Recommandation multi-domaines: Scénarios de recommandation multi-domaines dans le commerce électronique, les réseaux sociaux et les plateformes de contenu
Apprentissage multi-modal: Tâches d'apprentissage automatique nécessitant la fusion de sources de données hétérogènes
Optimisation de l'efficacité des paramètres: Besoins de mise à l'échelle de modèles dans les environnements aux ressources limitées
Recherche sur les mécanismes d'attention: Travaux de recherche approfondissant la compréhension de l'architecture transformer
L'article cite des travaux importants dans les domaines des systèmes de recommandation, de l'apprentissage multi-modal et des mécanismes d'attention, notamment:
Vaswani et al. (2017): Fondations de l'architecture Transformer
Radford et al. (2021): Méthode d'apprentissage contrastif CLIP
Alayrac et al. (2022): Modèle vision-langage Flamingo
Plusieurs travaux connexes CDSR: MiNet, RecGURU, DASL, MAN, etc.
Évaluation Globale: Cet article est une recherche de haute qualité, excellente tant dans ses contributions théoriques que dans sa valeur pratique. En découvrant et en analysant le phénomène d'alignement orthogonal, il fournit une nouvelle perspective de compréhension pour le domaine de l'apprentissage multi-modal, avec une valeur académique importante et des perspectives d'application prometteuses.