2025-11-24T08:31:18.188109

Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models

Lee, Zhang, Nguyen et al.
Cross-domain sequential recommendation (CDSR) aims to align heterogeneous user behavior sequences collected from different domains. While cross-attention is widely used to enhance alignment and improve recommendation performance, its underlying mechanism is not fully understood. Most researchers interpret cross-attention as residual alignment, where the output is generated by removing redundant and preserving non-redundant information from the query input by referencing another domain data which is input key and value. Beyond the prevailing view, we introduce Orthogonal Alignment, a phenomenon in which cross-attention discovers novel information that is not present in the query input, and further argue that those two contrasting alignment mechanisms can co-exist in recommendation models We find that when the query input and output of cross-attention are orthogonal, model performance improves over 300 experiments. Notably, Orthogonal Alignment emerges naturally, without any explicit orthogonality constraints. Our key insight is that Orthogonal Alignment emerges naturally because it improves scaling law. We show that baselines additionally incorporating cross-attention module outperform parameter-matched baselines, achieving a superior accuracy-per-model parameter. We hope these findings offer new directions for parameter-efficient scaling in multi-modal research.
academic

La Atención Cruzada Realiza Secretamente Alineación Ortogonal en Modelos de Recomendación

Información Básica

  • ID del Artículo: 2510.09435
  • Título: Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models
  • Autores: Hyunin Lee, Yong Zhang, Hoang Vu Nguyen, Xiaoyi Liu, Namyong Park, Christopher Jung, Rong Jin, Yang Wang, Zhigang Wang, Somayeh Sojoudi, Xue Feng
  • Instituciones: Meta, UC Berkeley
  • Clasificación: cs.LG cs.IR
  • Fecha de Publicación: 13 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.09435

Resumen

La recomendación de secuencias entre dominios (CDSR) tiene como objetivo alinear secuencias heterogéneas de comportamiento de usuarios procedentes de diferentes dominios. Aunque los mecanismos de atención cruzada se utilizan ampliamente para mejorar la alineación y el rendimiento de recomendación, sus mecanismos internos aún no se comprenden completamente. La mayoría de los investigadores interpretan la atención cruzada como alineación residual, es decir, eliminar información redundante y conservar información no redundante haciendo referencia a datos de otro dominio (como clave y valor). Este artículo va más allá de este punto de vista predominante e introduce el fenómeno de alineación ortogonal, donde la atención cruzada descubre información nueva que no existe en la entrada de consulta, argumentando que estos dos mecanismos de alineación contrastantes pueden coexistir en modelos de recomendación. A través de más de 300 experimentos, se descubre que el rendimiento del modelo mejora cuando la entrada y salida de la atención cruzada son ortogonales. Es notable que la alineación ortogonal aparece naturalmente sin ninguna restricción de ortogonalidad explícita. La perspectiva clave es que la alineación ortogonal surge naturalmente porque mejora las leyes de escalado, permitiendo que el modelo logre una mejor relación precisión-parámetro.

Antecedentes de Investigación y Motivación

Definición del Problema

El desafío central que enfrentan los sistemas de IA modernos es cómo fusionar efectivamente secuencias heterogéneas de comportamiento de usuarios procedentes de múltiples plataformas (como Facebook, Instagram, Amazon). Las trayectorias de interacción que los usuarios dejan en diferentes dominios son complementarias, pero la simple combinación de señales a menudo resulta en degradación del rendimiento debido al ruido, redundancia o conflicto de información entre dominios.

Motivación de la Investigación

  1. Comprensión Teórica Insuficiente: Aunque la atención cruzada se aplica ampliamente en recomendación de secuencias entre dominios, falta una comprensión profunda de sus mecanismos internos de funcionamiento
  2. Limitaciones del Punto de Vista Predominante: La investigación actual considera principalmente la atención cruzada como un mecanismo de alineación residual, es decir, suprimiendo ruido y redundancia para garantizar que solo se transmita información no redundante
  3. Necesidad de Eficiencia de Parámetros: Con el crecimiento del tamaño del modelo, se requieren estrategias de utilización de parámetros más eficientes

Limitaciones de Métodos Existentes

  • Los métodos tradicionales entienden la atención cruzada como un filtro de desruido y relevancia
  • La alineación residual estricta puede limitar el aprendizaje de componentes redundantes compartidos entre modalidades, ignorando información específica de modalidad única o sinérgica
  • Falta comprensión mecanicista de cómo la atención cruzada extrae información complementaria

Contribuciones Principales

  1. Descubrimiento del Fenómeno de Alineación Ortogonal: Identificación y definición por primera vez del mecanismo de alineación ortogonal en atención cruzada, donde la consulta de entrada X y la salida X' tienden a ser ortogonales
  2. Establecimiento de la Relación Rendimiento-Ortogonalidad: Demostración mediante 300+ experimentos de la relación negativa entre el grado de ortogonalidad y el rendimiento de recomendación
  3. Propuesta de Explicación de Eficiencia de Parámetros: Demostración de que la aparición natural de alineación ortogonal se debe a que proporciona una estrategia de escalado de modelo eficiente en parámetros
  4. Diseño del Módulo de Atención Cruzada Controlada: Propuesta del módulo GCA (Gated Cross-Attention), que puede inducir naturalmente alineación ortogonal
  5. Validación Entre Modelos: Verificación de la universalidad de los hallazgos en tres algoritmos de línea base CDSR y cuatro combinaciones de conjuntos de datos multidominio

Explicación Detallada del Método

Definición de la Tarea

La tarea de recomendación de secuencias entre dominios se define como: dadas las secuencias de interacción del usuario en el dominio A y dominio B, XARB×lA×dX_A \in \mathbb{R}^{B \times l_A \times d} y XBRB×lB×dX_B \in \mathbb{R}^{B \times l_B \times d}, predecir el siguiente elemento de interacción del usuario en el dominio objetivo.

Módulo de Atención Cruzada Controlada (GCA)

Arquitectura Principal

La expresión matemática del módulo GCA es:

GCA(X_A, X_B) = LayerNorm(X_A + FFN([X_A; X_B]) ⊙ X'_A)

Donde:

  • XA=CA(XA,XB)X'_A = CA(X_A, X_B) es la salida de atención cruzada
  • FFN([XA;XB])FFN([X_A; X_B]) es una red neuronal de retroalimentación que actúa sobre la representación concatenada, produciendo valores de control
  • denota el producto de Hadamard (multiplicación elemento a elemento)

Características de Diseño

  1. Control Aprendido: A diferencia de estructuras de control fijas, el módulo de control aprende valores de control vectorial basados en la secuencia de entrada concatenada
  2. Propagación Selectiva de Información: Los valores de control regulan el grado en que la representación de atención cruzada XAX'_A se fusiona con la representación original XAX_A
  3. Funciones de Activación Flexibles: Admite funciones de activación sigmoid o tanh

Mecanismo de Alineación Ortogonal

Definición del Fenómeno

La alineación ortogonal se refiere a un mecanismo de alineación de representaciones donde la consulta de entrada (X) y la salida (X') de la atención cruzada tienden a ser ortogonales, en lugar de simplemente reforzar características preexistentes alineadas de X.

Método de Medición

Se utiliza la similitud del coseno promediada por lote y posición para medir el grado de ortogonalidad:

|cos(X, X')| = (1/(B·l)) ∑_{b,i∈[B]×[l]} cos(X⃗_{bi}, X⃗'_{bi})

Hallazgos Clave

  • La alineación ortogonal surge naturalmente sin regularización de ortogonalidad explícita
  • Existe una relación negativa entre |cos(X, X')| y el rendimiento de recomendación
  • El grado de ortogonalidad se mantiene estable entre diferentes modelos (mediana ≈ 0.1-0.2)

Configuración Experimental

Conjuntos de Datos

Se utilizan conjuntos de datos públicos de Amazon Reviews, abarcando dominios de diferentes tipos de productos:

  • Cloth-Sport
  • Electronic-Phone
  • Beauty-Electronics
  • Food-Kitchen

Modelos de Línea Base

Se seleccionan tres algoritmos CDSR recientes:

  1. CDSRNP: Recomendación entre dominios basada en procesos neurales condicionales
  2. ABXI: Recomendación de secuencias entre dominios orientada a tareas
  3. LLM4CDSR: Recomendación entre dominios basada en modelos de lenguaje grande

Métricas de Evaluación

  • NDCG@1, NDCG@10: Calidad de clasificación
  • AUC: Capacidad discriminativa
  • HR@5, HR@10, HR@20: Tasa de aciertos

Configuración Experimental

  • Posición de inserción del módulo GCA: GCA0 (temprano), GCA1 (medio), etc.
  • Funciones de activación: sigmoid, tanh
  • Número de cabezas de atención: 4, 8
  • Cada configuración se ejecuta 5 veces con semillas aleatorias diferentes

Resultados Experimentales

Resultados Principales

Consistencia de Mejora de Rendimiento

En los tres modelos de línea base, el módulo GCA temprano (GCAearly) proporciona mejoras de rendimiento consistentes:

LLM4CDSR en conjunto de datos Cloth-Sport:

  • NDCG@1A: 0.716 → 0.728 (+1.2%)
  • NDCG@10A: 0.782 → 0.805 (+2.3%)
  • AUCA: +1.5%

ABXI en conjunto de datos Food-Kitchen:

  • NDCG@1A: 0.059 → 0.072 (+22%)
  • NDCG@10A: 0.154 → 0.176 (+14%)

Relación Alineación Ortogonal-Rendimiento

Hallazgo clave: |cos(X, X')| muestra una correlación negativa significativa con NDCG@10:

  • LLM4CDSR dominio B: r = -0.452
  • ABXI dominio A: r = -0.328, dominio B: r = -0.340
  • CDSRNP dominio B: r = -0.296

Verificación de Eficiencia de Parámetros

Comparación del modelo mejorado con GCA versus modelos de línea base con parámetros coincidentes:

  • En los 5 casos de prueba, línea base + GCAearly supera a la línea base con parámetros coincidentes
  • LLM4CDSR demuestra la eficiencia de parámetros más fuerte, atribuida a la limitación de dimensión fija de incrustaciones LLM preentrenadas

Análisis de Efectos de Apilamiento

El apilamiento vertical de múltiples módulos GCA no siempre produce mejoras monótonas:

  • CDSRNP: De 0,1 a apilamiento más profundo sin mejora adicional
  • ABXI: Colocación selectiva 1,2 es óptima
  • LLM4CDSR: Posición única 1 supera configuración apilada 0,1

Independencia de Ortogonalización

La ortogonalización inducida por GCA es independiente de la similitud entre X e Y:

  • |cos(X, X')| se mantiene estable entre modelos (rango 0.1-0.2)
  • |cos(X, Y)| varía según el conjunto de datos (0.020-0.397)
  • Demuestra que GCA induce intrínsecamente ortogonalización de grado controlado

Trabajo Relacionado

Alineación Multimodal

  • Métodos de Aprendizaje Contrastivo: CLIP, ALIGN y otros logran alineación imagen-texto mediante objetivos contrastivos
  • Mecanismos de Atención Cruzada: Actúan como desruido y filtros de relevancia en modelos de difusión texto-imagen
  • Problema de Brecha Modal: Fenómeno donde incrustaciones de imagen y texto ocupan regiones disjuntas

Recomendación de Secuencias Entre Dominios

  • Métodos Tempranos: Red de Interés Mixto MiNet, RecGURU aprendizaje adversarial
  • Arquitectura Transformer: DASL atención dual, MAN red de atención mixta
  • Métodos de Metaaprendizaje: CDSRNP procesos neurales, Tri-CDR aprendizaje de secuencia triple
  • Integración LLM: LLM4CDSR, ABXI y avances recientes

Conclusiones y Discusión

Conclusiones Principales

  1. Universalidad de Alineación Ortogonal: En recomendación entre dominios, la atención cruzada produce naturalmente el fenómeno de alineación ortogonal
  2. Mecanismo de Mejora de Rendimiento: El grado de ortogonalidad se correlaciona negativamente con el rendimiento de recomendación, proporcionando una nueva perspectiva de optimización de rendimiento
  3. Ventaja de Eficiencia de Parámetros: La alineación ortogonal logra escalado eficiente en parámetros explorando subespacios ortogonales
  4. Orientación de Diseño de Arquitectura: Colocación temprana de GCA es más efectiva, apilamiento profundo requiere aplicación cautelosa

Limitaciones

  1. Rango de Conjuntos de Datos: Los experimentos se basan principalmente en datos de recomendación de Amazon, la generalización requiere verificación adicional
  2. Aplicabilidad en Modelos Visión-Lenguaje: Debido a características de aprendizaje contrastivo de codificadores preentrenados, observar alineación ortogonal en VLM puede ser más desafiante
  3. Explicación de Mecanismo: La eficiencia de parámetros puede no ser la única explicación para la aparición de alineación ortogonal
  4. Selección de Línea Base: Diferentes líneas base utilizan diferentes subconjuntos de datos, lo que puede afectar la comparación de resultados

Direcciones Futuras

  1. Exploración de Arquitectura: Desarrollar mecanismos de alineación ortogonal más efectivos más allá de GCA
  2. Análisis Teórico: Comprensión profunda de los principios matemáticos y propiedades de convergencia de alineación ortogonal
  3. Validación Entre Dominios: Verificar hallazgos en otras tareas multimodales como modelos visión-lenguaje
  4. Desarrollo de Métricas: Diseñar métodos de medición de alineación ortogonal más refinados

Evaluación Profunda

Fortalezas

  1. Contribución Teórica Significativa: Desafía la comprensión tradicional de atención cruzada como alineación residual, proponiendo una nueva perspectiva de alineación ortogonal
  2. Diseño Experimental Riguroso: 300+ configuraciones experimentales, múltiples modelos de línea base, verificación de significancia estadística
  3. Explicación de Mecanismo Profunda: No solo descubre fenómenos, sino que proporciona explicación razonable de eficiencia de parámetros
  4. Alto Valor Práctico: Módulo GCA simple y efectivo, fácil de integrar en arquitecturas existentes
  5. Escritura Clara: Definiciones de conceptos precisas, presentación suficiente de resultados experimentales

Deficiencias

  1. Diversidad de Conjuntos de Datos: Basado principalmente en datos de recomendación de comercio electrónico, aplicabilidad en otros campos no suficientemente verificada
  2. Fundamento Teórico: Falta análisis teórico matemático riguroso del fenómeno de alineación ortogonal
  3. Costo Computacional: Análisis insuficiente de complejidad computacional y eficiencia de inferencia del módulo GCA
  4. Sensibilidad de Hiperparámetros: Análisis insuficiente de sensibilidad a selección de función de control, número de cabezas de atención y otros hiperparámetros
  5. Efectos a Largo Plazo: No se evalúa la estabilidad de alineación ortogonal en secuencias largas o despliegue a gran escala

Impacto

  1. Valor Académico: Proporciona nueva perspectiva teórica para aprendizaje multimodal y sistemas de recomendación
  2. Orientación Práctica: Proporciona esquema de mejora de arquitectura específico para diseño de sistemas de recomendación entre dominios
  3. Contribución Metodológica: El método de medición de grado de alineación ortogonal puede aplicarse a otros análisis de tareas multimodales
  4. Inspiración de Investigación: Abre nueva dirección de investigación para comprender mecanismos de atención desde perspectiva de ortogonalidad

Escenarios Aplicables

  1. Recomendación Entre Dominios: Escenarios de recomendación multidominio en comercio electrónico, redes sociales, plataformas de contenido
  2. Aprendizaje Multimodal: Tareas de aprendizaje automático que requieren fusión de fuentes de datos heterogéneas
  3. Optimización de Eficiencia de Parámetros: Necesidades de escalado de modelo en entornos con recursos limitados
  4. Investigación de Mecanismos de Atención: Trabajo de investigación para comprensión profunda de arquitectura transformer

Referencias

El artículo cita trabajos importantes en sistemas de recomendación, aprendizaje multimodal y mecanismos de atención, incluyendo:

  • Vaswani et al. (2017): Fundamentos de arquitectura Transformer
  • Radford et al. (2021): Método de aprendizaje contrastivo CLIP
  • Alayrac et al. (2022): Modelo visión-lenguaje Flamingo
  • Múltiples trabajos relacionados con CDSR: MiNet, RecGURU, DASL, MAN, etc.

Evaluación General: Este es un artículo de investigación de alta calidad que demuestra excelencia tanto en contribución teórica como en valor práctico. Al descubrir y analizar el fenómeno de alineación ortogonal, proporciona una nueva perspectiva de comprensión para el campo del aprendizaje multimodal, con importante valor académico y perspectivas de aplicación.