2025-11-24T08:31:18.188109

Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models

Lee, Zhang, Nguyen et al.

Cross-domain sequential recommendation (CDSR) aims to align heterogeneous user behavior sequences collected from different domains. While cross-attention is widely used to enhance alignment and improve recommendation performance, its underlying mechanism is not fully understood. Most researchers interpret cross-attention as residual alignment, where the output is generated by removing redundant and preserving non-redundant information from the query input by referencing another domain data which is input key and value. Beyond the prevailing view, we introduce Orthogonal Alignment, a phenomenon in which cross-attention discovers novel information that is not present in the query input, and further argue that those two contrasting alignment mechanisms can co-exist in recommendation models We find that when the query input and output of cross-attention are orthogonal, model performance improves over 300 experiments. Notably, Orthogonal Alignment emerges naturally, without any explicit orthogonality constraints. Our key insight is that Orthogonal Alignment emerges naturally because it improves scaling law. We show that baselines additionally incorporating cross-attention module outperform parameter-matched baselines, achieving a superior accuracy-per-model parameter. We hope these findings offer new directions for parameter-efficient scaling in multi-modal research.

academic

La Atención Cruzada Realiza Secretamente Alineación Ortogonal en Modelos de Recomendación

Información Básica

ID del Artículo: 2510.09435
Título: Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models
Autores: Hyunin Lee, Yong Zhang, Hoang Vu Nguyen, Xiaoyi Liu, Namyong Park, Christopher Jung, Rong Jin, Yang Wang, Zhigang Wang, Somayeh Sojoudi, Xue Feng
Instituciones: Meta, UC Berkeley
Clasificación: cs.LG cs.IR
Fecha de Publicación: 13 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.09435

Resumen

La recomendación de secuencias entre dominios (CDSR) tiene como objetivo alinear secuencias heterogéneas de comportamiento de usuarios procedentes de diferentes dominios. Aunque los mecanismos de atención cruzada se utilizan ampliamente para mejorar la alineación y el rendimiento de recomendación, sus mecanismos internos aún no se comprenden completamente. La mayoría de los investigadores interpretan la atención cruzada como alineación residual, es decir, eliminar información redundante y conservar información no redundante haciendo referencia a datos de otro dominio (como clave y valor). Este artículo va más allá de este punto de vista predominante e introduce el fenómeno de alineación ortogonal, donde la atención cruzada descubre información nueva que no existe en la entrada de consulta, argumentando que estos dos mecanismos de alineación contrastantes pueden coexistir en modelos de recomendación. A través de más de 300 experimentos, se descubre que el rendimiento del modelo mejora cuando la entrada y salida de la atención cruzada son ortogonales. Es notable que la alineación ortogonal aparece naturalmente sin ninguna restricción de ortogonalidad explícita. La perspectiva clave es que la alineación ortogonal surge naturalmente porque mejora las leyes de escalado, permitiendo que el modelo logre una mejor relación precisión-parámetro.

Antecedentes de Investigación y Motivación

Definición del Problema

El desafío central que enfrentan los sistemas de IA modernos es cómo fusionar efectivamente secuencias heterogéneas de comportamiento de usuarios procedentes de múltiples plataformas (como Facebook, Instagram, Amazon). Las trayectorias de interacción que los usuarios dejan en diferentes dominios son complementarias, pero la simple combinación de señales a menudo resulta en degradación del rendimiento debido al ruido, redundancia o conflicto de información entre dominios.

Motivación de la Investigación

Comprensión Teórica Insuficiente: Aunque la atención cruzada se aplica ampliamente en recomendación de secuencias entre dominios, falta una comprensión profunda de sus mecanismos internos de funcionamiento
Limitaciones del Punto de Vista Predominante: La investigación actual considera principalmente la atención cruzada como un mecanismo de alineación residual, es decir, suprimiendo ruido y redundancia para garantizar que solo se transmita información no redundante
Necesidad de Eficiencia de Parámetros: Con el crecimiento del tamaño del modelo, se requieren estrategias de utilización de parámetros más eficientes

Limitaciones de Métodos Existentes

Los métodos tradicionales entienden la atención cruzada como un filtro de desruido y relevancia
La alineación residual estricta puede limitar el aprendizaje de componentes redundantes compartidos entre modalidades, ignorando información específica de modalidad única o sinérgica
Falta comprensión mecanicista de cómo la atención cruzada extrae información complementaria

Contribuciones Principales

Descubrimiento del Fenómeno de Alineación Ortogonal: Identificación y definición por primera vez del mecanismo de alineación ortogonal en atención cruzada, donde la consulta de entrada X y la salida X' tienden a ser ortogonales
Establecimiento de la Relación Rendimiento-Ortogonalidad: Demostración mediante 300+ experimentos de la relación negativa entre el grado de ortogonalidad y el rendimiento de recomendación
Propuesta de Explicación de Eficiencia de Parámetros: Demostración de que la aparición natural de alineación ortogonal se debe a que proporciona una estrategia de escalado de modelo eficiente en parámetros
Diseño del Módulo de Atención Cruzada Controlada: Propuesta del módulo GCA (Gated Cross-Attention), que puede inducir naturalmente alineación ortogonal
Validación Entre Modelos: Verificación de la universalidad de los hallazgos en tres algoritmos de línea base CDSR y cuatro combinaciones de conjuntos de datos multidominio

Explicación Detallada del Método

Definición de la Tarea

La tarea de recomendación de secuencias entre dominios se define como: dadas las secuencias de interacción del usuario en el dominio A y dominio B, $X_A \in \mathbb{R}^{B \times l_A \times d}$ y $X_B \in \mathbb{R}^{B \times l_B \times d}$ , predecir el siguiente elemento de interacción del usuario en el dominio objetivo.

Módulo de Atención Cruzada Controlada (GCA)

Arquitectura Principal

La expresión matemática del módulo GCA es:

GCA(X_A, X_B) = LayerNorm(X_A + FFN([X_A; X_B]) ⊙ X'_A)

Donde:

$X'_A = CA(X_A, X_B)$ es la salida de atención cruzada
$FFN([X_A; X_B])$ es una red neuronal de retroalimentación que actúa sobre la representación concatenada, produciendo valores de control
$⊙$ denota el producto de Hadamard (multiplicación elemento a elemento)

Características de Diseño

Control Aprendido: A diferencia de estructuras de control fijas, el módulo de control aprende valores de control vectorial basados en la secuencia de entrada concatenada
Propagación Selectiva de Información: Los valores de control regulan el grado en que la representación de atención cruzada $X'_A$ se fusiona con la representación original $X_A$
Funciones de Activación Flexibles: Admite funciones de activación sigmoid o tanh

Mecanismo de Alineación Ortogonal

Definición del Fenómeno

La alineación ortogonal se refiere a un mecanismo de alineación de representaciones donde la consulta de entrada (X) y la salida (X') de la atención cruzada tienden a ser ortogonales, en lugar de simplemente reforzar características preexistentes alineadas de X.

Método de Medición

Se utiliza la similitud del coseno promediada por lote y posición para medir el grado de ortogonalidad:

|cos(X, X')| = (1/(B·l)) ∑_{b,i∈[B]×[l]} cos(X⃗_{bi}, X⃗'_{bi})

Hallazgos Clave

La alineación ortogonal surge naturalmente sin regularización de ortogonalidad explícita
Existe una relación negativa entre |cos(X, X')| y el rendimiento de recomendación
El grado de ortogonalidad se mantiene estable entre diferentes modelos (mediana ≈ 0.1-0.2)

Configuración Experimental

Conjuntos de Datos

Se utilizan conjuntos de datos públicos de Amazon Reviews, abarcando dominios de diferentes tipos de productos:

Cloth-Sport
Electronic-Phone
Beauty-Electronics
Food-Kitchen

Modelos de Línea Base

Se seleccionan tres algoritmos CDSR recientes:

CDSRNP: Recomendación entre dominios basada en procesos neurales condicionales
ABXI: Recomendación de secuencias entre dominios orientada a tareas
LLM4CDSR: Recomendación entre dominios basada en modelos de lenguaje grande

Métricas de Evaluación

NDCG@1, NDCG@10: Calidad de clasificación
AUC: Capacidad discriminativa
HR@5, HR@10, HR@20: Tasa de aciertos

Configuración Experimental

Posición de inserción del módulo GCA: GCA0 (temprano), GCA1 (medio), etc.
Funciones de activación: sigmoid, tanh
Número de cabezas de atención: 4, 8
Cada configuración se ejecuta 5 veces con semillas aleatorias diferentes

Resultados Experimentales

Resultados Principales

Consistencia de Mejora de Rendimiento

En los tres modelos de línea base, el módulo GCA temprano (GCAearly) proporciona mejoras de rendimiento consistentes:

LLM4CDSR en conjunto de datos Cloth-Sport:

NDCG@1A: 0.716 → 0.728 (+1.2%)
NDCG@10A: 0.782 → 0.805 (+2.3%)
AUCA: +1.5%

ABXI en conjunto de datos Food-Kitchen:

NDCG@1A: 0.059 → 0.072 (+22%)
NDCG@10A: 0.154 → 0.176 (+14%)

Relación Alineación Ortogonal-Rendimiento

Hallazgo clave: |cos(X, X')| muestra una correlación negativa significativa con NDCG@10:

LLM4CDSR dominio B: r = -0.452
ABXI dominio A: r = -0.328, dominio B: r = -0.340
CDSRNP dominio B: r = -0.296

Verificación de Eficiencia de Parámetros

Comparación del modelo mejorado con GCA versus modelos de línea base con parámetros coincidentes:

En los 5 casos de prueba, línea base + GCAearly supera a la línea base con parámetros coincidentes
LLM4CDSR demuestra la eficiencia de parámetros más fuerte, atribuida a la limitación de dimensión fija de incrustaciones LLM preentrenadas

Análisis de Efectos de Apilamiento

El apilamiento vertical de múltiples módulos GCA no siempre produce mejoras monótonas:

CDSRNP: De 0,1 a apilamiento más profundo sin mejora adicional
ABXI: Colocación selectiva 1,2 es óptima
LLM4CDSR: Posición única 1 supera configuración apilada 0,1

Independencia de Ortogonalización

La ortogonalización inducida por GCA es independiente de la similitud entre X e Y:

|cos(X, X')| se mantiene estable entre modelos (rango 0.1-0.2)
|cos(X, Y)| varía según el conjunto de datos (0.020-0.397)
Demuestra que GCA induce intrínsecamente ortogonalización de grado controlado

Trabajo Relacionado

Alineación Multimodal

Métodos de Aprendizaje Contrastivo: CLIP, ALIGN y otros logran alineación imagen-texto mediante objetivos contrastivos
Mecanismos de Atención Cruzada: Actúan como desruido y filtros de relevancia en modelos de difusión texto-imagen
Problema de Brecha Modal: Fenómeno donde incrustaciones de imagen y texto ocupan regiones disjuntas

Recomendación de Secuencias Entre Dominios

Métodos Tempranos: Red de Interés Mixto MiNet, RecGURU aprendizaje adversarial
Arquitectura Transformer: DASL atención dual, MAN red de atención mixta
Métodos de Metaaprendizaje: CDSRNP procesos neurales, Tri-CDR aprendizaje de secuencia triple
Integración LLM: LLM4CDSR, ABXI y avances recientes

Conclusiones y Discusión

Conclusiones Principales

Universalidad de Alineación Ortogonal: En recomendación entre dominios, la atención cruzada produce naturalmente el fenómeno de alineación ortogonal
Mecanismo de Mejora de Rendimiento: El grado de ortogonalidad se correlaciona negativamente con el rendimiento de recomendación, proporcionando una nueva perspectiva de optimización de rendimiento
Ventaja de Eficiencia de Parámetros: La alineación ortogonal logra escalado eficiente en parámetros explorando subespacios ortogonales
Orientación de Diseño de Arquitectura: Colocación temprana de GCA es más efectiva, apilamiento profundo requiere aplicación cautelosa

Limitaciones

Rango de Conjuntos de Datos: Los experimentos se basan principalmente en datos de recomendación de Amazon, la generalización requiere verificación adicional
Aplicabilidad en Modelos Visión-Lenguaje: Debido a características de aprendizaje contrastivo de codificadores preentrenados, observar alineación ortogonal en VLM puede ser más desafiante
Explicación de Mecanismo: La eficiencia de parámetros puede no ser la única explicación para la aparición de alineación ortogonal
Selección de Línea Base: Diferentes líneas base utilizan diferentes subconjuntos de datos, lo que puede afectar la comparación de resultados

Direcciones Futuras

Exploración de Arquitectura: Desarrollar mecanismos de alineación ortogonal más efectivos más allá de GCA
Análisis Teórico: Comprensión profunda de los principios matemáticos y propiedades de convergencia de alineación ortogonal
Validación Entre Dominios: Verificar hallazgos en otras tareas multimodales como modelos visión-lenguaje
Desarrollo de Métricas: Diseñar métodos de medición de alineación ortogonal más refinados

Evaluación Profunda

Fortalezas

Contribución Teórica Significativa: Desafía la comprensión tradicional de atención cruzada como alineación residual, proponiendo una nueva perspectiva de alineación ortogonal
Diseño Experimental Riguroso: 300+ configuraciones experimentales, múltiples modelos de línea base, verificación de significancia estadística
Explicación de Mecanismo Profunda: No solo descubre fenómenos, sino que proporciona explicación razonable de eficiencia de parámetros
Alto Valor Práctico: Módulo GCA simple y efectivo, fácil de integrar en arquitecturas existentes
Escritura Clara: Definiciones de conceptos precisas, presentación suficiente de resultados experimentales

Deficiencias

Diversidad de Conjuntos de Datos: Basado principalmente en datos de recomendación de comercio electrónico, aplicabilidad en otros campos no suficientemente verificada
Fundamento Teórico: Falta análisis teórico matemático riguroso del fenómeno de alineación ortogonal
Costo Computacional: Análisis insuficiente de complejidad computacional y eficiencia de inferencia del módulo GCA
Sensibilidad de Hiperparámetros: Análisis insuficiente de sensibilidad a selección de función de control, número de cabezas de atención y otros hiperparámetros
Efectos a Largo Plazo: No se evalúa la estabilidad de alineación ortogonal en secuencias largas o despliegue a gran escala

Impacto

Valor Académico: Proporciona nueva perspectiva teórica para aprendizaje multimodal y sistemas de recomendación
Orientación Práctica: Proporciona esquema de mejora de arquitectura específico para diseño de sistemas de recomendación entre dominios
Contribución Metodológica: El método de medición de grado de alineación ortogonal puede aplicarse a otros análisis de tareas multimodales
Inspiración de Investigación: Abre nueva dirección de investigación para comprender mecanismos de atención desde perspectiva de ortogonalidad

Escenarios Aplicables

Recomendación Entre Dominios: Escenarios de recomendación multidominio en comercio electrónico, redes sociales, plataformas de contenido
Aprendizaje Multimodal: Tareas de aprendizaje automático que requieren fusión de fuentes de datos heterogéneas
Optimización de Eficiencia de Parámetros: Necesidades de escalado de modelo en entornos con recursos limitados
Investigación de Mecanismos de Atención: Trabajo de investigación para comprensión profunda de arquitectura transformer

Referencias

El artículo cita trabajos importantes en sistemas de recomendación, aprendizaje multimodal y mecanismos de atención, incluyendo:

Vaswani et al. (2017): Fundamentos de arquitectura Transformer
Radford et al. (2021): Método de aprendizaje contrastivo CLIP
Alayrac et al. (2022): Modelo visión-lenguaje Flamingo
Múltiples trabajos relacionados con CDSR: MiNet, RecGURU, DASL, MAN, etc.

Evaluación General: Este es un artículo de investigación de alta calidad que demuestra excelencia tanto en contribución teórica como en valor práctico. Al descubrir y analizar el fenómeno de alineación ortogonal, proporciona una nueva perspectiva de comprensión para el campo del aprendizaje multimodal, con importante valor académico y perspectivas de aplicación.