2025-11-24T08:31:18.188109

Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models

Lee, Zhang, Nguyen et al.

Cross-domain sequential recommendation (CDSR) aims to align heterogeneous user behavior sequences collected from different domains. While cross-attention is widely used to enhance alignment and improve recommendation performance, its underlying mechanism is not fully understood. Most researchers interpret cross-attention as residual alignment, where the output is generated by removing redundant and preserving non-redundant information from the query input by referencing another domain data which is input key and value. Beyond the prevailing view, we introduce Orthogonal Alignment, a phenomenon in which cross-attention discovers novel information that is not present in the query input, and further argue that those two contrasting alignment mechanisms can co-exist in recommendation models We find that when the query input and output of cross-attention are orthogonal, model performance improves over 300 experiments. Notably, Orthogonal Alignment emerges naturally, without any explicit orthogonality constraints. Our key insight is that Orthogonal Alignment emerges naturally because it improves scaling law. We show that baselines additionally incorporating cross-attention module outperform parameter-matched baselines, achieving a superior accuracy-per-model parameter. We hope these findings offer new directions for parameter-efficient scaling in multi-modal research.

academic

L'Attenzione Incrociata Esegue Segretamente l'Allineamento Ortogonale nei Modelli di Raccomandazione

Informazioni Fondamentali

ID Articolo: 2510.09435
Titolo: Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models
Autori: Hyunin Lee, Yong Zhang, Hoang Vu Nguyen, Xiaoyi Liu, Namyong Park, Christopher Jung, Rong Jin, Yang Wang, Zhigang Wang, Somayeh Sojoudi, Xue Feng
Istituzioni: Meta, UC Berkeley
Classificazione: cs.LG cs.IR
Data di Pubblicazione: 13 Ottobre 2025
Link Articolo: https://arxiv.org/abs/2510.09435

Riassunto

La raccomandazione di sequenze cross-dominio (CDSR) mira ad allineare sequenze di comportamento utente eterogenee provenienti da domini diversi. Sebbene i meccanismi di attenzione incrociata siano ampiamente utilizzati per migliorare l'allineamento e le prestazioni di raccomandazione, i loro meccanismi intrinseci non sono ancora completamente compresi. La maggior parte dei ricercatori interpreta l'attenzione incrociata come allineamento residuale, ovvero la rimozione di informazioni ridondanti e la conservazione di informazioni non ridondanti facendo riferimento ai dati di un altro dominio (come chiave e valore). Questo articolo va oltre questo punto di vista mainstream, introducendo il fenomeno dell'allineamento ortogonale, in cui l'attenzione incrociata scopre nuove informazioni non presenti nell'input della query, e sostiene che questi due meccanismi di allineamento contrastanti possono coesistere nei modelli di raccomandazione. Attraverso oltre 300 esperimenti, scopriamo che le prestazioni del modello migliorano quando l'input della query dell'attenzione incrociata è ortogonale all'output. In particolare, l'allineamento ortogonale emerge naturalmente senza alcun vincolo di ortogonalità esplicito. L'intuizione chiave è che l'allineamento ortogonale emerge naturalmente perché migliora le leggi di scala, consentendo al modello di raggiungere un rapporto accuratezza-parametri superiore.

Contesto di Ricerca e Motivazione

Definizione del Problema

La sfida centrale affrontata dai moderni sistemi di IA è come fondere efficacemente sequenze di comportamento utente eterogenee provenienti da più piattaforme (come Facebook, Instagram, Amazon). Le tracce di interazione che gli utenti lasciano in domini diversi sono complementari, ma la semplice combinazione di segnali spesso porta a prestazioni peggiori a causa del rumore, della ridondanza o dei conflitti tra le informazioni dei domini.

Motivazione della Ricerca

Comprensione Teorica Insufficiente: Nonostante l'ampia applicazione dell'attenzione incrociata nella raccomandazione di sequenze cross-dominio, manca una comprensione approfondita dei suoi meccanismi di funzionamento intrinseci
Limitazioni del Punto di Vista Mainstream: La ricerca attuale considera principalmente l'attenzione incrociata come un meccanismo di allineamento residuale, ovvero la soppressione del rumore e della ridondanza per garantire che vengano trasmesse solo informazioni non ridondanti
Necessità di Efficienza Parametrica: Con la crescita delle dimensioni del modello, sono necessarie strategie di utilizzo dei parametri più efficienti

Limitazioni dei Metodi Esistenti

I metodi tradizionali comprendono l'attenzione incrociata come filtro di denoising e rilevanza
L'allineamento residuale rigoroso potrebbe limitare l'apprendimento di componenti ridondanti condivise tra modalità, trascurando informazioni specifiche della modalità uniche o sinergiche
Manca una comprensione meccanicistica di come l'attenzione incrociata estrae informazioni complementari

Contributi Principali

Scoperta del Fenomeno di Allineamento Ortogonale: Prima identificazione e definizione del meccanismo di allineamento ortogonale nell'attenzione incrociata, in cui l'input della query X e l'output X' tendono ad essere ortogonali
Stabilimento della Relazione Prestazioni-Ortogonalità: Dimostrazione attraverso 300+ esperimenti della relazione negativa tra il grado di ortogonalità e le prestazioni di raccomandazione
Proposta di Spiegazione dell'Efficienza Parametrica: Dimostrazione che l'emergenza naturale dell'allineamento ortogonale è dovuta al fatto che fornisce una strategia di scala del modello parametricamente efficiente
Progettazione del Modulo di Attenzione Incrociata Gated: Proposta del modulo GCA (Gated Cross-Attention), che può indurre naturalmente l'allineamento ortogonale
Validazione Cross-Modello: Verifica della generalità delle scoperte su tre algoritmi di base CDSR e quattro combinazioni di dataset multi-dominio

Spiegazione Dettagliata del Metodo

Definizione del Compito

Il compito di raccomandazione di sequenze cross-dominio è definito come: data una sequenza di interazione dell'utente nei domini A e B rispettivamente $X_A \in \mathbb{R}^{B \times l_A \times d}$ e $X_B \in \mathbb{R}^{B \times l_B \times d}$ , prevedere il prossimo elemento di interazione dell'utente nel dominio target.

Modulo di Attenzione Incrociata Gated (GCA)

Architettura Principale

L'espressione matematica del modulo GCA è:

GCA(X_A, X_B) = LayerNorm(X_A + FFN([X_A; X_B]) ⊙ X'_A)

Dove:

$X'_A = CA(X_A, X_B)$ è l'output dell'attenzione incrociata
$FFN([X_A; X_B])$ è una rete feed-forward che agisce sulla rappresentazione concatenata, producendo valori di gating
$⊙$ rappresenta il prodotto di Hadamard (moltiplicazione elemento per elemento)

Caratteristiche di Progettazione

Gating Appreso: A differenza delle strutture di gating fisse, il modulo di gating apprende valori di gating vettoriali in base alla sequenza di input concatenata
Propagazione Selettiva dell'Informazione: I valori di gating controllano il grado in cui la rappresentazione dell'attenzione incrociata $X'_A$ si fonde con la rappresentazione originale $X_A$
Funzioni di Attivazione Flessibili: Supporta funzioni di attivazione sigmoid o tanh

Meccanismo di Allineamento Ortogonale

Definizione del Fenomeno

L'allineamento ortogonale si riferisce a un meccanismo di allineamento della rappresentazione in cui l'input della query (X) e l'output (X') dell'attenzione incrociata tendono ad essere ortogonali, piuttosto che semplicemente rafforzare le caratteristiche pre-allineate esistenti di X.

Metodo di Misurazione

Utilizziamo la similarità del coseno mediata su batch e posizioni per misurare il grado di ortogonalità:

|cos(X, X')| = (1/(B·l)) ∑_{b,i∈[B]×[l]} cos(X⃗_{bi}, X⃗'_{bi})

Scoperte Chiave

L'allineamento ortogonale emerge naturalmente senza regolarizzazione di ortogonalità esplicita
|cos(X, X')| mostra una relazione negativa con le prestazioni di raccomandazione
Il grado di ortogonalità rimane stabile tra modelli diversi (mediana ≈ 0,1-0,2)

Configurazione Sperimentale

Dataset

Utilizziamo il dataset pubblico Amazon Reviews, che copre domini di diversi tipi di prodotto:

Cloth-Sport
Electronic-Phone
Beauty-Electronics
Food-Kitchen

Modelli di Base

Selezioniamo tre algoritmi CDSR recenti:

CDSRNP: Raccomandazione cross-dominio basata su processi neurali condizionali
ABXI: Raccomandazione di sequenze cross-dominio orientata ai compiti
LLM4CDSR: Raccomandazione cross-dominio basata su modelli di linguaggio di grandi dimensioni

Metriche di Valutazione

NDCG@1, NDCG@10: Qualità del ranking
AUC: Capacità discriminativa
HR@5, HR@10, HR@20: Tasso di hit

Configurazione Sperimentale

Posizione di inserimento del modulo GCA: GCA0 (inizio), GCA1 (metà), ecc.
Funzioni di attivazione: sigmoid, tanh
Numero di teste di attenzione: 4, 8
Ogni configurazione eseguita 5 volte con semi casuali diversi

Risultati Sperimentali

Risultati Principali

Coerenza del Miglioramento delle Prestazioni

Su tutti e tre i modelli di base, il modulo GCA iniziale (GCAearly) ha portato miglioramenti coerenti delle prestazioni:

LLM4CDSR sul dataset Cloth-Sport:

NDCG@1A: 0,716 → 0,728 (+1,2%)
NDCG@10A: 0,782 → 0,805 (+2,3%)
AUCA: +1,5%

ABXI sul dataset Food-Kitchen:

NDCG@1A: 0,059 → 0,072 (+22%)
NDCG@10A: 0,154 → 0,176 (+14%)

Relazione Allineamento Ortogonale-Prestazioni

Scoperta chiave: |cos(X, X')| mostra una correlazione negativa significativa con NDCG@10:

LLM4CDSR dominio B: r = -0,452
ABXI dominio A: r = -0,328, dominio B: r = -0,340
CDSRNP dominio B: r = -0,296

Verifica dell'Efficienza Parametrica

Confronto tra modelli potenziati con GCA e modelli di base con parametri corrispondenti:

In tutti e 5 i casi di test, baseline+GCAearly supera il baseline con parametri corrispondenti
LLM4CDSR mostra la massima efficienza parametrica, attribuita al vincolo di dimensione fissa degli embedding LLM pre-addestrati

Analisi dell'Effetto di Stacking

L'impilamento verticale di più moduli GCA non sempre porta a miglioramenti monotoni:

CDSRNP: Da 0,1 a stacking più profondo senza ulteriori guadagni
ABXI: Posizionamento selettivo 1,2 è ottimale
LLM4CDSR: Singolo 1 superiore alla configurazione impilata 0,1

Indipendenza dell'Ortogonalizzazione

L'ortogonalizzazione indotta da GCA è indipendente dalla similarità di X e Y:

|cos(X, X')| rimane stabile tra modelli diversi (intervallo 0,1-0,2)
|cos(X, Y)| varia a seconda del dataset (0,020-0,397)
Dimostra che GCA induce intrinsecamente un grado controllato di ortogonalizzazione

Lavori Correlati

Allineamento Multimodale

Metodi di Apprendimento Contrastivo: CLIP, ALIGN e altri raggiungono l'allineamento immagine-testo attraverso obiettivi contrastivi
Meccanismi di Attenzione Incrociata: Utilizzati nei modelli di diffusione da testo a immagine come filtri di denoising e rilevanza
Problema del Gap Modale: Fenomeno in cui gli embedding di immagini e testo occupano regioni disgiunte

Raccomandazione di Sequenze Cross-Dominio

Metodi Iniziali: MiNet rete di interessi misti, RecGURU apprendimento avversariale
Architetture Transformer: DASL doppia attenzione, MAN rete di attenzione mista
Metodi di Meta-Learning: CDSRNP processi neurali, Tri-CDR apprendimento di sequenze triple
Integrazione LLM: LLM4CDSR, ABXI e altri progressi recenti

Conclusioni e Discussione

Conclusioni Principali

Universalità dell'Allineamento Ortogonale: Nella raccomandazione cross-dominio, l'attenzione incrociata produce naturalmente il fenomeno dell'allineamento ortogonale
Meccanismo di Miglioramento delle Prestazioni: Il grado di ortogonalità è correlato negativamente con le prestazioni di raccomandazione, fornendo una nuova prospettiva per l'ottimizzazione delle prestazioni
Vantaggi dell'Efficienza Parametrica: L'allineamento ortogonale raggiunge la scala parametricamente efficiente esplorando sottospazi ortogonali
Guida alla Progettazione dell'Architettura: Il posizionamento iniziale di GCA è più efficace, lo stacking profondo richiede applicazione cauta

Limitazioni

Portata del Dataset: Gli esperimenti si basano principalmente su dati di raccomandazione Amazon, la generalizzabilità richiede ulteriore verifica
Applicabilità ai Modelli Visione-Linguaggio: A causa della natura dell'apprendimento contrastivo degli encoder pre-addestrati, osservare l'allineamento ortogonale nei VLM potrebbe essere più impegnativo
Spiegazione del Meccanismo: L'efficienza parametrica potrebbe non essere l'unica spiegazione per l'emergenza dell'allineamento ortogonale
Scelta dei Baseline: Diversi baseline utilizzano diversi sottoinsiemi di dati, il che potrebbe influire sul confronto dei risultati

Direzioni Future

Esplorazione dell'Architettura: Sviluppare meccanismi di allineamento ortogonale più efficaci oltre GCA
Analisi Teorica: Comprendere più profondamente i principi matematici e le proprietà di convergenza dell'allineamento ortogonale
Validazione Cross-Dominio: Verificare le scoperte in altri compiti multimodali come modelli visione-linguaggio
Sviluppo di Metriche: Progettare metodi di misurazione dell'allineamento ortogonale più raffinati

Valutazione Approfondita

Punti di Forza

Contributo Teorico Significativo: Sfida la comprensione tradizionale dell'attenzione incrociata come allineamento residuale, proponendo una nuova prospettiva di allineamento ortogonale
Progettazione Sperimentale Rigorosa: 300+ configurazioni sperimentali, molteplici modelli di base, verifica della significatività statistica
Spiegazione del Meccanismo Approfondita: Non solo scopre il fenomeno, ma fornisce anche una spiegazione ragionevole dell'efficienza parametrica
Alto Valore Pratico: Il modulo GCA è semplice ed efficace, facile da integrare in architetture esistenti
Scrittura Chiara: Definizioni di concetti precise, presentazione completa dei risultati sperimentali

Insufficienze

Diversità del Dataset: Principalmente basato su dati di raccomandazione di e-commerce, l'applicabilità in altri campi non è sufficientemente verificata
Fondamenti Teorici: Manca un'analisi teorica matematica rigorosa del fenomeno di allineamento ortogonale
Overhead Computazionale: Analisi insufficiente della complessità computazionale e dell'efficienza di inferenza del modulo GCA
Sensibilità agli Iperparametri: Analisi insufficiente della sensibilità alla scelta della funzione di gating, numero di teste di attenzione e altri iperparametri
Effetti a Lungo Termine: Mancanza di valutazione della stabilità dell'allineamento ortogonale in sequenze lunghe o distribuzioni su larga scala

Impatto

Valore Accademico: Fornisce una nuova prospettiva teorica per l'apprendimento multimodale e i sistemi di raccomandazione
Guida Pratica: Fornisce soluzioni concrete di miglioramento dell'architettura per la progettazione di sistemi di raccomandazione cross-dominio
Contributo Metodologico: Il metodo di misurazione del grado di allineamento ortogonale può essere utilizzato per analizzare altri compiti multimodali
Ispirazione per la Ricerca: Apre una nuova direzione di ricerca per comprendere i meccanismi di attenzione dalla prospettiva dell'ortogonalità

Scenari Applicabili

Raccomandazione Cross-Dominio: Scenari di raccomandazione multi-dominio in e-commerce, social media, piattaforme di contenuti
Apprendimento Multimodale: Compiti di machine learning che richiedono la fusione di fonti di dati eterogenee
Ottimizzazione dell'Efficienza Parametrica: Esigenze di scala del modello in ambienti con risorse limitate
Ricerca sui Meccanismi di Attenzione: Lavori di ricerca per comprendere più profondamente l'architettura transformer

Bibliografia

L'articolo cita lavori importanti nei campi dei sistemi di raccomandazione, dell'apprendimento multimodale e dei meccanismi di attenzione, inclusi:

Vaswani et al. (2017): Fondamenti dell'architettura Transformer
Radford et al. (2021): Metodo di apprendimento contrastivo CLIP
Alayrac et al. (2022): Modello visione-linguaggio Flamingo
Lavori correlati a CDSR: MiNet, RecGURU, DASL, MAN e altri

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che eccelle sia nei contributi teorici che nel valore pratico. Scoprendo e analizzando il fenomeno dell'allineamento ortogonale, fornisce una nuova prospettiva di comprensione per il campo dell'apprendimento multimodale, con significativo valore accademico e prospettive di applicazione.