2025-11-24T08:31:18.188109

Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models

Lee, Zhang, Nguyen et al.
Cross-domain sequential recommendation (CDSR) aims to align heterogeneous user behavior sequences collected from different domains. While cross-attention is widely used to enhance alignment and improve recommendation performance, its underlying mechanism is not fully understood. Most researchers interpret cross-attention as residual alignment, where the output is generated by removing redundant and preserving non-redundant information from the query input by referencing another domain data which is input key and value. Beyond the prevailing view, we introduce Orthogonal Alignment, a phenomenon in which cross-attention discovers novel information that is not present in the query input, and further argue that those two contrasting alignment mechanisms can co-exist in recommendation models We find that when the query input and output of cross-attention are orthogonal, model performance improves over 300 experiments. Notably, Orthogonal Alignment emerges naturally, without any explicit orthogonality constraints. Our key insight is that Orthogonal Alignment emerges naturally because it improves scaling law. We show that baselines additionally incorporating cross-attention module outperform parameter-matched baselines, achieving a superior accuracy-per-model parameter. We hope these findings offer new directions for parameter-efficient scaling in multi-modal research.
academic

L'Attenzione Incrociata Esegue Segretamente l'Allineamento Ortogonale nei Modelli di Raccomandazione

Informazioni Fondamentali

  • ID Articolo: 2510.09435
  • Titolo: Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models
  • Autori: Hyunin Lee, Yong Zhang, Hoang Vu Nguyen, Xiaoyi Liu, Namyong Park, Christopher Jung, Rong Jin, Yang Wang, Zhigang Wang, Somayeh Sojoudi, Xue Feng
  • Istituzioni: Meta, UC Berkeley
  • Classificazione: cs.LG cs.IR
  • Data di Pubblicazione: 13 Ottobre 2025
  • Link Articolo: https://arxiv.org/abs/2510.09435

Riassunto

La raccomandazione di sequenze cross-dominio (CDSR) mira ad allineare sequenze di comportamento utente eterogenee provenienti da domini diversi. Sebbene i meccanismi di attenzione incrociata siano ampiamente utilizzati per migliorare l'allineamento e le prestazioni di raccomandazione, i loro meccanismi intrinseci non sono ancora completamente compresi. La maggior parte dei ricercatori interpreta l'attenzione incrociata come allineamento residuale, ovvero la rimozione di informazioni ridondanti e la conservazione di informazioni non ridondanti facendo riferimento ai dati di un altro dominio (come chiave e valore). Questo articolo va oltre questo punto di vista mainstream, introducendo il fenomeno dell'allineamento ortogonale, in cui l'attenzione incrociata scopre nuove informazioni non presenti nell'input della query, e sostiene che questi due meccanismi di allineamento contrastanti possono coesistere nei modelli di raccomandazione. Attraverso oltre 300 esperimenti, scopriamo che le prestazioni del modello migliorano quando l'input della query dell'attenzione incrociata è ortogonale all'output. In particolare, l'allineamento ortogonale emerge naturalmente senza alcun vincolo di ortogonalità esplicito. L'intuizione chiave è che l'allineamento ortogonale emerge naturalmente perché migliora le leggi di scala, consentendo al modello di raggiungere un rapporto accuratezza-parametri superiore.

Contesto di Ricerca e Motivazione

Definizione del Problema

La sfida centrale affrontata dai moderni sistemi di IA è come fondere efficacemente sequenze di comportamento utente eterogenee provenienti da più piattaforme (come Facebook, Instagram, Amazon). Le tracce di interazione che gli utenti lasciano in domini diversi sono complementari, ma la semplice combinazione di segnali spesso porta a prestazioni peggiori a causa del rumore, della ridondanza o dei conflitti tra le informazioni dei domini.

Motivazione della Ricerca

  1. Comprensione Teorica Insufficiente: Nonostante l'ampia applicazione dell'attenzione incrociata nella raccomandazione di sequenze cross-dominio, manca una comprensione approfondita dei suoi meccanismi di funzionamento intrinseci
  2. Limitazioni del Punto di Vista Mainstream: La ricerca attuale considera principalmente l'attenzione incrociata come un meccanismo di allineamento residuale, ovvero la soppressione del rumore e della ridondanza per garantire che vengano trasmesse solo informazioni non ridondanti
  3. Necessità di Efficienza Parametrica: Con la crescita delle dimensioni del modello, sono necessarie strategie di utilizzo dei parametri più efficienti

Limitazioni dei Metodi Esistenti

  • I metodi tradizionali comprendono l'attenzione incrociata come filtro di denoising e rilevanza
  • L'allineamento residuale rigoroso potrebbe limitare l'apprendimento di componenti ridondanti condivise tra modalità, trascurando informazioni specifiche della modalità uniche o sinergiche
  • Manca una comprensione meccanicistica di come l'attenzione incrociata estrae informazioni complementari

Contributi Principali

  1. Scoperta del Fenomeno di Allineamento Ortogonale: Prima identificazione e definizione del meccanismo di allineamento ortogonale nell'attenzione incrociata, in cui l'input della query X e l'output X' tendono ad essere ortogonali
  2. Stabilimento della Relazione Prestazioni-Ortogonalità: Dimostrazione attraverso 300+ esperimenti della relazione negativa tra il grado di ortogonalità e le prestazioni di raccomandazione
  3. Proposta di Spiegazione dell'Efficienza Parametrica: Dimostrazione che l'emergenza naturale dell'allineamento ortogonale è dovuta al fatto che fornisce una strategia di scala del modello parametricamente efficiente
  4. Progettazione del Modulo di Attenzione Incrociata Gated: Proposta del modulo GCA (Gated Cross-Attention), che può indurre naturalmente l'allineamento ortogonale
  5. Validazione Cross-Modello: Verifica della generalità delle scoperte su tre algoritmi di base CDSR e quattro combinazioni di dataset multi-dominio

Spiegazione Dettagliata del Metodo

Definizione del Compito

Il compito di raccomandazione di sequenze cross-dominio è definito come: data una sequenza di interazione dell'utente nei domini A e B rispettivamente XARB×lA×dX_A \in \mathbb{R}^{B \times l_A \times d} e XBRB×lB×dX_B \in \mathbb{R}^{B \times l_B \times d}, prevedere il prossimo elemento di interazione dell'utente nel dominio target.

Modulo di Attenzione Incrociata Gated (GCA)

Architettura Principale

L'espressione matematica del modulo GCA è:

GCA(X_A, X_B) = LayerNorm(X_A + FFN([X_A; X_B]) ⊙ X'_A)

Dove:

  • XA=CA(XA,XB)X'_A = CA(X_A, X_B) è l'output dell'attenzione incrociata
  • FFN([XA;XB])FFN([X_A; X_B]) è una rete feed-forward che agisce sulla rappresentazione concatenata, producendo valori di gating
  • rappresenta il prodotto di Hadamard (moltiplicazione elemento per elemento)

Caratteristiche di Progettazione

  1. Gating Appreso: A differenza delle strutture di gating fisse, il modulo di gating apprende valori di gating vettoriali in base alla sequenza di input concatenata
  2. Propagazione Selettiva dell'Informazione: I valori di gating controllano il grado in cui la rappresentazione dell'attenzione incrociata XAX'_A si fonde con la rappresentazione originale XAX_A
  3. Funzioni di Attivazione Flessibili: Supporta funzioni di attivazione sigmoid o tanh

Meccanismo di Allineamento Ortogonale

Definizione del Fenomeno

L'allineamento ortogonale si riferisce a un meccanismo di allineamento della rappresentazione in cui l'input della query (X) e l'output (X') dell'attenzione incrociata tendono ad essere ortogonali, piuttosto che semplicemente rafforzare le caratteristiche pre-allineate esistenti di X.

Metodo di Misurazione

Utilizziamo la similarità del coseno mediata su batch e posizioni per misurare il grado di ortogonalità:

|cos(X, X')| = (1/(B·l)) ∑_{b,i∈[B]×[l]} cos(X⃗_{bi}, X⃗'_{bi})

Scoperte Chiave

  • L'allineamento ortogonale emerge naturalmente senza regolarizzazione di ortogonalità esplicita
  • |cos(X, X')| mostra una relazione negativa con le prestazioni di raccomandazione
  • Il grado di ortogonalità rimane stabile tra modelli diversi (mediana ≈ 0,1-0,2)

Configurazione Sperimentale

Dataset

Utilizziamo il dataset pubblico Amazon Reviews, che copre domini di diversi tipi di prodotto:

  • Cloth-Sport
  • Electronic-Phone
  • Beauty-Electronics
  • Food-Kitchen

Modelli di Base

Selezioniamo tre algoritmi CDSR recenti:

  1. CDSRNP: Raccomandazione cross-dominio basata su processi neurali condizionali
  2. ABXI: Raccomandazione di sequenze cross-dominio orientata ai compiti
  3. LLM4CDSR: Raccomandazione cross-dominio basata su modelli di linguaggio di grandi dimensioni

Metriche di Valutazione

  • NDCG@1, NDCG@10: Qualità del ranking
  • AUC: Capacità discriminativa
  • HR@5, HR@10, HR@20: Tasso di hit

Configurazione Sperimentale

  • Posizione di inserimento del modulo GCA: GCA0 (inizio), GCA1 (metà), ecc.
  • Funzioni di attivazione: sigmoid, tanh
  • Numero di teste di attenzione: 4, 8
  • Ogni configurazione eseguita 5 volte con semi casuali diversi

Risultati Sperimentali

Risultati Principali

Coerenza del Miglioramento delle Prestazioni

Su tutti e tre i modelli di base, il modulo GCA iniziale (GCAearly) ha portato miglioramenti coerenti delle prestazioni:

LLM4CDSR sul dataset Cloth-Sport:

  • NDCG@1A: 0,716 → 0,728 (+1,2%)
  • NDCG@10A: 0,782 → 0,805 (+2,3%)
  • AUCA: +1,5%

ABXI sul dataset Food-Kitchen:

  • NDCG@1A: 0,059 → 0,072 (+22%)
  • NDCG@10A: 0,154 → 0,176 (+14%)

Relazione Allineamento Ortogonale-Prestazioni

Scoperta chiave: |cos(X, X')| mostra una correlazione negativa significativa con NDCG@10:

  • LLM4CDSR dominio B: r = -0,452
  • ABXI dominio A: r = -0,328, dominio B: r = -0,340
  • CDSRNP dominio B: r = -0,296

Verifica dell'Efficienza Parametrica

Confronto tra modelli potenziati con GCA e modelli di base con parametri corrispondenti:

  • In tutti e 5 i casi di test, baseline+GCAearly supera il baseline con parametri corrispondenti
  • LLM4CDSR mostra la massima efficienza parametrica, attribuita al vincolo di dimensione fissa degli embedding LLM pre-addestrati

Analisi dell'Effetto di Stacking

L'impilamento verticale di più moduli GCA non sempre porta a miglioramenti monotoni:

  • CDSRNP: Da 0,1 a stacking più profondo senza ulteriori guadagni
  • ABXI: Posizionamento selettivo 1,2 è ottimale
  • LLM4CDSR: Singolo 1 superiore alla configurazione impilata 0,1

Indipendenza dell'Ortogonalizzazione

L'ortogonalizzazione indotta da GCA è indipendente dalla similarità di X e Y:

  • |cos(X, X')| rimane stabile tra modelli diversi (intervallo 0,1-0,2)
  • |cos(X, Y)| varia a seconda del dataset (0,020-0,397)
  • Dimostra che GCA induce intrinsecamente un grado controllato di ortogonalizzazione

Lavori Correlati

Allineamento Multimodale

  • Metodi di Apprendimento Contrastivo: CLIP, ALIGN e altri raggiungono l'allineamento immagine-testo attraverso obiettivi contrastivi
  • Meccanismi di Attenzione Incrociata: Utilizzati nei modelli di diffusione da testo a immagine come filtri di denoising e rilevanza
  • Problema del Gap Modale: Fenomeno in cui gli embedding di immagini e testo occupano regioni disgiunte

Raccomandazione di Sequenze Cross-Dominio

  • Metodi Iniziali: MiNet rete di interessi misti, RecGURU apprendimento avversariale
  • Architetture Transformer: DASL doppia attenzione, MAN rete di attenzione mista
  • Metodi di Meta-Learning: CDSRNP processi neurali, Tri-CDR apprendimento di sequenze triple
  • Integrazione LLM: LLM4CDSR, ABXI e altri progressi recenti

Conclusioni e Discussione

Conclusioni Principali

  1. Universalità dell'Allineamento Ortogonale: Nella raccomandazione cross-dominio, l'attenzione incrociata produce naturalmente il fenomeno dell'allineamento ortogonale
  2. Meccanismo di Miglioramento delle Prestazioni: Il grado di ortogonalità è correlato negativamente con le prestazioni di raccomandazione, fornendo una nuova prospettiva per l'ottimizzazione delle prestazioni
  3. Vantaggi dell'Efficienza Parametrica: L'allineamento ortogonale raggiunge la scala parametricamente efficiente esplorando sottospazi ortogonali
  4. Guida alla Progettazione dell'Architettura: Il posizionamento iniziale di GCA è più efficace, lo stacking profondo richiede applicazione cauta

Limitazioni

  1. Portata del Dataset: Gli esperimenti si basano principalmente su dati di raccomandazione Amazon, la generalizzabilità richiede ulteriore verifica
  2. Applicabilità ai Modelli Visione-Linguaggio: A causa della natura dell'apprendimento contrastivo degli encoder pre-addestrati, osservare l'allineamento ortogonale nei VLM potrebbe essere più impegnativo
  3. Spiegazione del Meccanismo: L'efficienza parametrica potrebbe non essere l'unica spiegazione per l'emergenza dell'allineamento ortogonale
  4. Scelta dei Baseline: Diversi baseline utilizzano diversi sottoinsiemi di dati, il che potrebbe influire sul confronto dei risultati

Direzioni Future

  1. Esplorazione dell'Architettura: Sviluppare meccanismi di allineamento ortogonale più efficaci oltre GCA
  2. Analisi Teorica: Comprendere più profondamente i principi matematici e le proprietà di convergenza dell'allineamento ortogonale
  3. Validazione Cross-Dominio: Verificare le scoperte in altri compiti multimodali come modelli visione-linguaggio
  4. Sviluppo di Metriche: Progettare metodi di misurazione dell'allineamento ortogonale più raffinati

Valutazione Approfondita

Punti di Forza

  1. Contributo Teorico Significativo: Sfida la comprensione tradizionale dell'attenzione incrociata come allineamento residuale, proponendo una nuova prospettiva di allineamento ortogonale
  2. Progettazione Sperimentale Rigorosa: 300+ configurazioni sperimentali, molteplici modelli di base, verifica della significatività statistica
  3. Spiegazione del Meccanismo Approfondita: Non solo scopre il fenomeno, ma fornisce anche una spiegazione ragionevole dell'efficienza parametrica
  4. Alto Valore Pratico: Il modulo GCA è semplice ed efficace, facile da integrare in architetture esistenti
  5. Scrittura Chiara: Definizioni di concetti precise, presentazione completa dei risultati sperimentali

Insufficienze

  1. Diversità del Dataset: Principalmente basato su dati di raccomandazione di e-commerce, l'applicabilità in altri campi non è sufficientemente verificata
  2. Fondamenti Teorici: Manca un'analisi teorica matematica rigorosa del fenomeno di allineamento ortogonale
  3. Overhead Computazionale: Analisi insufficiente della complessità computazionale e dell'efficienza di inferenza del modulo GCA
  4. Sensibilità agli Iperparametri: Analisi insufficiente della sensibilità alla scelta della funzione di gating, numero di teste di attenzione e altri iperparametri
  5. Effetti a Lungo Termine: Mancanza di valutazione della stabilità dell'allineamento ortogonale in sequenze lunghe o distribuzioni su larga scala

Impatto

  1. Valore Accademico: Fornisce una nuova prospettiva teorica per l'apprendimento multimodale e i sistemi di raccomandazione
  2. Guida Pratica: Fornisce soluzioni concrete di miglioramento dell'architettura per la progettazione di sistemi di raccomandazione cross-dominio
  3. Contributo Metodologico: Il metodo di misurazione del grado di allineamento ortogonale può essere utilizzato per analizzare altri compiti multimodali
  4. Ispirazione per la Ricerca: Apre una nuova direzione di ricerca per comprendere i meccanismi di attenzione dalla prospettiva dell'ortogonalità

Scenari Applicabili

  1. Raccomandazione Cross-Dominio: Scenari di raccomandazione multi-dominio in e-commerce, social media, piattaforme di contenuti
  2. Apprendimento Multimodale: Compiti di machine learning che richiedono la fusione di fonti di dati eterogenee
  3. Ottimizzazione dell'Efficienza Parametrica: Esigenze di scala del modello in ambienti con risorse limitate
  4. Ricerca sui Meccanismi di Attenzione: Lavori di ricerca per comprendere più profondamente l'architettura transformer

Bibliografia

L'articolo cita lavori importanti nei campi dei sistemi di raccomandazione, dell'apprendimento multimodale e dei meccanismi di attenzione, inclusi:

  • Vaswani et al. (2017): Fondamenti dell'architettura Transformer
  • Radford et al. (2021): Metodo di apprendimento contrastivo CLIP
  • Alayrac et al. (2022): Modello visione-linguaggio Flamingo
  • Lavori correlati a CDSR: MiNet, RecGURU, DASL, MAN e altri

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che eccelle sia nei contributi teorici che nel valore pratico. Scoprendo e analizzando il fenomeno dell'allineamento ortogonale, fornisce una nuova prospettiva di comprensione per il campo dell'apprendimento multimodale, con significativo valore accademico e prospettive di applicazione.