Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models
Lee, Zhang, Nguyen et al.
Cross-domain sequential recommendation (CDSR) aims to align heterogeneous user behavior sequences collected from different domains. While cross-attention is widely used to enhance alignment and improve recommendation performance, its underlying mechanism is not fully understood. Most researchers interpret cross-attention as residual alignment, where the output is generated by removing redundant and preserving non-redundant information from the query input by referencing another domain data which is input key and value. Beyond the prevailing view, we introduce Orthogonal Alignment, a phenomenon in which cross-attention discovers novel information that is not present in the query input, and further argue that those two contrasting alignment mechanisms can co-exist in recommendation models We find that when the query input and output of cross-attention are orthogonal, model performance improves over 300 experiments. Notably, Orthogonal Alignment emerges naturally, without any explicit orthogonality constraints. Our key insight is that Orthogonal Alignment emerges naturally because it improves scaling law. We show that baselines additionally incorporating cross-attention module outperform parameter-matched baselines, achieving a superior accuracy-per-model parameter. We hope these findings offer new directions for parameter-efficient scaling in multi-modal research.
academic
L'Attenzione Incrociata Esegue Segretamente l'Allineamento Ortogonale nei Modelli di Raccomandazione
Titolo: Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models
Autori: Hyunin Lee, Yong Zhang, Hoang Vu Nguyen, Xiaoyi Liu, Namyong Park, Christopher Jung, Rong Jin, Yang Wang, Zhigang Wang, Somayeh Sojoudi, Xue Feng
La raccomandazione di sequenze cross-dominio (CDSR) mira ad allineare sequenze di comportamento utente eterogenee provenienti da domini diversi. Sebbene i meccanismi di attenzione incrociata siano ampiamente utilizzati per migliorare l'allineamento e le prestazioni di raccomandazione, i loro meccanismi intrinseci non sono ancora completamente compresi. La maggior parte dei ricercatori interpreta l'attenzione incrociata come allineamento residuale, ovvero la rimozione di informazioni ridondanti e la conservazione di informazioni non ridondanti facendo riferimento ai dati di un altro dominio (come chiave e valore). Questo articolo va oltre questo punto di vista mainstream, introducendo il fenomeno dell'allineamento ortogonale, in cui l'attenzione incrociata scopre nuove informazioni non presenti nell'input della query, e sostiene che questi due meccanismi di allineamento contrastanti possono coesistere nei modelli di raccomandazione. Attraverso oltre 300 esperimenti, scopriamo che le prestazioni del modello migliorano quando l'input della query dell'attenzione incrociata è ortogonale all'output. In particolare, l'allineamento ortogonale emerge naturalmente senza alcun vincolo di ortogonalità esplicito. L'intuizione chiave è che l'allineamento ortogonale emerge naturalmente perché migliora le leggi di scala, consentendo al modello di raggiungere un rapporto accuratezza-parametri superiore.
La sfida centrale affrontata dai moderni sistemi di IA è come fondere efficacemente sequenze di comportamento utente eterogenee provenienti da più piattaforme (come Facebook, Instagram, Amazon). Le tracce di interazione che gli utenti lasciano in domini diversi sono complementari, ma la semplice combinazione di segnali spesso porta a prestazioni peggiori a causa del rumore, della ridondanza o dei conflitti tra le informazioni dei domini.
Comprensione Teorica Insufficiente: Nonostante l'ampia applicazione dell'attenzione incrociata nella raccomandazione di sequenze cross-dominio, manca una comprensione approfondita dei suoi meccanismi di funzionamento intrinseci
Limitazioni del Punto di Vista Mainstream: La ricerca attuale considera principalmente l'attenzione incrociata come un meccanismo di allineamento residuale, ovvero la soppressione del rumore e della ridondanza per garantire che vengano trasmesse solo informazioni non ridondanti
Necessità di Efficienza Parametrica: Con la crescita delle dimensioni del modello, sono necessarie strategie di utilizzo dei parametri più efficienti
I metodi tradizionali comprendono l'attenzione incrociata come filtro di denoising e rilevanza
L'allineamento residuale rigoroso potrebbe limitare l'apprendimento di componenti ridondanti condivise tra modalità, trascurando informazioni specifiche della modalità uniche o sinergiche
Manca una comprensione meccanicistica di come l'attenzione incrociata estrae informazioni complementari
Scoperta del Fenomeno di Allineamento Ortogonale: Prima identificazione e definizione del meccanismo di allineamento ortogonale nell'attenzione incrociata, in cui l'input della query X e l'output X' tendono ad essere ortogonali
Stabilimento della Relazione Prestazioni-Ortogonalità: Dimostrazione attraverso 300+ esperimenti della relazione negativa tra il grado di ortogonalità e le prestazioni di raccomandazione
Proposta di Spiegazione dell'Efficienza Parametrica: Dimostrazione che l'emergenza naturale dell'allineamento ortogonale è dovuta al fatto che fornisce una strategia di scala del modello parametricamente efficiente
Progettazione del Modulo di Attenzione Incrociata Gated: Proposta del modulo GCA (Gated Cross-Attention), che può indurre naturalmente l'allineamento ortogonale
Validazione Cross-Modello: Verifica della generalità delle scoperte su tre algoritmi di base CDSR e quattro combinazioni di dataset multi-dominio
Il compito di raccomandazione di sequenze cross-dominio è definito come: data una sequenza di interazione dell'utente nei domini A e B rispettivamente XA∈RB×lA×d e XB∈RB×lB×d, prevedere il prossimo elemento di interazione dell'utente nel dominio target.
Gating Appreso: A differenza delle strutture di gating fisse, il modulo di gating apprende valori di gating vettoriali in base alla sequenza di input concatenata
Propagazione Selettiva dell'Informazione: I valori di gating controllano il grado in cui la rappresentazione dell'attenzione incrociata XA′ si fonde con la rappresentazione originale XA
Funzioni di Attivazione Flessibili: Supporta funzioni di attivazione sigmoid o tanh
L'allineamento ortogonale si riferisce a un meccanismo di allineamento della rappresentazione in cui l'input della query (X) e l'output (X') dell'attenzione incrociata tendono ad essere ortogonali, piuttosto che semplicemente rafforzare le caratteristiche pre-allineate esistenti di X.
Universalità dell'Allineamento Ortogonale: Nella raccomandazione cross-dominio, l'attenzione incrociata produce naturalmente il fenomeno dell'allineamento ortogonale
Meccanismo di Miglioramento delle Prestazioni: Il grado di ortogonalità è correlato negativamente con le prestazioni di raccomandazione, fornendo una nuova prospettiva per l'ottimizzazione delle prestazioni
Portata del Dataset: Gli esperimenti si basano principalmente su dati di raccomandazione Amazon, la generalizzabilità richiede ulteriore verifica
Applicabilità ai Modelli Visione-Linguaggio: A causa della natura dell'apprendimento contrastivo degli encoder pre-addestrati, osservare l'allineamento ortogonale nei VLM potrebbe essere più impegnativo
Spiegazione del Meccanismo: L'efficienza parametrica potrebbe non essere l'unica spiegazione per l'emergenza dell'allineamento ortogonale
Scelta dei Baseline: Diversi baseline utilizzano diversi sottoinsiemi di dati, il che potrebbe influire sul confronto dei risultati
Contributo Teorico Significativo: Sfida la comprensione tradizionale dell'attenzione incrociata come allineamento residuale, proponendo una nuova prospettiva di allineamento ortogonale
Progettazione Sperimentale Rigorosa: 300+ configurazioni sperimentali, molteplici modelli di base, verifica della significatività statistica
Spiegazione del Meccanismo Approfondita: Non solo scopre il fenomeno, ma fornisce anche una spiegazione ragionevole dell'efficienza parametrica
Alto Valore Pratico: Il modulo GCA è semplice ed efficace, facile da integrare in architetture esistenti
Scrittura Chiara: Definizioni di concetti precise, presentazione completa dei risultati sperimentali
Diversità del Dataset: Principalmente basato su dati di raccomandazione di e-commerce, l'applicabilità in altri campi non è sufficientemente verificata
Fondamenti Teorici: Manca un'analisi teorica matematica rigorosa del fenomeno di allineamento ortogonale
Overhead Computazionale: Analisi insufficiente della complessità computazionale e dell'efficienza di inferenza del modulo GCA
Sensibilità agli Iperparametri: Analisi insufficiente della sensibilità alla scelta della funzione di gating, numero di teste di attenzione e altri iperparametri
Effetti a Lungo Termine: Mancanza di valutazione della stabilità dell'allineamento ortogonale in sequenze lunghe o distribuzioni su larga scala
L'articolo cita lavori importanti nei campi dei sistemi di raccomandazione, dell'apprendimento multimodale e dei meccanismi di attenzione, inclusi:
Vaswani et al. (2017): Fondamenti dell'architettura Transformer
Radford et al. (2021): Metodo di apprendimento contrastivo CLIP
Alayrac et al. (2022): Modello visione-linguaggio Flamingo
Lavori correlati a CDSR: MiNet, RecGURU, DASL, MAN e altri
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che eccelle sia nei contributi teorici che nel valore pratico. Scoprendo e analizzando il fenomeno dell'allineamento ortogonale, fornisce una nuova prospettiva di comprensione per il campo dell'apprendimento multimodale, con significativo valore accademico e prospettive di applicazione.