2025-11-24T08:31:18.188109

Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models

Lee, Zhang, Nguyen et al.

Cross-domain sequential recommendation (CDSR) aims to align heterogeneous user behavior sequences collected from different domains. While cross-attention is widely used to enhance alignment and improve recommendation performance, its underlying mechanism is not fully understood. Most researchers interpret cross-attention as residual alignment, where the output is generated by removing redundant and preserving non-redundant information from the query input by referencing another domain data which is input key and value. Beyond the prevailing view, we introduce Orthogonal Alignment, a phenomenon in which cross-attention discovers novel information that is not present in the query input, and further argue that those two contrasting alignment mechanisms can co-exist in recommendation models We find that when the query input and output of cross-attention are orthogonal, model performance improves over 300 experiments. Notably, Orthogonal Alignment emerges naturally, without any explicit orthogonality constraints. Our key insight is that Orthogonal Alignment emerges naturally because it improves scaling law. We show that baselines additionally incorporating cross-attention module outperform parameter-matched baselines, achieving a superior accuracy-per-model parameter. We hope these findings offer new directions for parameter-efficient scaling in multi-modal research.

academic

Cross-Attention führt heimlich orthogonale Ausrichtung in Empfehlungsmodellen durch

Grundlegende Informationen

Paper-ID: 2510.09435
Titel: Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models
Autoren: Hyunin Lee, Yong Zhang, Hoang Vu Nguyen, Xiaoyi Liu, Namyong Park, Christopher Jung, Rong Jin, Yang Wang, Zhigang Wang, Somayeh Sojoudi, Xue Feng
Institutionen: Meta, UC Berkeley
Klassifizierung: cs.LG cs.IR
Veröffentlichungsdatum: 13. Oktober 2025
Paper-Link: https://arxiv.org/abs/2510.09435

Zusammenfassung

Die domänenübergreifende Sequenzempfehlung (CDSR) zielt darauf ab, heterogene Benutzerverhaltensssequenzen aus verschiedenen Domänen auszurichten. Obwohl Cross-Attention-Mechanismen weit verbreitet sind, um die Ausrichtung zu verbessern und die Empfehlungsleistung zu erhöhen, sind ihre inneren Mechanismen noch nicht vollständig verstanden. Die meisten Forscher interpretieren Cross-Attention als residuale Ausrichtung (residual alignment), d. h. als Entfernung redundanter Informationen durch Bezugnahme auf Daten aus einer anderen Domäne (als Schlüssel und Wert). Dieses Paper geht über diese Mainstream-Ansicht hinaus und führt das Phänomen der orthogonalen Ausrichtung (Orthogonal Alignment) ein – Cross-Attention findet neue Informationen, die in der Abfrageeingabe nicht vorhanden sind. Wir argumentieren, dass diese beiden kontrastierenden Ausrichtungsmechanismen in Empfehlungsmodellen koexistieren können. Durch über 300 Experimente stellen wir fest, dass die Modellleistung verbessert wird, wenn die Abfrageeingabe und -ausgabe der Cross-Attention orthogonal sind. Bemerkenswert ist, dass orthogonale Ausrichtung natürlicherweise auftritt, ohne dass explizite Orthogonalitätsbeschränkungen erforderlich sind. Die Schlüsseleinsicht ist, dass orthogonale Ausrichtung natürlicherweise auftritt, weil sie die Skalierungsgesetze verbessert und es dem Modell ermöglicht, ein besseres Genauigkeits-Parameter-Verhältnis zu erreichen.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernherausforderung moderner KI-Systeme besteht darin, heterogene Benutzerverhaltensssequenzen von mehreren Plattformen (wie Facebook, Instagram, Amazon) effektiv zu integrieren. Die Interaktionsspuren, die Benutzer in verschiedenen Domänen hinterlassen, sind komplementär, aber einfache Signalkombinationen führen häufig zu Leistungseinbußen aufgrund von Rauschen, Redundanz oder Konflikten zwischen Domänen.

Forschungsmotivation

Unzureichendes theoretisches Verständnis: Obwohl Cross-Attention in der domänenübergreifenden Sequenzempfehlung weit verbreitet ist, fehlt ein tiefes Verständnis ihrer inneren Funktionsmechanismen
Einschränkungen der Mainstream-Ansicht: Aktuelle Forschung betrachtet Cross-Attention hauptsächlich als residualen Ausrichtungsmechanismus, d. h. durch Unterdrückung von Rauschen und Redundanz
Anforderungen an Parametereffizienz: Mit dem Wachstum der Modellgröße ist eine effizientere Parameternutzungsstrategie erforderlich

Einschränkungen bestehender Methoden

Traditionelle Methoden verstehen Cross-Attention als Entrauschungs- und Relevanzfilter
Strikte residuale Ausrichtung kann das Lernen redundanter, domänenübergreifender Komponenten einschränken und einzigartige oder synergistische modalitätsspezifische Informationen übersehen
Mangelndes mechanistisches Verständnis, wie Cross-Attention komplementäre Informationen extrahiert

Kernbeiträge

Entdeckung des orthogonalen Ausrichtungsphänomens: Erstmalige Identifikation und Definition des orthogonalen Ausrichtungsmechanismus in Cross-Attention, bei dem die Abfrageeingabe X und die Ausgabe X' dazu neigen, orthogonal zu sein
Etablierung der Leistungs-Orthogonalitäts-Beziehung: Nachweis durch 300+ Experimente einer negativen Korrelation zwischen Orthogonalitätsgrad und Empfehlungsleistung
Vorschlag einer Parametereffizienz-Erklärung: Nachweis, dass das natürliche Auftreten orthogonaler Ausrichtung auf eine parametereffizienten Modellskalierungsstrategie zurückzuführen ist
Entwurf eines gated Cross-Attention-Moduls: Vorschlag des GCA-Moduls (Gated Cross-Attention), das orthogonale Ausrichtung natürlicherweise induziert
Modellübergreifende Validierung: Validierung der Universalität der Erkenntnisse auf drei CDSR-Basis-Algorithmen und vier Multi-Domain-Datensatz-Kombinationen

Methodische Details

Aufgabendefinition

Die Aufgabe der domänenübergreifenden Sequenzempfehlung wird definiert als: Gegeben seien Benutzerinteraktionssequenzen in Domäne A und B als $X_A \in \mathbb{R}^{B \times l_A \times d}$ und $X_B \in \mathbb{R}^{B \times l_B \times d}$ , vorhersagen des nächsten Interaktionselements des Benutzers in der Zieldomäne.

Gated Cross-Attention (GCA) Modul

Kernarchitektur

Der mathematische Ausdruck des GCA-Moduls lautet:

GCA(X_A, X_B) = LayerNorm(X_A + FFN([X_A; X_B]) ⊙ X'_A)

Wobei:

$X'_A = CA(X_A, X_B)$ die Cross-Attention-Ausgabe ist
$FFN([X_A; X_B])$ ein Feedforward-Netzwerk ist, das auf die verkettete Darstellung wirkt und Gating-Werte erzeugt
$⊙$ das Hadamard-Produkt (elementweise Multiplikation) darstellt

Designmerkmale

Lernbares Gating: Im Gegensatz zu festen Gating-Strukturen lernt das Gating-Modul vektorwertige Gating-Ausgaben basierend auf verketteten Eingabesequenzen
Selektive Informationspropagation: Gating-Werte steuern, inwieweit die Cross-Attention-Darstellung $X'_A$ in die ursprüngliche Darstellung $X_A$ einfließt
Flexible Aktivierungsfunktionen: Unterstützt Sigmoid- oder Tanh-Aktivierungsfunktionen

Orthogonaler Ausrichtungsmechanismus

Phänomen-Definition

Orthogonale Ausrichtung bezieht sich auf einen Darstellungsausrichtungsmechanismus, bei dem die Abfrageeingabe (X) und -ausgabe (X') der Cross-Attention dazu neigen, orthogonal zu sein, anstatt einfach die vorhandenen vorausgerichteten Merkmale von X zu verstärken.

Messmethode

Verwendung der durchschnittlichen Kosinus-Ähnlichkeit über Batches und Positionen zur Messung des Orthogonalitätsgrades:

|cos(X, X')| = (1/(B·l)) ∑_{b,i∈[B]×[l]} cos(X⃗_{bi}, X⃗'_{bi})

Schlüsselfunde

Orthogonale Ausrichtung tritt natürlicherweise auf, ohne explizite Orthogonalitätsregularisierung
|cos(X, X')| zeigt negative Korrelation mit Empfehlungsleistung
Der Orthogonalitätsgrad bleibt modellübergreifend stabil (Median ≈ 0,1–0,2)

Experimentelle Einrichtung

Datensätze

Verwendung des öffentlichen Amazon Reviews-Datensatzes mit verschiedenen Produktkategorie-Domänen:

Cloth-Sport
Electronic-Phone
Beauty-Electronics
Food-Kitchen

Basis-Modelle

Auswahl von drei aktuellen CDSR-Algorithmen:

CDSRNP: Domänenübergreifende Empfehlung basierend auf bedingten neuronalen Prozessen
ABXI: Aufgabenorientierte domänenübergreifende Sequenzempfehlung
LLM4CDSR: Domänenübergreifende Empfehlung basierend auf großen Sprachmodellen

Bewertungsmetriken

NDCG@1, NDCG@10: Rangierungsqualität
AUC: Diskriminierungsfähigkeit
HR@5, HR@10, HR@20: Trefferquoten

Experimentelle Konfiguration

GCA-Modul-Einfügungspositionen: GCA0 (früh), GCA1 (mittel) usw.
Aktivierungsfunktionen: Sigmoid, Tanh
Anzahl der Aufmerksamkeitsköpfe: 4, 8
Jede Konfiguration wird mit 5 zufälligen Seeds ausgeführt

Experimentelle Ergebnisse

Hauptergebnisse

Konsistente Leistungsverbesserungen

Auf allen drei Basis-Modellen führte das frühe GCA-Modul (GCAearly) zu konsistenten Leistungsverbesserungen:

LLM4CDSR auf Cloth-Sport-Datensatz:

NDCG@1A: 0,716 → 0,728 (+1,2%)
NDCG@10A: 0,782 → 0,805 (+2,3%)
AUCA: +1,5%

ABXI auf Food-Kitchen-Datensatz:

NDCG@1A: 0,059 → 0,072 (+22%)
NDCG@10A: 0,154 → 0,176 (+14%)

Orthogonale Ausrichtungs-Leistungs-Beziehung

Schlüsselfund: |cos(X, X')| zeigt signifikante negative Korrelation mit NDCG@10:

LLM4CDSR Domäne B: r = -0,452
ABXI Domäne A: r = -0,328, Domäne B: r = -0,340
CDSRNP Domäne B: r = -0,296

Parametereffizienz-Validierung

Vergleich von GCA-erweiterten Modellen mit parametergefilterten Basis-Modellen:

In allen 5 Testfällen übertraf Basis+GCAearly die parametergefilterte Basis
LLM4CDSR zeigte die stärkste Parametereffizienz, zugeschrieben der festen Dimensionalität vortrainierter LLM-Einbettungen

Stapelung-Effekt-Analyse

Das vertikale Stapeln mehrerer GCA-Module führte nicht immer zu monotonen Verbesserungen:

CDSRNP: Keine weiteren Gewinne von 0,1 zu tieferen Stapelungen
ABXI: Selektive Platzierung 1,2 war optimal
LLM4CDSR: Einzelne 1-Position übertraf Stapelkonfiguration 0,1

Orthogonalisierungs-Unabhängigkeit

Die durch GCA induzierte Orthogonalisierung ist unabhängig von der Ähnlichkeit zwischen X und Y:

|cos(X, X')| bleibt modellübergreifend stabil (Bereich 0,1–0,2)
|cos(X, Y)| variiert je nach Datensatz (0,020–0,397)
Beweist, dass GCA intrinsisch einen kontrollierten Orthogonalisierungsgrad induziert

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Universalität der orthogonalen Ausrichtung: In der domänenübergreifenden Empfehlung erzeugt Cross-Attention natürlicherweise das Phänomen der orthogonalen Ausrichtung
Leistungsverbesserungsmechanismus: Der Orthogonalitätsgrad zeigt negative Korrelation mit Empfehlungsleistung und bietet eine neue Perspektive auf Leistungsoptimierung
Parametereffizienz-Vorteile: Orthogonale Ausrichtung erreicht parametereffizienten Skalierung durch Erkundung orthogonaler Unterräume
Architektur-Design-Richtlinien: Frühe GCA-Platzierung ist am wirksamsten, tiefe Stapelungen erfordern vorsichtige Anwendung

Einschränkungen

Datensatz-Umfang: Experimente basieren hauptsächlich auf Amazon-Empfehlungsdaten, Verallgemeinerbarkeit erfordert weitere Validierung
Anwendbarkeit auf Vision-Language-Modelle: Aufgrund der kontrastiven Lernmerkmale vortrainierter Encoder kann die Beobachtung orthogonaler Ausrichtung in VLMs herausfordernder sein
Mechanismus-Erklärung: Parametereffizienz ist möglicherweise nicht die einzige Erklärung für das Auftreten orthogonaler Ausrichtung
Basis-Auswahl: Verschiedene Basen verwenden verschiedene Datenteilmengen, was Ergebnisvergleiche beeinflussen kann

Zukünftige Richtungen

Architektur-Erkundung: Entwicklung effektiverer orthogonaler Ausrichtungsmechanismen jenseits von GCA
Theoretische Analyse: Tieferes Verständnis der mathematischen Prinzipien und Konvergenzeigenschaften orthogonaler Ausrichtung
Domänenübergreifende Validierung: Validierung der Erkenntnisse in anderen Multi-Modal-Aufgaben wie Vision-Language-Modellen
Metrik-Entwicklung: Entwurf verfeinerterer Messmethoden für orthogonale Ausrichtung

Tiefgreifende Bewertung

Stärken

Bedeutende theoretische Beiträge: Hinterfragt das traditionelle Verständnis von Cross-Attention als residuale Ausrichtung und bietet eine neue Perspektive auf orthogonale Ausrichtung
Strenge Experimentelles Design: 300+ Experimentkonfigurationen, mehrere Basis-Modelle, statistische Signifikanzvalidierung
Tiefgreifende Mechanismus-Erklärung: Nicht nur Phänomen-Entdeckung, sondern auch vernünftige Erklärung durch Parametereffizienz
Hoher praktischer Wert: GCA-Modul ist einfach und effektiv, leicht in bestehende Architekturen integrierbar
Klare Schreibweise: Klare Konzeptdefinitionen, umfassende Ergebnispräsentation

Mängel

Datensatz-Vielfalt: Hauptsächlich auf E-Commerce-Empfehlungsdaten basierend, Anwendbarkeit in anderen Bereichen nicht ausreichend validiert
Theoretische Grundlagen: Mangel an strenger mathematischer Theorieanalyse des orthogonalen Ausrichtungsphänomens
Rechenkomplexität: Unzureichende Analyse der Rechenkomplexität und Inferenzeffizienz des GCA-Moduls
Hyperparameter-Sensitivität: Unzureichende Sensitivitätsanalyse bezüglich Gating-Funktionswahl, Anzahl der Aufmerksamkeitsköpfe usw.
Langzeiteffekte: Keine Bewertung der Stabilität orthogonaler Ausrichtung in langen Sequenzen oder großflächigen Bereitstellungen

Einflussfähigkeit

Akademischer Wert: Bietet neue theoretische Perspektive für Multi-Modal-Lernen und Empfehlungssysteme
Praktische Richtlinien: Bietet konkrete Architektur-Verbesserungspläne für das Design domänenübergreifender Empfehlungssysteme
Methodologische Beiträge: Orthogonale Ausrichtungs-Messmethode kann auf andere Multi-Modal-Aufgaben-Analysen angewendet werden
Forschungs-Inspiration: Eröffnet neue Forschungsrichtung zum Verständnis von Aufmerksamkeitsmechanismen aus Orthogonalitätsperspektive

Anwendungsszenarien

Domänenübergreifende Empfehlung: Multi-Domain-Empfehlungsszenarien in E-Commerce, sozialen Medien, Content-Plattformen
Multi-Modal-Lernen: Maschinenlern-Aufgaben, die heterogene Datenquellen integrieren müssen
Parametereffizienz-Optimierung: Modellskalierungsbedarf in ressourcenbeschränkten Umgebungen
Aufmerksamkeitsmechanismus-Forschung: Forschungsarbeiten zum tieferen Verständnis der Transformer-Architektur

Referenzen

Das Paper zitiert wichtige Arbeiten in den Bereichen Empfehlungssysteme, Multi-Modal-Lernen und Aufmerksamkeitsmechanismen, einschließlich:

Vaswani et al. (2017): Transformer-Architektur-Grundlagen
Radford et al. (2021): CLIP kontrastive Lernmethode
Alayrac et al. (2022): Flamingo Vision-Language-Modell
Mehrere CDSR-bezogene Arbeiten: MiNet, RecGURU, DASL, MAN usw.

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier mit hervorragenden Leistungen sowohl in theoretischen Beiträgen als auch in praktischem Wert. Durch die Entdeckung und Analyse des orthogonalen Ausrichtungsphänomens bietet es eine neue Verständnisperspektive für das Multi-Modal-Lernfeld und hat bedeutende akademische Wert und Anwendungspotenzial.