Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models
Lee, Zhang, Nguyen et al.
Cross-domain sequential recommendation (CDSR) aims to align heterogeneous user behavior sequences collected from different domains. While cross-attention is widely used to enhance alignment and improve recommendation performance, its underlying mechanism is not fully understood. Most researchers interpret cross-attention as residual alignment, where the output is generated by removing redundant and preserving non-redundant information from the query input by referencing another domain data which is input key and value. Beyond the prevailing view, we introduce Orthogonal Alignment, a phenomenon in which cross-attention discovers novel information that is not present in the query input, and further argue that those two contrasting alignment mechanisms can co-exist in recommendation models We find that when the query input and output of cross-attention are orthogonal, model performance improves over 300 experiments. Notably, Orthogonal Alignment emerges naturally, without any explicit orthogonality constraints. Our key insight is that Orthogonal Alignment emerges naturally because it improves scaling law. We show that baselines additionally incorporating cross-attention module outperform parameter-matched baselines, achieving a superior accuracy-per-model parameter. We hope these findings offer new directions for parameter-efficient scaling in multi-modal research.
academic
Cross-Attention führt heimlich orthogonale Ausrichtung in Empfehlungsmodellen durch
Titel: Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models
Autoren: Hyunin Lee, Yong Zhang, Hoang Vu Nguyen, Xiaoyi Liu, Namyong Park, Christopher Jung, Rong Jin, Yang Wang, Zhigang Wang, Somayeh Sojoudi, Xue Feng
Die domänenübergreifende Sequenzempfehlung (CDSR) zielt darauf ab, heterogene Benutzerverhaltensssequenzen aus verschiedenen Domänen auszurichten. Obwohl Cross-Attention-Mechanismen weit verbreitet sind, um die Ausrichtung zu verbessern und die Empfehlungsleistung zu erhöhen, sind ihre inneren Mechanismen noch nicht vollständig verstanden. Die meisten Forscher interpretieren Cross-Attention als residuale Ausrichtung (residual alignment), d. h. als Entfernung redundanter Informationen durch Bezugnahme auf Daten aus einer anderen Domäne (als Schlüssel und Wert). Dieses Paper geht über diese Mainstream-Ansicht hinaus und führt das Phänomen der orthogonalen Ausrichtung (Orthogonal Alignment) ein – Cross-Attention findet neue Informationen, die in der Abfrageeingabe nicht vorhanden sind. Wir argumentieren, dass diese beiden kontrastierenden Ausrichtungsmechanismen in Empfehlungsmodellen koexistieren können. Durch über 300 Experimente stellen wir fest, dass die Modellleistung verbessert wird, wenn die Abfrageeingabe und -ausgabe der Cross-Attention orthogonal sind. Bemerkenswert ist, dass orthogonale Ausrichtung natürlicherweise auftritt, ohne dass explizite Orthogonalitätsbeschränkungen erforderlich sind. Die Schlüsseleinsicht ist, dass orthogonale Ausrichtung natürlicherweise auftritt, weil sie die Skalierungsgesetze verbessert und es dem Modell ermöglicht, ein besseres Genauigkeits-Parameter-Verhältnis zu erreichen.
Die Kernherausforderung moderner KI-Systeme besteht darin, heterogene Benutzerverhaltensssequenzen von mehreren Plattformen (wie Facebook, Instagram, Amazon) effektiv zu integrieren. Die Interaktionsspuren, die Benutzer in verschiedenen Domänen hinterlassen, sind komplementär, aber einfache Signalkombinationen führen häufig zu Leistungseinbußen aufgrund von Rauschen, Redundanz oder Konflikten zwischen Domänen.
Unzureichendes theoretisches Verständnis: Obwohl Cross-Attention in der domänenübergreifenden Sequenzempfehlung weit verbreitet ist, fehlt ein tiefes Verständnis ihrer inneren Funktionsmechanismen
Einschränkungen der Mainstream-Ansicht: Aktuelle Forschung betrachtet Cross-Attention hauptsächlich als residualen Ausrichtungsmechanismus, d. h. durch Unterdrückung von Rauschen und Redundanz
Anforderungen an Parametereffizienz: Mit dem Wachstum der Modellgröße ist eine effizientere Parameternutzungsstrategie erforderlich
Traditionelle Methoden verstehen Cross-Attention als Entrauschungs- und Relevanzfilter
Strikte residuale Ausrichtung kann das Lernen redundanter, domänenübergreifender Komponenten einschränken und einzigartige oder synergistische modalitätsspezifische Informationen übersehen
Mangelndes mechanistisches Verständnis, wie Cross-Attention komplementäre Informationen extrahiert
Entdeckung des orthogonalen Ausrichtungsphänomens: Erstmalige Identifikation und Definition des orthogonalen Ausrichtungsmechanismus in Cross-Attention, bei dem die Abfrageeingabe X und die Ausgabe X' dazu neigen, orthogonal zu sein
Etablierung der Leistungs-Orthogonalitäts-Beziehung: Nachweis durch 300+ Experimente einer negativen Korrelation zwischen Orthogonalitätsgrad und Empfehlungsleistung
Vorschlag einer Parametereffizienz-Erklärung: Nachweis, dass das natürliche Auftreten orthogonaler Ausrichtung auf eine parametereffizienten Modellskalierungsstrategie zurückzuführen ist
Entwurf eines gated Cross-Attention-Moduls: Vorschlag des GCA-Moduls (Gated Cross-Attention), das orthogonale Ausrichtung natürlicherweise induziert
Modellübergreifende Validierung: Validierung der Universalität der Erkenntnisse auf drei CDSR-Basis-Algorithmen und vier Multi-Domain-Datensatz-Kombinationen
Die Aufgabe der domänenübergreifenden Sequenzempfehlung wird definiert als: Gegeben seien Benutzerinteraktionssequenzen in Domäne A und B als XA∈RB×lA×d und XB∈RB×lB×d, vorhersagen des nächsten Interaktionselements des Benutzers in der Zieldomäne.
Lernbares Gating: Im Gegensatz zu festen Gating-Strukturen lernt das Gating-Modul vektorwertige Gating-Ausgaben basierend auf verketteten Eingabesequenzen
Selektive Informationspropagation: Gating-Werte steuern, inwieweit die Cross-Attention-Darstellung XA′ in die ursprüngliche Darstellung XA einfließt
Flexible Aktivierungsfunktionen: Unterstützt Sigmoid- oder Tanh-Aktivierungsfunktionen
Orthogonale Ausrichtung bezieht sich auf einen Darstellungsausrichtungsmechanismus, bei dem die Abfrageeingabe (X) und -ausgabe (X') der Cross-Attention dazu neigen, orthogonal zu sein, anstatt einfach die vorhandenen vorausgerichteten Merkmale von X zu verstärken.
Universalität der orthogonalen Ausrichtung: In der domänenübergreifenden Empfehlung erzeugt Cross-Attention natürlicherweise das Phänomen der orthogonalen Ausrichtung
Leistungsverbesserungsmechanismus: Der Orthogonalitätsgrad zeigt negative Korrelation mit Empfehlungsleistung und bietet eine neue Perspektive auf Leistungsoptimierung
Parametereffizienz-Vorteile: Orthogonale Ausrichtung erreicht parametereffizienten Skalierung durch Erkundung orthogonaler Unterräume
Architektur-Design-Richtlinien: Frühe GCA-Platzierung ist am wirksamsten, tiefe Stapelungen erfordern vorsichtige Anwendung
Datensatz-Umfang: Experimente basieren hauptsächlich auf Amazon-Empfehlungsdaten, Verallgemeinerbarkeit erfordert weitere Validierung
Anwendbarkeit auf Vision-Language-Modelle: Aufgrund der kontrastiven Lernmerkmale vortrainierter Encoder kann die Beobachtung orthogonaler Ausrichtung in VLMs herausfordernder sein
Mechanismus-Erklärung: Parametereffizienz ist möglicherweise nicht die einzige Erklärung für das Auftreten orthogonaler Ausrichtung
Basis-Auswahl: Verschiedene Basen verwenden verschiedene Datenteilmengen, was Ergebnisvergleiche beeinflussen kann
Bedeutende theoretische Beiträge: Hinterfragt das traditionelle Verständnis von Cross-Attention als residuale Ausrichtung und bietet eine neue Perspektive auf orthogonale Ausrichtung
Strenge Experimentelles Design: 300+ Experimentkonfigurationen, mehrere Basis-Modelle, statistische Signifikanzvalidierung
Tiefgreifende Mechanismus-Erklärung: Nicht nur Phänomen-Entdeckung, sondern auch vernünftige Erklärung durch Parametereffizienz
Hoher praktischer Wert: GCA-Modul ist einfach und effektiv, leicht in bestehende Architekturen integrierbar
Das Paper zitiert wichtige Arbeiten in den Bereichen Empfehlungssysteme, Multi-Modal-Lernen und Aufmerksamkeitsmechanismen, einschließlich:
Vaswani et al. (2017): Transformer-Architektur-Grundlagen
Radford et al. (2021): CLIP kontrastive Lernmethode
Alayrac et al. (2022): Flamingo Vision-Language-Modell
Mehrere CDSR-bezogene Arbeiten: MiNet, RecGURU, DASL, MAN usw.
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier mit hervorragenden Leistungen sowohl in theoretischen Beiträgen als auch in praktischem Wert. Durch die Entdeckung und Analyse des orthogonalen Ausrichtungsphänomens bietet es eine neue Verständnisperspektive für das Multi-Modal-Lernfeld und hat bedeutende akademische Wert und Anwendungspotenzial.