2025-11-24T08:31:18.188109

Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models

Lee, Zhang, Nguyen et al.
Cross-domain sequential recommendation (CDSR) aims to align heterogeneous user behavior sequences collected from different domains. While cross-attention is widely used to enhance alignment and improve recommendation performance, its underlying mechanism is not fully understood. Most researchers interpret cross-attention as residual alignment, where the output is generated by removing redundant and preserving non-redundant information from the query input by referencing another domain data which is input key and value. Beyond the prevailing view, we introduce Orthogonal Alignment, a phenomenon in which cross-attention discovers novel information that is not present in the query input, and further argue that those two contrasting alignment mechanisms can co-exist in recommendation models We find that when the query input and output of cross-attention are orthogonal, model performance improves over 300 experiments. Notably, Orthogonal Alignment emerges naturally, without any explicit orthogonality constraints. Our key insight is that Orthogonal Alignment emerges naturally because it improves scaling law. We show that baselines additionally incorporating cross-attention module outperform parameter-matched baselines, achieving a superior accuracy-per-model parameter. We hope these findings offer new directions for parameter-efficient scaling in multi-modal research.
academic

क्रॉस-अटेंशन सिक्रेटली रिकमेंडेशन मॉडल्स में ऑर्थोगोनल एलाइनमेंट परफॉर्म करता है

मूल जानकारी

  • पेपर आईडी: 2510.09435
  • शीर्षक: क्रॉस-अटेंशन सिक्रेटली रिकमेंडेशन मॉडल्स में ऑर्थोगोनल एलाइनमेंट परफॉर्म करता है
  • लेखक: Hyunin Lee, Yong Zhang, Hoang Vu Nguyen, Xiaoyi Liu, Namyong Park, Christopher Jung, Rong Jin, Yang Wang, Zhigang Wang, Somayeh Sojoudi, Xue Feng
  • संस्थान: Meta, UC Berkeley
  • वर्गीकरण: cs.LG cs.IR
  • प्रकाशन तिथि: 13 अक्टूबर, 2025
  • पेपर लिंक: https://arxiv.org/abs/2510.09435

सारांश

क्रॉस-डोमेन सीक्वेंस रिकमेंडेशन (CDSR) का उद्देश्य विभिन्न डोमेन से आने वाले विषमांगी उपयोगकर्ता व्यवहार अनुक्रमों को संरेखित करना है। हालांकि क्रॉस-अटेंशन तंत्र को संरेखण को बढ़ाने और रिकमेंडेशन प्रदर्शन में सुधार के लिए व्यापक रूप से उपयोग किया जाता है, लेकिन इसके आंतरिक तंत्र को पूरी तरह से समझा नहीं गया है। अधिकांश शोधकर्ता क्रॉस-अटेंशन की व्याख्या अवशिष्ट संरेखण (residual alignment) के रूप में करते हैं, अर्थात् दूसरे डोमेन के डेटा को संदर्भ के रूप में उपयोग करके (key और value के रूप में) अनावश्यक जानकारी को हटाना और गैर-अनावश्यक जानकारी को संरक्षित करना। यह पेपर इस मुख्यधारा के दृष्टिकोण से परे जाता है और ऑर्थोगोनल संरेखण (Orthogonal Alignment) घटना को प्रस्तुत करता है, अर्थात् क्रॉस-अटेंशन क्वेरी इनपुट में मौजूद नई जानकारी खोजता है, और तर्क देता है कि ये दोनों विपरीत संरेखण तंत्र रिकमेंडेशन मॉडल में सह-अस्तित्व में हो सकते हैं। 300 से अधिक प्रयोगों के माध्यम से पाया गया कि जब क्रॉस-अटेंशन के क्वेरी इनपुट और आउटपुट ऑर्थोगोनल होते हैं, तो मॉडल प्रदर्शन में सुधार होता है। उल्लेखनीय रूप से, ऑर्थोगोनल संरेखण स्वाभाविक रूप से प्रकट होता है, किसी भी स्पष्ट ऑर्थोगोनलिटी बाधा के बिना। मुख्य अंतर्दृष्टि यह है कि ऑर्थोगोनल संरेखण स्वाभाविक रूप से प्रकट होता है क्योंकि यह स्केलिंग कानून में सुधार करता है, जिससे मॉडल बेहतर सटीकता-पैरामीटर अनुपात प्राप्त कर सकता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

आधुनिक AI प्रणालियों का मुख्य चुनौती यह है कि कैसे कई प्लेटफॉर्म (जैसे Facebook, Instagram, Amazon) से आने वाले विषमांगी उपयोगकर्ता व्यवहार अनुक्रमों को प्रभावी ढंग से मिश्रित किया जाए। उपयोगकर्ता विभिन्न डोमेन में छोड़े गए इंटरैक्शन ट्रैक पूरक हैं, लेकिन सरल सिग्नल संयोजन अक्सर डोमेन के बीच जानकारी के शोर, अनावश्यकता या संघर्ष के कारण प्रदर्शन में गिरावट का कारण बनता है।

अनुसंधान प्रेरणा

  1. सैद्धांतिक समझ की कमी: हालांकि क्रॉस-अटेंशन क्रॉस-डोमेन सीक्वेंस रिकमेंडेशन में व्यापक रूप से लागू होता है, लेकिन इसके आंतरिक कार्य तंत्र की गहन समझ की कमी है
  2. मुख्यधारा के दृष्टिकोण की सीमा: वर्तमान अनुसंधान मुख्य रूप से क्रॉस-अटेंशन को अवशिष्ट संरेखण तंत्र के रूप में देखता है, अर्थात् शोर और अनावश्यकता को दबाकर केवल गैर-अनावश्यक जानकारी को सुनिश्चित करना
  3. पैरामीटर दक्षता की आवश्यकता: मॉडल आकार के साथ, अधिक कुशल पैरामीटर उपयोग रणनीति की आवश्यकता है

मौजूदा विधियों की सीमाएं

  • पारंपरिक विधियां क्रॉस-अटेंशन को शोर निवारण और प्रासंगिकता फ़िल्टर के रूप में समझती हैं
  • कठोर अवशिष्ट संरेखण क्रॉस-मोडल साझा किए गए अनावश्यक घटकों को सीखने को सीमित कर सकता है, अद्वितीय या सहक्रियात्मक मोडल-विशिष्ट जानकारी को अनदेखा कर सकता है
  • क्रॉस-अटेंशन कैसे पूरक जानकारी निकालता है, इसके तंत्र की समझ की कमी है

मुख्य योगदान

  1. ऑर्थोगोनल संरेखण घटना की खोज: पहली बार क्रॉस-अटेंशन में ऑर्थोगोनल संरेखण तंत्र की पहचान और परिभाषा, अर्थात् इनपुट क्वेरी X और आउटपुट X' ऑर्थोगोनल होने की ओर प्रवृत्त होते हैं
  2. प्रदर्शन-ऑर्थोगोनलिटी संबंध स्थापना: 300+ प्रयोगों के माध्यम से ऑर्थोगोनल डिग्री और रिकमेंडेशन प्रदर्शन के बीच नकारात्मक संबंध साबित करना
  3. पैरामीटर दक्षता व्याख्या प्रस्ताव: साबित करना कि ऑर्थोगोनल संरेखण का स्वाभाविक प्रकटीकरण पैरामीटर-कुशल मॉडल स्केलिंग रणनीति प्रदान करता है
  4. गेटेड क्रॉस-अटेंशन मॉड्यूल डिजाइन: GCA (Gated Cross-Attention) मॉड्यूल प्रस्तावित करना, जो स्वाभाविक रूप से ऑर्थोगोनल संरेखण को प्रेरित कर सकता है
  5. क्रॉस-मॉडल सत्यापन: तीन CDSR बेसलाइन एल्गोरिदम और चार मल्टी-डोमेन डेटासेट संयोजनों पर खोजों की सार्वभौमिकता को सत्यापित करना

विधि विवरण

कार्य परिभाषा

क्रॉस-डोमेन सीक्वेंस रिकमेंडेशन कार्य को इस प्रकार परिभाषित किया गया है: डोमेन A और डोमेन B में उपयोगकर्ता के इंटरैक्शन अनुक्रम XARB×lA×dX_A \in \mathbb{R}^{B \times l_A \times d} और XBRB×lB×dX_B \in \mathbb{R}^{B \times l_B \times d} दिए गए हैं, लक्ष्य डोमेन में उपयोगकर्ता के अगले इंटरैक्शन आइटम की भविष्यवाणी करें।

गेटेड क्रॉस-अटेंशन (GCA) मॉड्यूल

मुख्य आर्किटेक्चर

GCA मॉड्यूल की गणितीय अभिव्यक्ति है:

GCA(X_A, X_B) = LayerNorm(X_A + FFN([X_A; X_B]) ⊙ X'_A)

जहां:

  • XA=CA(XA,XB)X'_A = CA(X_A, X_B) क्रॉस-अटेंशन आउटपुट है
  • FFN([XA;XB])FFN([X_A; X_B]) संयोजित प्रतिनिधित्व पर कार्य करने वाला फीडफॉरवर्ड नेटवर्क है, जो गेट मान उत्पन्न करता है
  • Hadamard उत्पाद (तत्व-वार गुणन) को दर्शाता है

डिजाइन विशेषताएं

  1. सीखने योग्य गेटिंग: निश्चित गेटिंग संरचना के विपरीत, गेटिंग मॉड्यूल संयोजित इनपुट अनुक्रम के आधार पर वेक्टर मान गेटिंग आउटपुट सीखता है
  2. चयनात्मक जानकारी प्रसार: गेट मान नियंत्रित करता है कि क्रॉस-अटेंशन प्रतिनिधित्व XAX'_A मूल प्रतिनिधित्व XAX_A में कितना मिश्रित होता है
  3. लचीले सक्रियण कार्य: sigmoid या tanh सक्रियण कार्यों का समर्थन करता है

ऑर्थोगोनल संरेखण तंत्र

घटना परिभाषा

ऑर्थोगोनल संरेखण प्रतिनिधित्व संरेखण तंत्र को संदर्भित करता है, जहां क्रॉस-अटेंशन के इनपुट क्वेरी (X) और आउटपुट (X') ऑर्थोगोनल होते हैं, बजाय X की मौजूदा पूर्व-संरेखित विशेषताओं को सरलता से मजबूत करने के।

माप विधि

बैच और स्थिति औसत कोसाइन समानता का उपयोग करके ऑर्थोगोनल डिग्री को मापें:

|cos(X, X')| = (1/(B·l)) ∑_{b,i∈[B]×[l]} cos(X⃗_{bi}, X⃗'_{bi})

मुख्य निष्कर्ष

  • ऑर्थोगोनल संरेखण स्वाभाविक रूप से प्रकट होता है, स्पष्ट ऑर्थोगोनलिटी नियमितकरण की आवश्यकता नहीं है
  • |cos(X, X')| और रिकमेंडेशन प्रदर्शन के बीच नकारात्मक संबंध है
  • ऑर्थोगोनल डिग्री विभिन्न मॉडलों में स्थिर रहता है (माध्यिका ≈ 0.1-0.2)

प्रयोग सेटअप

डेटासेट

Amazon Reviews सार्वजनिक डेटासेट का उपयोग करें, जिसमें विभिन्न उत्पाद प्रकार डोमेन शामिल हैं:

  • कपड़े-खेल
  • इलेक्ट्रॉनिक्स-फोन
  • सौंदर्य-इलेक्ट्रॉनिक्स
  • खाद्य-रसोई

बेसलाइन मॉडल

तीन हाल के CDSR एल्गोरिदम चुनें:

  1. CDSRNP: सशर्त तंत्रिका प्रक्रिया पर आधारित क्रॉस-डोमेन रिकमेंडेशन
  2. ABXI: कार्य-उन्मुख क्रॉस-डोमेन सीक्वेंस रिकमेंडेशन
  3. LLM4CDSR: बड़े भाषा मॉडल पर आधारित क्रॉस-डोमेन रिकमेंडेशन

मूल्यांकन मेट्रिक्स

  • NDCG@1, NDCG@10: रैंकिंग गुणवत्ता
  • AUC: विभेदन क्षमता
  • HR@5, HR@10, HR@20: हिट दर

प्रयोग कॉन्फ़िगरेशन

  • GCA मॉड्यूल सम्मिलन स्थान: GCA0 (प्रारंभिक), GCA1 (मध्य) आदि
  • सक्रियण कार्य: sigmoid, tanh
  • ध्यान सिर संख्या: 4, 8
  • प्रत्येक कॉन्फ़िगरेशन 5 यादृच्छिक बीज के साथ चलाया गया

प्रयोग परिणाम

मुख्य परिणाम

प्रदर्शन सुधार सामंजस्य

सभी तीन बेसलाइन मॉडलों पर, प्रारंभिक GCA मॉड्यूल (GCAearly) ने सुसंगत प्रदर्शन सुधार लाया:

Cloth-Sport डेटासेट पर LLM4CDSR:

  • NDCG@1A: 0.716 → 0.728 (+1.2%)
  • NDCG@10A: 0.782 → 0.805 (+2.3%)
  • AUCA: +1.5%

Food-Kitchen डेटासेट पर ABXI:

  • NDCG@1A: 0.059 → 0.072 (+22%)
  • NDCG@10A: 0.154 → 0.176 (+14%)

ऑर्थोगोनल संरेखण-प्रदर्शन संबंध

मुख्य निष्कर्ष: |cos(X, X')| और NDCG@10 के बीच महत्वपूर्ण नकारात्मक संबंध:

  • LLM4CDSR डोमेन B: r = -0.452
  • ABXI डोमेन A: r = -0.328, डोमेन B: r = -0.340
  • CDSRNP डोमेन B: r = -0.296

पैरामीटर दक्षता सत्यापन

GCA-संवर्धित मॉडल की तुलना पैरामीटर-मिलान बेसलाइन मॉडल से करें:

  • सभी 5 परीक्षण मामलों में, बेसलाइन+GCAearly पैरामीटर-मिलान बेसलाइन से बेहतर है
  • LLM4CDSR सबसे मजबूत पैरामीटर दक्षता प्रदर्शित करता है, जो पूर्व-प्रशिक्षित LLM एम्बेडिंग के निश्चित आयाम सीमा के कारण है

स्टैकिंग प्रभाव विश्लेषण

कई GCA मॉड्यूल को लंबवत रूप से स्टैक करना हमेशा एकल वृद्धि नहीं लाता है:

  • CDSRNP: 0,1 से गहरे स्टैकिंग तक कोई और सुधार नहीं
  • ABXI: चयनात्मक प्लेसमेंट 1,2 सर्वोत्तम है
  • LLM4CDSR: एकल 1 स्थान स्टैकिंग कॉन्फ़िगरेशन 0,1 से बेहतर है

ऑर्थोगोनलाइजेशन स्वतंत्रता

GCA द्वारा प्रेरित ऑर्थोगोनलाइजेशन X और Y की समानता से स्वतंत्र है:

  • |cos(X, X')| विभिन्न मॉडलों में स्थिर रहता है (0.1-0.2 रेंज)
  • |cos(X, Y)| डेटासेट के आधार पर भिन्न होता है (0.020-0.397)
  • साबित करता है कि GCA आंतरिक रूप से नियंत्रित डिग्री का ऑर्थोगोनलाइजेशन प्रेरित करता है

संबंधित कार्य

मल्टीमोडल संरेखण

  • कंट्रास्टिव लर्निंग विधियां: CLIP, ALIGN आदि छवि-पाठ संरेखण को कंट्रास्टिव उद्देश्य के माध्यम से प्राप्त करते हैं
  • क्रॉस-अटेंशन तंत्र: पाठ-से-छवि प्रसार मॉडल में शोर निवारण और प्रासंगिकता फ़िल्टर के रूप में
  • मोडल अंतराल समस्या: छवि और पाठ एम्बेडिंग के असंयुक्त क्षेत्र में रहने की घटना

क्रॉस-डोमेन सीक्वेंस रिकमेंडेशन

  • प्रारंभिक विधियां: MiNet मिश्रित रुचि नेटवर्क, RecGURU प्रतिकूल शिक्षा
  • Transformer आर्किटेक्चर: DASL दोहरी ध्यान, MAN मिश्रित ध्यान नेटवर्क
  • मेटा-लर्निंग विधियां: CDSRNP तंत्रिका प्रक्रिया, Tri-CDR त्रिपक्षीय सीक्वेंस शिक्षा
  • LLM एकीकरण: LLM4CDSR, ABXI आदि नवीनतम प्रगति

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. ऑर्थोगोनल संरेखण की सार्वभौमिकता: क्रॉस-डोमेन रिकमेंडेशन में, क्रॉस-अटेंशन स्वाभाविक रूप से ऑर्थोगोनल संरेखण घटना उत्पन्न करता है
  2. प्रदर्शन सुधार तंत्र: ऑर्थोगोनल डिग्री और रिकमेंडेशन प्रदर्शन के बीच नकारात्मक संबंध, प्रदर्शन अनुकूलन के लिए नया दृष्टिकोण प्रदान करता है
  3. पैरामीटर दक्षता लाभ: ऑर्थोगोनल संरेखण ऑर्थोगोनल सबस्पेस की खोज के माध्यम से पैरामीटर-कुशल स्केलिंग प्राप्त करता है
  4. आर्किटेक्चर डिजाइन मार्गदर्शन: प्रारंभिक GCA प्लेसमेंट सबसे प्रभावी है, गहरी स्टैकिंग को सावधानीपूर्वक लागू करने की आवश्यकता है

सीमाएं

  1. डेटासेट रेंज: प्रयोग मुख्य रूप से Amazon रिकमेंडेशन डेटा पर आधारित हैं, सामान्यीकरण क्षमता को आगे सत्यापन की आवश्यकता है
  2. विजुअल-भाषा मॉडल प्रयोज्यता: पूर्व-प्रशिक्षित एनकोडर की कंट्रास्टिव लर्निंग विशेषताओं के कारण, VLM में ऑर्थोगोनल संरेखण का अवलोकन अधिक चुनौतीपूर्ण हो सकता है
  3. तंत्र व्याख्या: पैरामीटर दक्षता ऑर्थोगोनल संरेखण के प्रकटीकरण की एकमात्र व्याख्या नहीं हो सकती है
  4. बेसलाइन चयन: विभिन्न बेसलाइन विभिन्न डेटा सबसेट का उपयोग करते हैं, जो परिणाम तुलना को प्रभावित कर सकता है

भविष्य की दिशाएं

  1. आर्किटेक्चर अन्वेषण: GCA से परे अधिक प्रभावी ऑर्थोगोनल संरेखण तंत्र विकसित करना
  2. सैद्धांतिक विश्लेषण: ऑर्थोगोनल संरेखण के गणितीय सिद्धांत और अभिसरण गुणों को गहराई से समझना
  3. क्रॉस-डोमेन सत्यापन: विजुअल-भाषा मॉडल आदि अन्य मल्टीमोडल कार्यों में खोजों को सत्यापित करना
  4. मेट्रिक विकास: ऑर्थोगोनल संरेखण के अधिक सूक्ष्म माप विधियां डिजाइन करना

गहन मूल्यांकन

शक्तियां

  1. सैद्धांतिक योगदान महत्वपूर्ण: क्रॉस-अटेंशन को अवशिष्ट संरेखण के रूप में पारंपरिक समझ को चुनौती देता है, ऑर्थोगोनल संरेखण का नया दृष्टिकोण प्रस्तुत करता है
  2. प्रयोग डिजाइन कठोर: 300+ प्रयोग कॉन्फ़िगरेशन, कई बेसलाइन मॉडल, सांख्यिकीय महत्व सत्यापन
  3. तंत्र व्याख्या गहन: केवल घटना की खोज नहीं, बल्कि पैरामीटर दक्षता की उचित व्याख्या भी प्रदान करता है
  4. व्यावहारिक मूल्य उच्च: GCA मॉड्यूल सरल और प्रभावी है, मौजूदा आर्किटेक्चर में एकीकृत करने में आसान है
  5. लेखन स्पष्ट: अवधारणा परिभाषा स्पष्ट है, प्रयोग परिणाम पर्याप्त रूप से प्रदर्शित हैं

कमियां

  1. डेटासेट विविधता: मुख्य रूप से ई-कॉमर्स रिकमेंडेशन डेटा पर आधारित, अन्य क्षेत्रों में प्रयोज्यता पूरी तरह से सत्यापित नहीं है
  2. सैद्धांतिक आधार: ऑर्थोगोनल संरेखण घटना की कठोर गणितीय सैद्धांतिक विश्लेषण की कमी है
  3. कम्प्यूटेशनल ओवरहेड: GCA मॉड्यूल की कम्प्यूटेशनल जटिलता और अनुमान दक्षता का विस्तृत विश्लेषण नहीं है
  4. हाइपरपैरामीटर संवेदनशीलता: गेटिंग फ़ंक्शन चयन, ध्यान सिर संख्या आदि हाइपरपैरामीटर के प्रति संवेदनशीलता विश्लेषण अपर्याप्त है
  5. दीर्घकालीन प्रभाव: लंबे अनुक्रम या बड़े पैमाने पर तैनाती में ऑर्थोगोनल संरेखण की स्थिरता का मूल्यांकन नहीं किया गया है

प्रभाव

  1. शैक्षणिक मूल्य: मल्टीमोडल लर्निंग और रिकमेंडेशन सिस्टम के लिए नया सैद्धांतिक दृष्टिकोण प्रदान करता है
  2. व्यावहारिक मार्गदर्शन: क्रॉस-डोमेन रिकमेंडेशन सिस्टम डिजाइन के लिए विशिष्ट आर्किटेक्चर सुधार योजना प्रदान करता है
  3. पद्धति योगदान: ऑर्थोगोनल संरेखण माप विधि अन्य मल्टीमोडल कार्यों के विश्लेषण में उपयोग की जा सकती है
  4. अनुसंधान प्रेरणा: ऑर्थोगोनलिटी के दृष्टिकोण से ध्यान तंत्र को समझने के नए अनुसंधान दिशा खोलता है

प्रयोज्य परिदृश्य

  1. क्रॉस-डोमेन रिकमेंडेशन: ई-कॉमर्स, सोशल मीडिया, सामग्री प्लेटफॉर्म के मल्टी-डोमेन रिकमेंडेशन परिदृश्य
  2. मल्टीमोडल लर्निंग: विषमांगी डेटा स्रोतों को मिश्रित करने की आवश्यकता वाले मशीन लर्निंग कार्य
  3. पैरामीटर दक्षता अनुकूलन: संसाधन-सीमित वातावरण में मॉडल स्केलिंग आवश्यकता
  4. ध्यान तंत्र अनुसंधान: Transformer आर्किटेक्चर को गहराई से समझने के अनुसंधान कार्य

संदर्भ

पेपर ने रिकमेंडेशन सिस्टम, मल्टीमोडल लर्निंग और ध्यान तंत्र आदि क्षेत्रों के महत्वपूर्ण कार्यों का उद्धृत किया है, जिसमें शामिल हैं:

  • Vaswani et al. (2017): Transformer आर्किटेक्चर आधार
  • Radford et al. (2021): CLIP कंट्रास्टिव लर्निंग विधि
  • Alayrac et al. (2022): Flamingo विजुअल-भाषा मॉडल
  • कई CDSR संबंधित कार्य: MiNet, RecGURU, DASL, MAN आदि

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है, जो सैद्धांतिक योगदान और व्यावहारिक मूल्य दोनों पहलुओं में उत्कृष्ट प्रदर्शन करता है। ऑर्थोगोनल संरेखण घटना की खोज और विश्लेषण के माध्यम से, यह मल्टीमोडल लर्निंग क्षेत्र के लिए समझ का नया दृष्टिकोण प्रदान करता है, जिसमें महत्वपूर्ण शैक्षणिक मूल्य और अनुप्रयोग संभावनाएं हैं।