Recovering user preferences from user-item interaction matrices is a key challenge in recommender systems. While diffusion models can sample and reconstruct preferences from latent distributions, they often fail to capture similar users' collective preferences effectively. Additionally, latent variables degrade into pure Gaussian noise during the forward process, lowering the signal-to-noise ratio, which in turn degrades performance. To address this, we propose S-Diff, inspired by graph-based collaborative filtering, better to utilize low-frequency components in the graph spectral domain. S-Diff maps user interaction vectors into the spectral domain and parameterizes diffusion noise to align with graph frequency. This anisotropic diffusion retains significant low-frequency components, preserving a high signal-to-noise ratio. S-Diff further employs a conditional denoising network to encode user interactions, recovering true preferences from noisy data. This method achieves strong results across multiple datasets.
- पेपर ID: 2501.00384
- शीर्षक: S-Diff: An Anisotropic Diffusion Model for Collaborative Filtering in Spectral Domain
- लेखक: Rui Xia, Yanhua Cheng, Yongxiang Tang, Xiaocheng Liu, Xialong Liu, Lisong Wang, Peng Jiang
- वर्गीकरण: cs.IR (सूचना पुनः प्राप्ति)
- प्रकाशन सम्मेलन: WSDM '25 (अठारहवां ACM अंतर्राष्ट्रीय वेब खोज और डेटा माइनिंग सम्मेलन)
- पेपर लिंक: https://arxiv.org/abs/2501.00384
अनुशंसा प्रणालियों में उपयोगकर्ता-वस्तु इंटरैक्शन मैट्रिक्स से उपयोगकर्ता की प्राथमिकताओं को पुनः प्राप्त करना एक महत्वपूर्ण चुनौती है। यद्यपि विसरण मॉडल अव्यक्त वितरण से नमूने ले सकते हैं और प्राथमिकताओं का पुनर्निर्माण कर सकते हैं, वे अक्सर समान उपयोगकर्ताओं की सामूहिक प्राथमिकताओं को प्रभावी ढंग से कैप्चर करने में विफल रहते हैं। इसके अलावा, अग्रगामी प्रक्रिया में अव्यक्त चर शुद्ध गाऊसी शोर में विघटित हो जाते हैं, जिससे संकेत-से-शोर अनुपात कम हो जाता है और प्रदर्शन प्रभावित होता है। इन समस्याओं को हल करने के लिए, यह पेपर S-Diff प्रस्तावित करता है, जो ग्राफ-आधारित सहयोगी फ़िल्टरिंग से प्रेरित है, जो स्पेक्ट्रल डोमेन में निम्न-आवृत्ति घटकों का बेहतर उपयोग करता है। S-Diff उपयोगकर्ता इंटरैक्शन वेक्टर को स्पेक्ट्रल डोमेन में मैप करता है और विसरण शोर को ग्राफ आवृत्तियों के साथ संरेखित करने के लिए पैरामीटराइज़ करता है। यह अनिसोट्रोपिक विसरण महत्वपूर्ण निम्न-आवृत्ति घटकों को संरक्षित करता है और उच्च संकेत-से-शोर अनुपात बनाए रखता है। S-Diff आगे शोर डेटा से वास्तविक प्राथमिकताओं को पुनः प्राप्त करने के लिए उपयोगकर्ता इंटरैक्शन को एन्कोड करने वाले सशर्त डीनोइजिंग नेटवर्क को अपनाता है। यह विधि कई डेटासेट पर मजबूत परिणाम प्राप्त करती है।
अनुशंसा प्रणाली का मूल कार्य विरल उपयोगकर्ता-वस्तु इंटरैक्शन मैट्रिक्स से उपयोगकर्ता की वास्तविक प्राथमिकताओं को पुनः प्राप्त करना है, जो अनिवार्य रूप से एक व्युत्क्रम समस्या है। पारंपरिक सहयोगी फ़िल्टरिंग विधियां उपयोगकर्ताओं के बीच समानता का खनन करके इस समस्या को हल करती हैं।
- पारंपरिक विसरण मॉडल की कमियां:
- मुख्य रूप से व्यक्तिगत उपयोगकर्ता इंटरैक्शन वेक्टर पर सशर्त इनपुट के रूप में निर्भर करते हैं, सहयोगी फ़िल्टरिंग में उपयोगकर्ताओं के बीच साझा प्राथमिकता जानकारी का पूर्ण उपयोग नहीं करते हैं
- उच्च-आयामी ऐतिहासिक इंटरैक्शन वेक्टर में बड़ी मात्रा में गाऊसी शोर इंजेक्ट करते हैं, जिससे डीनोइजिंग डिकोडर की पुनः प्राप्ति प्रक्रिया जटिल हो जाती है
- एन्कोडिंग-डिकोडिंग असंगति:
- कुछ मॉडल डिकोडिंग नेटवर्क में स्पष्ट रूप से सहयोगी जानकारी को सशर्त मार्गदर्शन के रूप में उपयोग करते हैं, लेकिन अग्रगामी प्रक्रिया सहयोगी संकेत को प्रतिबिंबित नहीं करती है
- एन्कोडिंग और डिकोडिंग प्रक्रियाओं के बीच असंगति की ओर जाता है
- संकेत-से-शोर अनुपात में गिरावट की समस्या:
- अव्यक्त चर अग्रगामी प्रक्रिया में शुद्ध गाऊसी शोर में विघटित हो जाते हैं, संकेत-से-शोर अनुपात को कम करते हैं
- मॉडल के समग्र प्रदर्शन को प्रभावित करता है
ग्राफ-आधारित सहयोगी फ़िल्टरिंग और ग्राफ संकेत प्रसंस्करण की सफलता से प्रेरित होकर, लेखकों ने देखा कि ग्राफ कनवल्शन की "अत्यधिक स्मूथिंग" प्रक्रिया विसरण प्रक्रिया में संकेत स्मूथिंग के समान है। इस अंतर्दृष्टि के आधार पर, ग्राफ स्पेक्ट्रल डोमेन में अनिसोट्रोपिक विसरण करने का प्रस्ताव दिया गया है ताकि निम्न-आवृत्ति जानकारी (वैश्विक प्राथमिकताओं का प्रतिनिधित्व करने वाली) को बेहतर ढंग से संरक्षित किया जा सके।
- स्पेक्ट्रल डोमेन अग्रगामी विसरण प्रक्रिया प्रस्तावित करना: ग्राफ स्पेक्ट्रल डोमेन में परिभाषित अग्रगामी विसरण प्रक्रिया को प्रस्तुत करता है, जो उपयोगकर्ता की वैश्विक प्राथमिकता जानकारी को प्रभावी ढंग से एकीकृत करता है
- अनिसोट्रोपिक शोर पैरामीटराइजेशन विधि: विभिन्न आवृत्ति घटकों के शोर पैमाने को मॉड्यूलेट करने वाली पैरामीटराइजेशन विधि प्रस्तावित करता है, सैद्धांतिक विश्लेषण और प्रायोगिक परिणाम संकेत-से-शोर अनुपात के संदर्भ में इस सेटिंग के लाभ को साबित करते हैं
- तत्व-स्तरीय संलयन डीनोइजिंग मॉड्यूल: विपरीत प्रक्रिया में तत्व-स्तरीय संलयन-आधारित डीनोइजिंग मॉड्यूल डिज़ाइन करता है, व्यापक प्रयोग प्रस्तावित विधि की प्रभावशीलता को सत्यापित करते हैं
- सैद्धांतिक गारंटी: स्पेक्ट्रल डोमेन विसरण प्रक्रिया के बाउंडेडनेस गुणों का विश्लेषण प्रदान करता है, विधि की सैद्धांतिक वैधता को साबित करता है
उपयोगकर्ता सेट U और वस्तु सेट I दिए गए हैं, उपयोगकर्ता-वस्तु इंटरैक्शन मैट्रिक्स X ∈ {0,1}^{|U|×|I|}, जहां x_{u,i} = 1 इंगित करता है कि उपयोगकर्ता u के पास वस्तु i के साथ इंटरैक्शन है। लक्ष्य मूल्यांकन वेक्टर x̂ ∈ ℝ^{|I|} की भविष्यवाणी करना है, निर्दिष्ट उपयोगकर्ता के लिए सभी वस्तुओं के संभावित प्राथमिकता स्कोर उत्पन्न करते हैं।
- वस्तु समानता ग्राफ: सामान्यीकृत समानता आसन्न मैट्रिक्स A = X̃^TX̃ को परिभाषित करता है, जहां X̃ = D_U^{-1/2}X****D_I^{-1/2}
- लाप्लासियन ऑपरेटर: L = I - A
- विशेषता अपघटन: L = UΛU^T, जहां Λ में विशेषता मान हैं, U में विशेषता वेक्टर हैं
पारंपरिक विसरण प्रक्रिया: x_t = α_tx_0 + σ_tε_t
सुधारी गई ग्राफ-निर्देशित विसरण: x_t = C_tx_0 + σ_tε_t
जहां C_t = e^{-Lt} लाप्लासियन मैट्रिक्स द्वारा परिभाषित समय-क्षय ऑपरेटर है।
स्पेक्ट्रल रूपांतरण v_t = U^Tx_t के माध्यम से विसरण प्रक्रिया को स्पेक्ट्रल डोमेन में परिवर्तित करता है:
v_t = λ_t ⊙ v_0 + σtv{ε,t}
जहां:
- v_0 = U^Tx_0 x_0 की आवृत्ति प्रतिक्रिया है
- λ_t = e^{-t·d_1}, e^{-t·d_2}, ..., e^{-t·d_{|I|}} विशेषता मान वेक्टर है
- ⊙ तत्व-स्तरीय गुणन को दर्शाता है
विचरण-संरक्षण विसरण मॉडल को अपनाता है:
- α_t = λ_t
- σ_t^2 = 1 - λ_t^2
सीमा पैरामीटर नियंत्रण का परिचय:
- αt = (1 - α) · λt + α
- σ_t = Min(√(1 - λt^2), σ)
डीनोइजिंग के लिए तंत्रिका नेटवर्क φ_θ का उपयोग करता है, अनुकूलन उद्देश्य:
L_t = E_{(v_0,v_t)~q_0(v_0)q_t(v_t|v_0)}||φ_θ(v_t, U^Tc, t) - v_0||^2
- स्पेक्ट्रल डोमेन मैपिंग: पारंपरिक स्थानिक डोमेन विसरण को ग्राफ स्पेक्ट्रल डोमेन में परिवर्तित करता है, ग्राफ की आवृत्ति विशेषताओं का उपयोग करता है
- अनिसोट्रोपिक शोर: विभिन्न आवृत्ति घटकों के शोर स्तर को विशेषता मान के अनुसार मॉड्यूलेट करता है, निम्न-आवृत्ति जानकारी को संरक्षित करता है
- बाउंडेडनेस गुण: लाप्लासियन मैट्रिक्स विशेषता मानों की बाउंडेडनेस के कारण, संकेत-से-शोर अनुपात की निचली सीमा सुनिश्चित करता है
- FiLM संलयन: तत्व-स्तरीय सशर्त संलयन के लिए Feature-wise Linear Modulation का उपयोग करता है
तीन सार्वजनिक डेटासेट का उपयोग करता है:
- MovieLens-1M: 5,949 उपयोगकर्ता, 2,810 वस्तुएं, 571,531 इंटरैक्शन, विरलता 96.6%
- Yelp: 54,574 उपयोगकर्ता, 34,395 वस्तुएं, 1,402,736 इंटरैक्शन, विरलता 99.93%
- Amazon-Book: 108,822 उपयोगकर्ता, 94,949 वस्तुएं, 3,146,256 इंटरैक्शन, विरलता 99.97%
डेटा को 7:1:2 अनुपात में प्रशिक्षण, सत्यापन और परीक्षण सेट में विभाजित किया गया है।
- Recall@K: शीर्ष-K अनुशंसा सूची में प्रासंगिक वस्तुओं के अनुपात को मापता है
- NDCG@K: रैंकिंग-संवेदनशील मेट्रिक, उच्च स्थिति पर प्रासंगिक वस्तुओं को उच्च स्कोर देता है
पारंपरिक सहयोगी फ़िल्टरिंग विधियां, ग्राफ तंत्रिका नेटवर्क विधियां और विसरण मॉडल शामिल हैं:
- MF, LightGCN, CDAE, MultiDAE/MultiVAE
- CODIGEM, DiffRec (विसरण मॉडल)
- LinkProp, BSPM, Giff (ग्राफ संकेत प्रसंस्करण विधियां)
- बैच आकार: 100
- सीखने की दर: 1e-4
- अधिकतम प्रशिक्षण युग: 1,000
- विसरण चरण: T=5
- स्पेक्ट्रल अपघटन आयाम: 200-आयामी
सभी डेटासेट और मूल्यांकन मेट्रिक्स पर, S-Diff सभी तुलना विधियों से काफी बेहतर है:
Amazon-Book डेटासेट:
- Recall@10: 0.1155 (बनाम सर्वश्रेष्ठ baseline Giff: 0.1109)
- NDCG@10: 0.0746 (बनाम सर्वश्रेष्ठ baseline Giff: 0.0733)
Yelp डेटासेट:
- Recall@10: 0.0635 (बनाम सर्वश्रेष्ठ baseline Giff: 0.0639)
- NDCG@20: 0.0561 (बनाम सर्वश्रेष्ठ baseline Giff: 0.0520)
MovieLens-1M डेटासेट:
- Recall@10: 0.1277 (बनाम सर्वश्रेष्ठ baseline Giff: 0.1108)
- NDCG@10: 0.0970 (बनाम सर्वश्रेष्ठ baseline Giff: 0.0952)
विभिन्न शोर अनुसूची रणनीतियों की तुलना करता है:
- DDPM in Spectral: स्पेक्ट्रल डोमेन में पारंपरिक गाऊसी शोर
- S-Diff-VE: विचरण विस्फोट विसरण
- S-Diff-VP: विचरण-संरक्षण विसरण (यह विधि)
परिणाम दर्शाते हैं कि S-Diff-VP संकेत-से-शोर अनुपात और प्रदर्शन दोनों में सर्वोत्तम है।
FiLM परत को हटाने के बाद प्रदर्शन में काफी गिरावट, तत्व-स्तरीय संलयन की महत्ता को सत्यापित करता है।
सैद्धांतिक विश्लेषण और प्रयोग साबित करते हैं कि स्पेक्ट्रल डोमेन अनिसोट्रोपिक विसरण पारंपरिक विसरण मॉडल की तुलना में बेहतर संकेत-से-शोर अनुपात निचली सीमा है:
SNR(t) = α_t^2/σ_t^2 ≥ (e^{-2τ})^2/(1-(e^{-2τ})^2)
प्रयोग दर्शाते हैं कि 1000 चरणों के विसरण के बाद भी, S-Diff पहचानने योग्य संकेत-से-शोर अनुपात बनाए रखता है।
- स्पेक्ट्रल अपघटन आयाम K: K=200 पर सर्वश्रेष्ठ प्रदर्शन
- सीमा पैरामीटर: α_ ∈ 0, 0.1, σ_ ∈ 0.4, 0.5 पर सर्वश्रेष्ठ प्रभाव
- CODIGEM: सहयोगी फ़िल्टरिंग के लिए DDPM का पहला अनुप्रयोग
- DiffRec: अव्यक्त स्थान मैपिंग और समय-चरण मार्गदर्शन के माध्यम से विसरण मॉडल में सुधार
- CF-Diff: सशर्त जानकारी के रूप में बहु-हॉप पड़ोसी जानकारी की पूर्व-गणना
- Giff: संकेत स्मूथिंग और पुनः प्राप्ति के लिए ग्राफ प्रसार का उपयोग
- LightGCN: पड़ोसी जानकारी के बहु-परत रैखिक एकत्रीकरण
- Poly-CF: स्व-अनुकूली स्पेक्ट्रल ग्राफ फ़िल्टरिंग
- SGFCF: सहयोगी फ़िल्टरिंग को स्व-अनुकूली फ़िल्टर डिज़ाइन समस्या में परिवर्तित करता है
- S-Diff ग्राफ स्पेक्ट्रल सिद्धांत और विसरण मॉडल को सफलतापूर्वक जोड़ता है, स्पेक्ट्रल डोमेन में अनिसोट्रोपिक विसरण करता है
- निम्न-आवृत्ति घटकों को संरक्षित करके और उच्च संकेत-से-शोर अनुपात बनाए रखकर, अनुशंसा प्रदर्शन में काफी सुधार करता है
- विधि में अच्छी सैद्धांतिक नींव और प्रायोगिक सत्यापन है
- कम्प्यूटेशनल जटिलता: स्पेक्ट्रल अपघटन की आवश्यकता है, समय जटिलता O(K|I|m) है
- पैरामीटर ट्यूनिंग: सीमा पैरामीटर α_ और σ_ को सावधानीपूर्वक समायोजित करने की आवश्यकता है
- विस्तारशीलता: अति-बड़े पैमाने के डेटासेट पर प्रयोज्यता की पुष्टि की जानी बाकी है
- कम्प्यूटेशनल दक्षता अनुकूलन: अधिक कुशल स्पेक्ट्रल अपघटन और विसरण प्रक्रिया पर शोध
- स्व-अनुकूली पैरामीटर: शोर पैरामीटर को स्वचालित रूप से समायोजित करने की विधि विकसित करना
- बहु-मोडल विस्तार: विधि को बहु-मोडल अनुशंसा परिदृश्य तक विस्तारित करना
- सैद्धांतिक नवाचार: ग्राफ संकेत प्रसंस्करण और विसरण मॉडल को चतुराई से जोड़ता है, नया सैद्धांतिक दृष्टिकोण प्रदान करता है
- तकनीकी उन्नति: अनिसोट्रोपिक शोर अनुसूची और स्पेक्ट्रल डोमेन विसरण महत्वपूर्ण तकनीकी योगदान हैं
- व्यापक प्रयोग: कई डेटासेट पर व्यापक तुलना और विलोपन प्रयोग किए गए हैं
- उत्कृष्ट प्रदर्शन: सभी मूल्यांकन मेट्रिक्स पर सर्वश्रेष्ठ प्रदर्शन प्राप्त किया
- उच्च जटिलता: स्पेक्ट्रल अपघटन कम्प्यूटेशनल ओवरहेड बढ़ाता है, बड़े पैमाने के डेटा पर अनुप्रयोग को सीमित कर सकता है
- पैरामीटर संवेदनशीलता: विधि में कई हाइपरपैरामीटर शामिल हैं, सावधानीपूर्वक ट्यूनिंग की आवश्यकता है
- अपर्याप्त सैद्धांतिक विश्लेषण: अनिसोट्रोपिक विसरण अधिक प्रभावी क्यों है इसके लिए गहरे सैद्धांतिक व्याख्या की कमी है
- शैक्षणिक मूल्य: अनुशंसा प्रणालियों में विसरण मॉडल के अनुप्रयोग के लिए नई सोच प्रदान करता है
- व्यावहारिक मूल्य: विधि अच्छे प्रदर्शन सुधार प्रदान करती है, व्यावहारिक अनुप्रयोग क्षमता है
- पुनरुत्पादनीयता: पेपर विस्तृत कार्यान्वयन विवरण और एल्गोरिदम विवरण प्रदान करता है
- मध्यम पैमाने की अनुशंसा प्रणालियां
- अनुशंसा गुणवत्ता के लिए उच्च आवश्यकताओं वाले परिदृश्य
- स्पष्ट सहयोगी फ़िल्टरिंग विशेषताओं वाले डेटासेट
- अपेक्षाकृत पर्याप्त कम्प्यूटेशनल संसाधन वाले वातावरण
पेपर 52 संबंधित संदर्भों का हवाला देता है, जो विसरण मॉडल, सहयोगी फ़िल्टरिंग, ग्राफ तंत्रिका नेटवर्क और अन्य कई क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करता है, इस अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है।
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है, जो सैद्धांतिक नवाचार और प्रायोगिक सत्यापन दोनों में उत्कृष्ट प्रदर्शन करता है। ग्राफ स्पेक्ट्रल सिद्धांत और विसरण मॉडल का संयोजन एक मूल्यवान योगदान है, अनुशंसा प्रणाली क्षेत्र के लिए नई अनुसंधान दिशा प्रदान करता है। कुछ सीमाओं के बावजूद, यह समग्र रूप से ध्यान देने योग्य कार्य है।