Recovering user preferences from user-item interaction matrices is a key challenge in recommender systems. While diffusion models can sample and reconstruct preferences from latent distributions, they often fail to capture similar users' collective preferences effectively. Additionally, latent variables degrade into pure Gaussian noise during the forward process, lowering the signal-to-noise ratio, which in turn degrades performance. To address this, we propose S-Diff, inspired by graph-based collaborative filtering, better to utilize low-frequency components in the graph spectral domain. S-Diff maps user interaction vectors into the spectral domain and parameterizes diffusion noise to align with graph frequency. This anisotropic diffusion retains significant low-frequency components, preserving a high signal-to-noise ratio. S-Diff further employs a conditional denoising network to encode user interactions, recovering true preferences from noisy data. This method achieves strong results across multiple datasets.
- معرّف الورقة: 2501.00384
- العنوان: S-Diff: An Anisotropic Diffusion Model for Collaborative Filtering in Spectral Domain
- المؤلفون: Rui Xia, Yanhua Cheng, Yongxiang Tang, Xiaocheng Liu, Xialong Liu, Lisong Wang, Peng Jiang
- التصنيف: cs.IR (استرجاع المعلومات)
- المؤتمر: WSDM '25 (المؤتمر الدولي الثامن عشر لـ ACM حول البحث على الويب والتنقيب عن البيانات)
- رابط الورقة: https://arxiv.org/abs/2501.00384
يعتبر استرجاع تفضيلات المستخدمين من مصفوفة التفاعلات بين المستخدمين والعناصر في أنظمة التوصية تحديًا أساسيًا. بينما يمكن لنماذج الانتشار أن تأخذ عينات وتعيد بناء التفضيلات من التوزيعات الكامنة، فإنها غالبًا ما تفشل في التقاط التفضيلات الجماعية للمستخدمين المتشابهين بشكل فعال. علاوة على ذلك، تتدهور المتغيرات الكامنة إلى ضوضاء غاوسية نقية في العملية الأمامية، مما يقلل من نسبة الإشارة إلى الضوضاء ويؤثر على الأداء. لمعالجة هذه المشاكل، نقترح S-Diff، المستوحاة من التصفية التعاونية القائمة على الرسوم البيانية، والتي تستفيد بشكل أفضل من المكونات منخفضة التردد في المجال الطيفي. يقوم S-Diff بتعيين متجهات التفاعل بين المستخدمين إلى المجال الطيفي وتحديد معاملات ضوضاء الانتشار لمحاذاة تردد الرسم البياني. يحافظ هذا الانتشار متباين الخواص على المكونات المهمة منخفضة التردد ويحافظ على نسبة إشارة إلى ضوضاء عالية. يعتمد S-Diff بشكل إضافي على شبكة إزالة ضوضاء مشروطة لترميز تفاعلات المستخدم واستعادة التفضيلات الحقيقية من البيانات الضوضائية. حققت الطريقة نتائج قوية على عدة مجموعات بيانات.
تتمثل المهمة الأساسية لأنظمة التوصية في استرجاع التفضيلات الحقيقية للمستخدمين من مصفوفة التفاعلات النادرة بين المستخدمين والعناصر، وهي في الأساس مشكلة عكسية. تعالج طرق التصفية التعاونية التقليدية هذه المشكلة من خلال استخراج التشابه بين المستخدمين.
- قصور نماذج الانتشار التقليدية:
- تعتمد بشكل أساسي على متجهات التفاعل الفردية للمستخدمين كمدخلات مشروطة، وتفشل في الاستفادة الكاملة من معلومات التفضيلات المشتركة بين المستخدمين في التصفية التعاونية
- تحقن كميات كبيرة من الضوضاء الغاوسية في متجهات التفاعل التاريخية عالية الأبعاد، مما يجعل عملية الاستعادة لفك التشفير معقدة
- عدم الاتساق بين الترميز وفك التشفير:
- تستخدم بعض النماذج معلومات التعاون بشكل صريح كتوجيه مشروط في شبكة فك التشفير، لكن العملية الأمامية لا تعكس إشارات التعاون
- يؤدي هذا إلى عدم اتساق بين عمليات الترميز وفك التشفير
- مشكلة تدهور نسبة الإشارة إلى الضوضاء:
- تتدهور المتغيرات الكامنة إلى ضوضاء غاوسية نقية في العملية الأمامية
- يؤثر على الأداء الكلية للنموذج
مستوحاة من نجاح التصفية التعاونية القائمة على الرسوم البيانية ومعالجة إشارات الرسم البياني، لاحظ المؤلفون أن عملية "الإفراط في التمويه" في الالتفاف الرسومي تشبه تمويه الإشارة في عملية الانتشار. بناءً على هذه الرؤية، يقترحون إجراء انتشار متباين الخواص في المجال الطيفي للرسم البياني للحفاظ بشكل أفضل على معلومات التردد المنخفض (التي تمثل التفضيلات العامة).
- اقتراح عملية انتشار أمامية في المجال الطيفي: إدخال عملية انتشار أمامية معرّفة في المجال الطيفي للرسم البياني، والتي تدمج بشكل فعال معلومات التفضيلات العامة للمستخدمين
- طريقة تحديد معاملات الضوضاء متباينة الخواص: اقتراح طريقة لتحديد معاملات تعديل مقياس الضوضاء لمكونات التردد المختلفة، حيث تثبت النتائج النظرية والتجريبية مزايا هذا الإعداد من حيث نسبة الإشارة إلى الضوضاء
- وحدة إزالة ضوضاء بالدمج على مستوى العناصر: تصميم وحدة إزالة ضوضاء قائمة على الدمج على مستوى العناصر في العملية العكسية، مع التحقق التجريبي الواسع لفعالية الطريقة المقترحة
- ضمانات نظرية: توفير تحليل الخصائص المحدودة لعملية الانتشار في المجال الطيفي، مما يثبت المعقولية النظرية للطريقة
بالنظر إلى مجموعة المستخدمين U ومجموعة العناصر I، مصفوفة التفاعلات بين المستخدمين والعناصر X ∈ {0,1}^{|U|×|I|}، حيث x_{u,i} = 1 يشير إلى وجود تفاعل بين المستخدم u والعنصر i. الهدف هو التنبؤ بمتجه التقييم x̂ ∈ ℝ^{|I|}، وتوليد درجات التفضيل الكامنة لجميع العناصر لمستخدم محدد.
- رسم البياني لتشابه العناصر: تعريف مصفوفة المجاورة المتشابهة المعايرة A = X̃^TX̃، حيث X̃ = D_U^{-1/2}X****D_I^{-1/2}
- مؤثر لابلاسيان: L = I - A
- التحليل الذاتي: L = UΛU^T، حيث Λ يحتوي على القيم الذاتية و U يحتوي على المتجهات الذاتية
عملية الانتشار التقليدية: x_t = α_tx_0 + σ_tε_t
الانتشار الموجه بالرسم البياني المحسّن: x_t = C_tx_0 + σ_tε_t
حيث C_t = e^{-Lt} هو مؤثر التحلل الزمني المعرّف بواسطة مصفوفة لابلاسيان.
من خلال التحويل الطيفي v_t = U^Tx_t، يتم تحويل عملية الانتشار إلى المجال الطيفي:
v_t = λ_t ⊙ v_0 + σtv{ε,t}
حيث:
- v_0 = U^Tx_0 هو الاستجابة الترددية لـ x_0
- λ_t = e^{-t·d_1}, e^{-t·d_2}, ..., e^{-t·d_{|I|}} هو متجه القيم الذاتية
- ⊙ يشير إلى الضرب على مستوى العناصر
اعتماد نموذج الانتشار الذي يحافظ على التباين:
- α_t = λ_t
- σ_t^2 = 1 - λ_t^2
إدخال التحكم بمعاملات الحدود:
- αt = (1 - α) · λt + α
- σ_t = Min(√(1 - λt^2), σ)
استخدام شبكة عصبية φ_θ لإزالة الضوضاء، مع هدف التحسين:
L_t = E_{(v_0,v_t)~q_0(v_0)q_t(v_t|v_0)}||φ_θ(v_t, U^Tc, t) - v_0||^2
- التعيين في المجال الطيفي: تحويل الانتشار التقليدي في المجال المكاني إلى المجال الطيفي للرسم البياني، والاستفادة من الخصائص الطيفية للرسم البياني
- الضوضاء متباينة الخواص: تعديل مستوى الضوضاء لمكونات التردد المختلفة وفقًا للقيم الذاتية، مع الحفاظ على معلومات التردد المنخفض
- الخصائص المحدودة: نظرًا لأن قيم مصفوفة لابلاسيان الذاتية محدودة، يتم ضمان حد أدنى لنسبة الإشارة إلى الضوضاء
- دمج FiLM: استخدام Feature-wise Linear Modulation للدمج المشروط على مستوى العناصر
استخدام ثلاث مجموعات بيانات عامة:
- MovieLens-1M: 5,949 مستخدم، 2,810 عنصر، 571,531 تفاعل، ندرة 96.6%
- Yelp: 54,574 مستخدم، 34,395 عنصر، 1,402,736 تفاعل، ندرة 99.93%
- Amazon-Book: 108,822 مستخدم، 94,949 عنصر، 3,146,256 تفاعل، ندرة 99.97%
تم تقسيم البيانات بنسبة 7:1:2 إلى مجموعات التدريب والتحقق والاختبار.
- Recall@K: قياس نسبة العناصر ذات الصلة في قائمة التوصيات الأفضل K
- NDCG@K: مقياس حساس للترتيب، يعطي درجات أعلى للعناصر ذات الصلة في المواضع الأعلى
تشمل طرق التصفية التعاونية التقليدية وطرق الشبكات العصبية الرسومية ونماذج الانتشار:
- MF, LightGCN, CDAE, MultiDAE/MultiVAE
- CODIGEM, DiffRec (نماذج الانتشار)
- LinkProp, BSPM, Giff (طرق معالجة إشارات الرسم البياني)
- حجم الدفعة: 100
- معدل التعلم: 1e-4
- الحد الأقصى لعدد جولات التدريب: 1,000
- خطوات الانتشار: T=5
- بُعد التحليل الطيفي: 200 بُعد
على جميع مجموعات البيانات ومقاييس التقييم، يتفوق S-Diff بشكل كبير على جميع طرق المقارنة:
مجموعة بيانات Amazon-Book:
- Recall@10: 0.1155 (مقابل أفضل baseline Giff: 0.1109)
- NDCG@10: 0.0746 (مقابل أفضل baseline Giff: 0.0733)
مجموعة بيانات Yelp:
- Recall@10: 0.0635 (مقابل أفضل baseline Giff: 0.0639)
- NDCG@20: 0.0561 (مقابل أفضل baseline Giff: 0.0520)
مجموعة بيانات MovieLens-1M:
- Recall@10: 0.1277 (مقابل أفضل baseline Giff: 0.1108)
- NDCG@10: 0.0970 (مقابل أفضل baseline Giff: 0.0952)
مقارنة استراتيجيات جدولة الضوضاء المختلفة:
- DDPM in Spectral: استخدام ضوضاء غاوسية تقليدية في المجال الطيفي
- S-Diff-VE: انتشار تباين متفجر
- S-Diff-VP: انتشار يحافظ على التباين (طريقتنا)
تظهر النتائج أن S-Diff-VP هو الأمثل من حيث نسبة الإشارة إلى الضوضاء والأداء.
يؤدي إزالة طبقة FiLM إلى انخفاض كبير في الأداء، مما يتحقق من أهمية الدمج على مستوى العناصر.
يثبت التحليل النظري والتجريبي أن الانتشار متباين الخواص في المجال الطيفي له حد أدنى أفضل لنسبة الإشارة إلى الضوضاء مقارنة بنماذج الانتشار التقليدية:
SNR(t) = α_t^2/σ_t^2 ≥ (e^{-2τ})^2/(1-(e^{-2τ})^2)
تظهر التجارب أنه حتى بعد 1000 خطوة انتشار، يحافظ S-Diff على نسبة إشارة إلى ضوضاء قابلة للتمييز.
- بُعد التحليل الطيفي K: يتم تحقيق أفضل أداء عند K=200
- معاملات الحدود: أفضل النتائج عند α_ ∈ 0, 0.1, σ_ ∈ 0.4, 0.5
- CODIGEM: أول تطبيق لـ DDPM على التصفية التعاونية
- DiffRec: تحسين نماذج الانتشار من خلال تعيين المساحة الكامنة وتوجيه الخطوات الزمنية
- CF-Diff: حساب مسبق لمعلومات الجيران متعددة الخطوات كشرط
- Giff: استخدام انتشار الرسم البياني لتمويه الإشارة واستعادتها
- LightGCN: تجميع خطي متعدد الطبقات لمعلومات الجيران
- Poly-CF: تصفية رسم بياني طيفي تكيفي
- SGFCF: تحويل التصفية التعاونية إلى مشكلة تصميم مرشح تكيفي
- يجمع S-Diff بنجاح بين نظرية الطيف الرسومي ونماذج الانتشار، مع إجراء انتشار متباين الخواص في المجال الطيفي
- من خلال الحفاظ على المكونات منخفضة التردد والحفاظ على نسبة إشارة إلى ضوضاء عالية، يحسن بشكل كبير أداء التوصية
- تتمتع الطريقة بأساس نظري جيد والتحقق التجريبي
- التعقيد الحسابي: يتطلب تحليل طيفي، مع تعقيد زمني O(K|I|m)
- ضبط المعاملات: يتطلب ضبط دقيق لمعاملات الحدود α_ و σ_
- قابلية التوسع: تطبيقية الطريقة على مجموعات البيانات الضخمة جدًا تحتاج إلى مزيد من التحقق
- تحسين الكفاءة الحسابية: البحث عن طرق أكثر كفاءة للتحليل الطيفي وعملية الانتشار
- المعاملات التكيفية: تطوير طرق لضبط معاملات الضوضاء تلقائيًا
- التوسع متعدد الأنماط: توسيع الطريقة إلى سيناريوهات التوصية متعددة الأنماط
- الابتكار النظري: يجمع بذكاء بين معالجة إشارات الرسم البياني ونماذج الانتشار، مما يوفر منظورًا نظريًا جديدًا
- التقدم التقني: جدولة الضوضاء متباينة الخواص والانتشار في المجال الطيفي هما مساهمات تقنية مهمة
- التجارب الشاملة: إجراء مقارنات واستئصالات شاملة على عدة مجموعات بيانات
- الأداء المتفوقة: تحقيق أفضل أداء على جميع مقاييس التقييم
- التعقيد المرتفع: يزيد التحليل الطيفي من النفقات الحسابية، مما قد يحد من التطبيق على البيانات الضخمة
- حساسية المعاملات: تتضمن الطريقة عدة معاملات فائقة تتطلب ضبطًا دقيقًا
- التحليل النظري غير الكافي: يفتقر إلى تفسير نظري أعمق لسبب كون الانتشار متباين الخواص أكثر فعالية
- القيمة الأكاديمية: توفير أفكار جديدة لتطبيق نماذج الانتشار في أنظمة التوصية
- القيمة العملية: تتمتع الطريقة بتحسين أداء جيد وإمكانية تطبيق عملي
- قابلية إعادة الإنتاج: توفر الورقة تفاصيل تنفيذ وصف خوارزمي مفصل
- أنظمة التوصية متوسطة الحجم
- السيناريوهات التي تتطلب جودة توصية عالية
- مجموعات البيانات ذات الخصائص الواضحة للتصفية التعاونية
- البيئات ذات الموارد الحسابية الكافية نسبيًا
تستشهد الورقة بـ 52 مرجعًا ذا صلة، تغطي مجالات متعددة بما في ذلك نماذج الانتشار والتصفية التعاونية والشبكات العصبية الرسومية، مما يوفر أساسًا نظريًا متينًا لهذا البحث.
التقييم الشامل: هذه ورقة بحثية عالية الجودة تتمتع بأداء ممتازة من حيث الابتكار النظري والتحقق التجريبي. يعتبر الجمع بين نظرية الطيف الرسومي ونماذج الانتشار مساهمة قيمة، توفر اتجاهًا بحثيًا جديدًا لمجال أنظمة التوصية. على الرغم من وجود بعض القيود، إلا أنها بشكل عام عمل جدير بالاهتمام.