2025-11-23T00:10:15.831186

Multi-Granularity Sequence Denoising with Weakly Supervised Signal for Sequential Recommendation

Li, Yang, Zhu
Sequential recommendation aims to predict the next item based on user interests in historical interaction sequences. Historical interaction sequences often contain irrelevant noisy items, which significantly hinders the performance of recommendation systems. Existing research employs unsupervised methods that indirectly identify item-granularity irrelevant noise by predicting the ground truth item. Since these methods lack explicit noise labels, they are prone to misidentify users' interested items as noise. Additionally, while these methods focus on removing item-granularity noise driven by the ground truth item, they overlook interest-granularity noise, limiting their ability to perform broader denoising based on user interests. To address these issues, we propose Multi-Granularity Sequence Denoising with Weakly Supervised Signal for Sequential Recommendation(MGSD-WSS). MGSD-WSS first introduces the Multiple Gaussian Kernel Perceptron module to map the original and enhance sequence into a common representation space and utilizes weakly supervised signals to accurately identify noisy items in the historical interaction sequence. Subsequently, it employs the item-granularity denoising module with noise-weighted contrastive learning to obtain denoised item representations. Then, it extracts target interest representations from the ground truth item and applies noise-weighted contrastive learning to obtain denoised interest representations. Finally, based on the denoised item and interest representations, MGSD-WSS predicts the next item. Extensive experiments on five datasets demonstrate that the proposed method significantly outperforms state-of-the-art sequence recommendation and denoising models. Our code is available at https://github.com/lalunex/MGSD-WSS.
academic

إزالة الضوضاء متعددة الحبيبية للتسلسل مع إشارة مراقبة ضعيفة للتوصية المتسلسلة

المعلومات الأساسية

  • معرّف الورقة: 2510.10564
  • العنوان: Multi-Granularity Sequence Denoising with Weakly Supervised Signal for Sequential Recommendation
  • المؤلفون: Liang Li (جامعة تشونغتشينغ للتكنولوجيا)، Zhou Yang (جامعة فوتشو)، Xiaofei Zhu (جامعة تشونغتشينغ للتكنولوجيا)
  • التصنيف: cs.IR (استرجاع المعلومات)
  • تاريخ النشر: 12 أكتوبر 2025 (نسخة arXiv المسبقة)
  • رابط الورقة: https://arxiv.org/abs/2510.10564
  • رابط الكود: https://github.com/lalunex/MGSD-WSS

الملخص

تهدف التوصية المتسلسلة إلى التنبؤ بالعنصر التالي بناءً على الاهتمامات في سلسلة التفاعلات التاريخية للمستخدم. عادةً ما تحتوي سلاسل التفاعلات التاريخية على عناصر ضوضاء غير ذات صلة، مما يعيق بشكل كبير أداء أنظمة التوصية. تعتمد الأبحاث الحالية على طرق غير موجهة للكشف بشكل غير مباشر عن الضوضاء غير ذات الصلة على مستوى العنصر من خلال التنبؤ بالعناصر الحقيقية. نظراً لافتقار هذه الطرق إلى تسميات ضوضاء صريحة، فإنها عرضة لسوء تصنيف العناصر التي يهتم بها المستخدم كضوضاء. علاوة على ذلك، تركز هذه الطرق على إزالة الضوضاء على مستوى العنصر المدفوعة بالعناصر الحقيقية، لكنها تتجاهل ضوضاء مستوى الاهتمام، مما يحد من القدرة على إجراء إزالة ضوضاء أوسع بناءً على اهتمامات المستخدم. لمعالجة هذه المشاكل، نقترح طريقة توصية متسلسلة تجمع بين إزالة الضوضاء متعددة الحبيبية والإشارات المراقبة الضعيفة (MGSD-WSS).

الخلفية البحثية والدافع

تعريف المشكلة

تواجه أنظمة التوصية المتسلسلة مشكلة أساسية تتمثل في وجود عناصر ضوضاء في سلسلة التفاعلات التاريخية، مثل النقرات العرضية والتفاعلات الكاذبة الخبيثة، والتي تقلل بشكل كبير من أداء نظام التوصية.

قيود الطرق الحالية

  1. طرق إزالة الضوضاء الناعمة: تعدل وزن العناصر الضوضائية من خلال آليات الانتباه أو خوارزميات التصفية، لكنها لا تستطيع القضاء تماماً على تأثير الضوضاء
  2. طرق إزالة الضوضاء الصعبة: تولد إشارات كشف الضوضاء لإزالة العناصر الضوضائية بشكل صريح، لكنها تعاني من المشاكل التالية:
    • استخدام العناصر الحقيقية بدلاً من تسميات الضوضاء الحقيقية لتوجيه النموذج في تحديد الضوضاء، مما يحد من الدقة
    • التركيز فقط على إزالة الضوضاء على مستوى العنصر، مع تجاهل الضوضاء على مستوى الاهتمام

الدافع البحثي

  • يؤدي الافتقار إلى تسميات ضوضاء صريحة إلى أن الطرق غير الموجهة الحالية عرضة لسوء تصنيف العناصر التي يهتم بها المستخدم
  • لا تعكس التفاعلات الخاصة بالمستخدم فقط تفضيلات عناصر محددة، بل تعكس أيضاً اهتمامات على مستوى أعلى (مثل اهتمام "الرياضة" يتضمن كرة القدم والأحذية الرياضية وأجهزة الجري)
  • الحاجة إلى إجراء إزالة ضوضاء هرمية على مستويات متعددة لإزالة الضوضاء بشكل أكثر شمولاً

المساهمات الأساسية

  1. إدخال الإشارات المراقبة الضعيفة للمرة الأولى: تدريب النموذج مباشرة على كشف الضوضاء من خلال إشارات مراقبة ضعيفة معلمة، مما يتغلب على عدم دقة الطرق غير الموجهة السابقة
  2. إزالة الضوضاء الهرمية متعددة الحبيبية: اقتراح وحدات إزالة ضوضاء على مستوى العنصر ومستوى الاهتمام، مقترنة بتعلم対比加权الضوضاء
  3. تصميم معماري مبتكر:
    • وحدة Multiple Gaussian Kernel Perceptron (MGP)
    • ترميز التسلسل الموجه بالهدف
    • إطار عمل التعلم التباعدي المرجح بالضوضاء
  4. تحسن الأداء الملحوظ: تفوق كبير على نماذج التوصية المتسلسلة وإزالة الضوضاء الحديثة عبر خمس مجموعات بيانات

شرح الطريقة

تعريف المهمة

بالنظر إلى مجموعة المستخدمين U={u1,u2,,uU}\mathcal{U} = \{u_1, u_2, \ldots, u_{|\mathcal{U}|}\} ومجموعة العناصر V={v1,v2,,vV}\mathcal{V} = \{v_1, v_2, \ldots, v_{|\mathcal{V}|}\}، يرتبط كل مستخدم uUu \in \mathcal{U} بسلسلة تفاعلات تاريخية مرتبة زمنياً S=[s1,s2,,sn]S = [s_1, s_2, \ldots, s_n]. الهدف هو استخدام سلسلة التفاعلات SS للتنبؤ بالعنصر الذي سيتفاعل معه المستخدم بأكبر احتمالية في الخطوة (n+1)(n+1)، أي p(sn+1s1:n)p(s_{n+1}|s_{1:n}).

معمارية النموذج

يحتوي MGSD-WSS على ثلاث مكونات أساسية:

1. ترميز التسلسل الموجه بالهدف

تحسين بيانات التسلسل:

  • اختيار عشوائي لـ tt عناصر مختلفة كضوضاء يتم إدراجها في السلسلة الأصلية
  • بناء سلسلة محسّنة Sˉ=[sˉ1,sˉ2,,sˉn+t]\bar{S} = [\bar{s}_1, \bar{s}_2, \ldots, \bar{s}_{n+t}]
  • الحصول على إشارة إشراف Yˉ=[yˉ1,yˉ2,,yˉn+t]\bar{Y} = [\bar{y}_1, \bar{y}_2, \ldots, \bar{y}_{n+t}] تشير إلى مواقع الضوضاء

Multiple Gaussian Kernel Perceptron (MGP):

  • حساب تشابه جيب التمام بين العنصر الهدف وكل عنصر في السلسلة: αˉi=cos(hˉn+1,hˉi)\bar{\alpha}_i = \cos(\bar{h}_{n+1}, \bar{h}_i)
  • استخدام kk نوى غاوسية لتحويل درجات الصلة: rij=exp((αˉiμj)22σj2)r_{ij} = \exp\left(-\frac{(\bar{\alpha}_i - \mu_j)^2}{2\sigma_j^2}\right)h^i=j=1krijhˉi\hat{h}_i = \sum_{j=1}^k r_{ij} \bar{h}_i
  • الحصول على تمثيلات غنية من خلال مشفر Transformer: G=Transformer(H^+P)G = \text{Transformer}(\hat{H} + P)

2. التمييز الإضافي للضوضاء

استخدام مميز ضوضاء مشترك على مستوى العنصر للكشف عن العناصر الضوضائية في السلسلة المحسّنة: βi=Softmax((ReLU(gˉiW1+b1))W2)\boldsymbol{\beta}_i = \text{Softmax}((\text{ReLU}(\bar{g}_i W_1 + b_1))W_2)

تقليل الفرق بين إشارة كشف الضوضاء والإشارة الإشرافية من خلال خسارة MSE: MSE=1ni=1n(βi0yˉi)2MSE = \frac{1}{n}\sum_{i=1}^n (\beta_i^0 - \bar{y}_i)^2

3. إزالة الضوضاء متعددة الحبيبية للتسلسل

إزالة الضوضاء على مستوى العنصر:

  • استخدام Gumbel-softmax لتحويل إشارة كشف الضوضاء إلى قيم ثنائية صعبة
  • تصفية العناصر الضوضائية لبناء مصفوفة تمثيل منزوعة الضوضاء
  • تطبيق التعلم التباعدي المرجح بالضوضاء: ITSCL=1G+giG+logω(gi)exp(sim(ese,gi)/τ)gjGω(gj)exp(sim(ese,gj)/τ)ITSCL = -\frac{1}{|G^+|}\sum_{g_i \in G^+} \log \frac{\omega(g_i) \cdot \exp(\text{sim}(e_{se}, g_i)/\tau)}{\sum_{g_j \in G} \omega(g_j) \cdot \exp(\text{sim}(e_{se}, g_j)/\tau)}

إزالة الضوضاء على مستوى الاهتمام:

  • إدخال مصفوفة تمثيل اهتمام قابلة للتعلم Q=[q1,q2,,qm]Q = [q_1, q_2, \ldots, q_m]
  • حساب درجات الصلة بين العناصر والاهتمامات
  • استخدام انتباه الاهتمام الموجه بالهدف لتقييم موثوقية الاهتمام
  • تطبيق التعلم التباعدي المرجح بالضوضاء على مستوى الاهتمام

نقاط الابتكار التقني

  1. توليد الإشارات المراقبة الضعيفة: توليد تسميات ضوضاء صريحة من خلال استراتيجية تحسين البيانات، مما يوفر إشارات إشراف دقيقة
  2. إزالة الضوضاء متعددة الحبيبية: إجراء إزالة ضوضاء في مستويات العنصر والاهتمام معاً، مما يعالج ضوضاء التسلسل بشكل أكثر شمولاً
  3. التعلم التباعدي المرجح بالضوضاء: تعيين أوزان للعينات بناءً على درجة الضوضاء، مما يتفوق على التعلم التباعدي التقليدي ذو الأوزان المتساوية
  4. محسس النوى الغاوسية: التقاط المعلومات من مناطق التشابه المختلفة، مما يعزز تمثيل التسلسل

إعداد التجارب

مجموعات البيانات

استخدام خمس مجموعات بيانات معيارية عامة:

مجموعة البياناتعدد التسلسلاتعدد المستخدمينعدد العناصرمتوسط الطولدرجة التناثر
ML-100k99,2879441,350105.2992.21%
Beauty198,50222,36412,1028.8899.93%
Sports296,33735,59918,3588.3299.95%
Yelp316,35430,43220,03410.4099.95%
ML-1M999,6116,0413,417165.5095.16%

مقاييس التقييم

  • نسبة الضربة (Hit Ratio - HR@{5, 10, 20})
  • الكسب التراكمي المخصوم المعياري (Normalized Discounted Cumulative Gain - NDCG@{5, 10, 20})
  • متوسط الترتيب المتبادل (Mean Reciprocal Rank - MRR@20)

طرق المقارنة

خطوط أساس التوصية المتسلسلة:

  • GRU4Rec, NARM, STAMP, CASER, SASRec, BERT4Rec

خطوط أساس إزالة الضوضاء:

  • DSAN, FMLP-Rec, HSD+BERT4Rec, AC-BERT4Rec, MSDCCL+BERT4Rec

تفاصيل التنفيذ

  • بُعد التضمين: 100
  • حجم الدفعة: 256
  • معدل التعلم: 10^-3
  • عدد النوى الغاوسية: 10
  • معامل درجة الحرارة: τ = 0.5

نتائج التجارب

النتائج الرئيسية

المقارنة مع خطوط أساس التوصية المتسلسلة: حقق MGSD-WSS عند دمجه مع نماذج التوصية المتسلسلة الرئيسية تحسناً ملحوظاً في الأداء عبر جميع مجموعات البيانات. على مجموعة بيانات ML-100k، حقق MGSD-WSS+BERT4Rec تحسناً بنسبة 167.43% و195.87% و235.67% على التوالي في HR@20 و NDCG@20 و MRR@20 مقارنة بـ BERT4Rec الأصلي.

المقارنة مع خطوط أساس إزالة الضوضاء: في معظم المقاييس، تفوق MGSD-WSS+BERT4Rec على خطوط أساس إزالة الضوضاء الأخرى، خاصة على مجموعات بيانات ML-100k و ML-1M. على مجموعة بيانات ML-1M، تتراوح تحسنات المقاييس بين 30.80%-60.94% مقارنة بأقوى خط أساس MSDCCL+BERT4Rec.

تجارب الاستبعاد

تحليل انخفاض الأداء بعد إزالة كل وحدة:

  • بدون AND (بدون التمييز الإضافي للضوضاء): أكبر انخفاض في الأداء، مما يثبت أهمية الإشارات المراقبة الضعيفة
  • بدون InSD (بدون إزالة ضوضاء على مستوى الاهتمام): تأثير كبير على الأداء على مجموعات بيانات Beauty و Sports و ML-1M
  • بدون ItSD (بدون إزالة ضوضاء على مستوى العنصر): أكبر تأثير على مجموعات بيانات ML-100k و Yelp
  • بدون MGP (بدون محسس النوى الغاوسية المتعددة): يؤدي إلى انخفاض الأداء، مما يتحقق من فعالية هذه الوحدة

تحليل التعلم التباعدي المرجح بالضوضاء

مقارنة بالتعلم التباعدي التقليدي، حقق التعلم التباعدي المرجح بالضوضاء تحسناً بنسبة 12.59% و10.63% و9.48% على التوالي في HR@20 و NDCG@20 و MRR@20 على مجموعة بيانات ML-100k، مما يثبت فعالية تعيين الأوزان الدقيقة.

تحليل حساسية المعاملات

عدد عناصر الضوضاء tt:

  • يساعد العدد المناسب من عناصر الضوضاء النموذج على تعلم التمييز بين التفضيلات الحقيقية والضوضاء
  • الكثير من الضوضاء يخفف من إشارة المعلومات، مما يؤدي إلى انخفاض الأداء

عدد اهتمامات المستخدم mm:

  • يتم تحقيق أفضل أداء عند m=5m=5
  • الكثير من الاهتمامات قد يدخل معلومات غير ذات صلة، مما يقلل الأداء

الأعمال ذات الصلة

التوصية المتسلسلة

تطورت من طرق سلاسل ماركوف المبكرة إلى طرق التعلم العميق، بما في ذلك RNN و LSTM و CNN وآليات الانتباه والشبكات العصبية الرسومية. تدمج الأبحاث الحديثة الرسوم البيانية للمعرفة الخارجية والمعلومات عبر المجالات وأطر العمل متعددة الأنماط.

طرق إزالة الضوضاء

تنقسم إلى فئتين: إزالة الضوضاء الناعمة (تعديل الأوزان) وإزالة الضوضاء الصعبة (الإزالة المباشرة). تعتمد طرق إزالة الضوضاء الصعبة الحالية بشكل أساسي على توجيه العناصر الحقيقية، وتفتقر إلى تسميات الضوضاء الحقيقية، وتركز فقط على مستوى العنصر.

التعلم التباعدي

يُستخدم في أنظمة التوصية لاستخراج تمثيلات عالية الجودة، لكن الطرق الحالية تتعامل بالتساوي مع جميع العينات، مما يتجاهل الاختلافات في أهمية العينات.

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. تحسن الإشارات المراقبة الضعيفة بشكل كبير من دقة كشف الضوضاء
  2. إزالة الضوضاء متعددة الحبيبية أكثر فعالية من إزالة الضوضاء على مستوى العنصر الوحيد
  3. يتفوق التعلم التباعدي المرجح بالضوضاء على التعلم التباعدي التقليدي
  4. يحافظ النموذج على المتانة عبر أطوال تسلسل مختلفة

القيود

  1. الأداء على بعض المقاييس على مجموعات بيانات التسلسل القصير (Beauty و Sports و Yelp) ليست مثالية
  2. قد يسبب إدخال الضوضاء تلويث المعلومات للتسلسلات القصيرة
  3. الحاجة إلى تعيين مسبق لمعاملات فائقة مثل عدد اهتمامات المستخدم

الاتجاهات المستقبلية

  1. دراسة تأثير إعدادات النوى الغاوسية المختلفة
  2. استكشاف استراتيجيات توليد ضوضاء معارضة أو استكشافية
  3. توفير تحليل معقولية نظري أو مدفوع بالبيانات لتكوين الاهتمامات

التقييم العميق

المميزات

  1. ابتكار قوي: أول تطبيق للإشراف الضعيف في إزالة الضوضاء للتوصية المتسلسلة، مع اقتراح إطار عمل إزالة ضوضاء متعدد الحبيبية
  2. اكتمال الطريقة: حل شامل من كشف الضوضاء إلى إزالة الضوضاء متعددة الحبيبية
  3. تجارب شاملة: خمس مجموعات بيانات، خطوط أساس متعددة، تجارب استبعاد وتحليل معاملات مفصلة
  4. معقولية نظرية: التعلم التباعدي المرجح بالضوضاء له دافع نظري واضح
  5. أداء متفوقة: تفوق كبير على معظم المقاييس مقارنة بالطرق الحالية

أوجه القصور

  1. قيود التطبيق: الأداء غير مستقرة على مجموعات بيانات التسلسل القصير
  2. التعقيد الحسابي: تزيد إزالة الضوضاء متعددة الحبيبية والتعلم التباعدي من التكلفة الحسابية
  3. حساسية المعاملات الفائقة: تتطلب ضبطاً دقيقاً لمعاملات مثل عدد الضوضاء وعدد الاهتمامات
  4. استراتيجية توليد الضوضاء: قد لا تكون الإدراجات العشوائية للضوضاء واقعية كافية

الأثر

  1. القيمة الأكاديمية: توفير اتجاه بحثي جديد لإزالة الضوضاء في التوصية المتسلسلة
  2. القيمة العملية: يمكن تطبيقها على أنظمة التوصية الفعلية لتحسين الأداء
  3. قابلية التكرار: توفير تفاصيل تنفيذ مفصلة وكود

السيناريوهات القابلة للتطبيق

  1. أنظمة التوصية ببيانات التفاعلات المتسلسلة الطويلة
  2. سيناريوهات التوصية ذات الضوضاء الكثيفة (مثل المتاجر الإلكترونية ومنصات الفيديو)
  3. التطبيقات التي تتطلب نمذجة اهتمامات المستخدم المتقدمة

المراجع

تستشهد الورقة بأعمال مهمة في مجالات التوصية المتسلسلة وطرق إزالة الضوضاء والتعلم التباعدي، بما في ذلك:

  • الطرق الكلاسيكية للتوصية المتسلسلة: GRU4Rec و SASRec و BERT4Rec
  • الأعمال ذات الصلة بإزالة الضوضاء: HSD و MSDCCL وغيرها
  • طرق التعلم التباعدي: CL4SRec و ICL وغيرها

توفر هذه الورقة حلاً مبتكراً لمشكلة معالجة الضوضاء في التوصية المتسلسلة، وتتمتع بقيمة مهمة من الناحية النظرية والعملية.