Sequential recommendation aims to predict the next item based on user interests in historical interaction sequences. Historical interaction sequences often contain irrelevant noisy items, which significantly hinders the performance of recommendation systems. Existing research employs unsupervised methods that indirectly identify item-granularity irrelevant noise by predicting the ground truth item. Since these methods lack explicit noise labels, they are prone to misidentify users' interested items as noise. Additionally, while these methods focus on removing item-granularity noise driven by the ground truth item, they overlook interest-granularity noise, limiting their ability to perform broader denoising based on user interests. To address these issues, we propose Multi-Granularity Sequence Denoising with Weakly Supervised Signal for Sequential Recommendation(MGSD-WSS). MGSD-WSS first introduces the Multiple Gaussian Kernel Perceptron module to map the original and enhance sequence into a common representation space and utilizes weakly supervised signals to accurately identify noisy items in the historical interaction sequence. Subsequently, it employs the item-granularity denoising module with noise-weighted contrastive learning to obtain denoised item representations. Then, it extracts target interest representations from the ground truth item and applies noise-weighted contrastive learning to obtain denoised interest representations. Finally, based on the denoised item and interest representations, MGSD-WSS predicts the next item. Extensive experiments on five datasets demonstrate that the proposed method significantly outperforms state-of-the-art sequence recommendation and denoising models. Our code is available at https://github.com/lalunex/MGSD-WSS.
- Paper-ID: 2510.10564
- Titel: Multi-Granularity Sequence Denoising with Weakly Supervised Signal for Sequential Recommendation
- Autoren: Liang Li (Chongqing University of Technology), Zhou Yang (Fuzhou University), Xiaofei Zhu (Chongqing University of Technology)
- Klassifizierung: cs.IR (Informationsbeschaffung)
- Veröffentlichungsdatum: 12. Oktober 2025 (arXiv-Preprint)
- Paper-Link: https://arxiv.org/abs/2510.10564
- Code-Link: https://github.com/lalunex/MGSD-WSS
Die sequenzielle Empfehlung zielt darauf ab, das nächste Element basierend auf Benutzerinteressen aus historischen Interaktionssequenzen vorherzusagen. Historische Interaktionssequenzen enthalten typischerweise irrelevante Rausch-Elemente, die die Leistung von Empfehlungssystemen erheblich beeinträchtigen. Bestehende Forschungsarbeiten verwenden unüberwachte Methoden, um Rausch auf Elementebene indirekt durch Vorhersage echter Elemente zu identifizieren. Da diesen Methoden explizite Rausch-Etiketten fehlen, besteht die Gefahr, dass interessierende Elemente fälschlicherweise als Rausch klassifiziert werden. Darüber hinaus konzentrieren sich diese Methoden auf die Entfernung von Rausch auf Elementebene, das durch echte Elemente verursacht wird, vernachlässigen aber Rausch auf Interessensebene, was die Fähigkeit zur umfassenderen Entrauschung basierend auf Benutzerinteressen einschränkt. Um diese Probleme zu lösen, wird in diesem Papier die Methode MGSD-WSS (Multi-Granularity Sequence Denoising with Weakly Supervised Signal) für sequenzielle Empfehlung vorgeschlagen.
Das Kernproblem von sequenziellen Empfehlungssystemen besteht darin, dass historische Interaktionssequenzen Rausch-Elemente enthalten, wie versehentliche Klicks und böswillige falsche Interaktionen, die die Leistung des Empfehlungssystems erheblich verringern.
- Soft-Entrauschungs-Methoden: Passen die Gewichte von Rausch-Elementen durch Aufmerksamkeitsmechanismen oder Filteralgorithmen an, können aber die Rausch-Auswirkungen nicht vollständig beseitigen
- Hard-Entrauschungs-Methoden: Generieren Rausch-Erkennungssignale zur expliziten Entfernung von Rausch-Elementen, weisen aber folgende Probleme auf:
- Verwenden echte Elemente statt echter Rausch-Etiketten zur Modellführung bei der Rausch-Identifikation, mit begrenzter Genauigkeit
- Konzentrieren sich nur auf Entrauschung auf Elementebene und ignorieren Rausch auf Interessensebene
- Das Fehlen expliziter Rausch-Etiketten führt dazu, dass bestehende unüberwachte Methoden leicht interessierende Elemente falsch identifizieren
- Benutzerinteraktionen spiegeln nicht nur spezifische Element-Vorlieben wider, sondern verkörpern auch höherwertige Interessen (z. B. enthält das Interesse „Sport" Fußball, Sportschuhe, Laufbänder usw.)
- Es ist notwendig, hierarchische Entrauschung auf mehreren Ebenen durchzuführen, um Rausch umfassender zu entfernen
- Erstmalige Einführung schwach überwachter Signale: Direktes Training des Modells zur Rausch-Erkennung durch gekennzeichnete schwach überwachte Signale, um die Ungenauigkeit früherer unüberwachter Methoden zu überwinden
- Hierarchische Multi-Granularität-Entrauschung: Vorschlag hierarchischer Entrauschungs-Module auf Element- und Interessensebene, kombiniert mit rausch-gewichteter kontrastiver Lernweise
- Innovative Architektur-Gestaltung:
- Multiple Gaussian Kernel Perceptron (MGP)-Modul
- Target-aware Sequence Encoding
- Rausch-gewichtete kontrastive Lernweise
- Signifikante Leistungssteigerung: Deutliche Überlegenheit gegenüber modernsten Modellen für sequenzielle Empfehlung und Entrauschung auf fünf Datensätzen
Gegeben eine Benutzermenge U={u1,u2,…,u∣U∣} und eine Elementmenge V={v1,v2,…,v∣V∣}, ist jeder Benutzer u∈U mit einer zeitlich geordneten historischen Interaktionssequenz S=[s1,s2,…,sn] verbunden. Das Ziel besteht darin, die Interaktionssequenz S zu nutzen, um das Element vorherzusagen, mit dem der Benutzer am wahrscheinlichsten im (n+1)-ten Schritt interagiert, d. h. p(sn+1∣s1:n).
MGSD-WSS enthält drei Kernkomponenten:
Sequenzdaten-Augmentation:
- Zufällige Auswahl von t verschiedenen Elementen als Rausch zur Einfügung in die ursprüngliche Sequenz
- Konstruktion der erweiterten Sequenz Sˉ=[sˉ1,sˉ2,…,sˉn+t]
- Erhalt des Überwachungssignals Yˉ=[yˉ1,yˉ2,…,yˉn+t] zur Kennzeichnung von Rausch-Positionen
Multiple Gaussian Kernel Perceptron (MGP):
- Berechnung der Kosinus-Ähnlichkeit zwischen dem Ziel-Element und jedem Element in der Sequenz:
αˉi=cos(hˉn+1,hˉi)
- Verwendung von k Gaußschen Kernen zur Umwandlung von Relevanz-Scores:
rij=exp(−2σj2(αˉi−μj)2)h^i=∑j=1krijhˉi
- Erhalt reichhaltiger Darstellungen durch Transformer-Encoder:
G=Transformer(H^+P)
Verwendung eines gemeinsamen Element-Level-Rausch-Diskriminators zur Erkennung von Rausch-Elementen in der erweiterten Sequenz:
βi=Softmax((ReLU(gˉiW1+b1))W2)
Minimierung der Differenz zwischen Rausch-Erkennungssignal und Überwachungssignal durch MSE-Verlust:
MSE=n1∑i=1n(βi0−yˉi)2
Entrauschung auf Elementebene:
- Umwandlung des Rausch-Erkennungssignals in binäre Hartwerte mittels Gumbel-softmax
- Filterung von Rausch-Elementen zur Konstruktion der entrauschten Darstellungsmatrix
- Anwendung rausch-gewichteter kontrastiver Lernweise:
ITSCL=−∣G+∣1∑gi∈G+log∑gj∈Gω(gj)⋅exp(sim(ese,gj)/τ)ω(gi)⋅exp(sim(ese,gi)/τ)
Entrauschung auf Interessensebene:
- Einführung einer lernbaren Interessens-Darstellungsmatrix Q=[q1,q2,…,qm]
- Berechnung von Relevanz-Scores zwischen Elementen und Interessen
- Bewertung der Interessens-Zuverlässigkeit mittels zielgerichteter Interessens-Aufmerksamkeit
- Anwendung rausch-gewichteter kontrastiver Lernweise auf Interessensebene
- Schwach überwachte Signalgenerierung: Generierung expliziter Rausch-Etiketten durch Daten-Augmentations-Strategien zur Bereitstellung genauer Überwachungssignale
- Multi-Granularität-Entrauschung: Gleichzeitige Entrauschung auf Element- und Interessensebene für umfassendere Behandlung von Sequenz-Rausch
- Rausch-gewichtete kontrastive Lernweise: Zuweisung von Gewichten an Stichproben basierend auf Rausch-Grad, überlegen gegenüber traditioneller gleichgewichteter kontrastiver Lernweise
- Gaußscher Kern-Perceptron: Erfassung von Informationen aus verschiedenen Ähnlichkeitsbereichen zur Verbesserung der Sequenz-Darstellung
Verwendung von fünf öffentlichen Benchmark-Datensätzen:
| Datensatz | Sequenzen | Benutzer | Elemente | Durchschnittliche Länge | Sparsität |
|---|
| ML-100k | 99.287 | 944 | 1.350 | 105,29 | 92,21% |
| Beauty | 198.502 | 22.364 | 12.102 | 8,88 | 99,93% |
| Sports | 296.337 | 35.599 | 18.358 | 8,32 | 99,95% |
| Yelp | 316.354 | 30.432 | 20.034 | 10,40 | 99,95% |
| ML-1M | 999.611 | 6.041 | 3.417 | 165,50 | 95,16% |
- Hit Ratio (HR@{5, 10, 20})
- Normalized Discounted Cumulative Gain (NDCG@{5, 10, 20})
- Mean Reciprocal Rank (MRR@20)
Baseline für sequenzielle Empfehlung:
- GRU4Rec, NARM, STAMP, CASER, SASRec, BERT4Rec
Entrauschungs-Baseline:
- DSAN, FMLP-Rec, HSD+BERT4Rec, AC-BERT4Rec, MSDCCL+BERT4Rec
- Einbettungsdimension: 100
- Batch-Größe: 256
- Lernrate: 10^-3
- Anzahl der Gaußschen Kerne: 10
- Temperaturparameter: τ = 0,5
Vergleich mit Baseline für sequenzielle Empfehlung:
MGSD-WSS erreicht in Kombination mit verschiedenen modernen Modellen für sequenzielle Empfehlung signifikante Leistungssteigerungen auf allen Datensätzen. Auf dem ML-100k-Datensatz zeigt MGSD-WSS+BERT4Rec im Vergleich zum ursprünglichen BERT4Rec Verbesserungen von 167,43%, 195,87% bzw. 235,67% bei HR@20, NDCG@20 und MRR@20.
Vergleich mit Entrauschungs-Baseline:
Bei den meisten Metriken übertrifft MGSD-WSS+BERT4Rec andere Entrauschungs-Baselines, besonders auf den Datensätzen ML-100k und ML-1M. Auf dem ML-1M-Datensatz liegen die Verbesserungen gegenüber der stärksten Baseline MSDCCL+BERT4Rec zwischen 30,80% und 60,94%.
Analyse des Leistungsrückgangs nach Entfernung einzelner Module:
- w/o AND (ohne Auxiliary Noise Discrimination): Größter Leistungsrückgang, beweist die Wichtigkeit schwach überwachter Signale
- w/o InSD (ohne Interessensebenen-Entrauschung): Signifikante Auswirkungen auf Beauty-, Sports- und ML-1M-Datensätzen
- w/o ItSD (ohne Elementebenen-Entrauschung): Größte Auswirkungen auf ML-100k- und Yelp-Datensätzen
- w/o MGP (ohne Multiple Gaussian Kernel Perceptron): Führt zu Leistungsrückgang und validiert die Effektivität dieses Moduls
Im Vergleich zur traditionellen kontrastiven Lernweise verbessert die rausch-gewichtete kontrastive Lernweise auf dem ML-100k-Datensatz HR@20, NDCG@20 und MRR@20 um 12,59%, 10,63% bzw. 9,48%, was die Effektivität präziser Gewichtszuweisung beweist.
Anzahl der Rausch-Elemente t:
- Eine angemessene Anzahl von Rausch-Elementen hilft dem Modell, zwischen echten Vorlieben und Rausch zu unterscheiden
- Zu viel Rausch verdünnt das Informationssignal und führt zu Leistungsrückgang
Anzahl der Benutzerinteressen m:
- Optimale Leistung wird bei m=5 erreicht
- Zu viele Interessen können irrelevante Informationen einführen und die Leistung verringern
Entwicklung von frühen Markov-Ketten-Methoden zu Deep-Learning-Methoden, einschließlich RNN, LSTM, CNN, Aufmerksamkeitsmechanismen und Graphen-Neuronalen Netzen. Neuere Forschungen integrieren externe Wissensgraphen, domänenübergreifende Informationen und Multi-Modal-Lernrahmen.
Unterteilt in Soft-Entrauschung (Gewichtsanpassung) und Hard-Entrauschung (direkte Entfernung). Bestehende Hard-Entrauschungs-Methoden sind hauptsächlich auf echte Elemente angewiesen, fehlen echte Rausch-Etiketten und konzentrieren sich nur auf Elementebene.
Wird in Empfehlungssystemen zur Extraktion hochwertiger Darstellungen verwendet, aber bestehende Methoden behandeln alle Stichproben gleich und ignorieren Unterschiede in der Stichproben-Wichtigkeit.
- Schwach überwachte Signale verbessern die Rausch-Erkennungsgenauigkeit signifikant
- Multi-Granularität-Entrauschung ist effektiver als Entrauschung auf einzelner Elementebene
- Rausch-gewichtete kontrastive Lernweise übertrifft traditionelle kontrastive Lernweise
- Das Modell behält Robustheit über verschiedene Sequenzlängen hinweg
- Teilweise unbefriedigende Leistung bei einigen Metriken auf Datensätzen mit kurzen Sequenzen (Beauty, Sports, Yelp)
- Die Einführung von Rausch kann bei kurzen Sequenzen zu Informationsverschmutzung führen
- Erfordert vordefinierte Hyperparameter wie Anzahl der Benutzerinteressen
- Untersuchung der Auswirkungen verschiedener Gaußscher Kern-Einstellungen
- Erkundung gegnerischer oder heuristischer Rausch-Generierungs-Strategien
- Bereitstellung theoretischer oder datengestützter Begründung für Interessens-Konfigurationen
- Hohe Innovativität: Erstmalige Anwendung schwach überwachter Entrauschung in sequenzieller Empfehlung mit Vorschlag eines Multi-Granularität-Entrauschungs-Rahmens
- Vollständige Methodik: Umfassende Lösung von Rausch-Erkennung bis Multi-Granularität-Entrauschung
- Umfangreiche Experimente: Fünf Datensätze, mehrere Baselines, detaillierte Ablationsstudien und Parameteranalysen
- Theoretisch fundiert: Rausch-gewichtete kontrastive Lernweise mit klarer theoretischer Motivation
- Ausgezeichnete Leistung: Signifikante Überlegenheit gegenüber bestehenden Methoden bei den meisten Metriken
- Begrenzte Anwendbarkeit: Instabile Leistung auf Datensätzen mit kurzen Sequenzen
- Rechenkomplexität: Multi-Granularität-Entrauschung und kontrastive Lernweise erhöhen den Rechenaufwand
- Parametersensitivität: Erfordert sorgfältige Abstimmung von Rausch-Anzahl, Interessens-Anzahl und anderen Parametern
- Rausch-Generierungs-Strategie: Zufällige Rausch-Einfügung könnte weniger realistisch sein
- Akademischer Wert: Bietet neue Forschungsrichtung für Entrauschung in sequenzieller Empfehlung
- Praktischer Wert: Anwendbar auf reale Empfehlungssysteme zur Leistungsverbesserung
- Reproduzierbarkeit: Bereitstellung detaillierter Implementierungsdetails und Code
- Empfehlungssysteme mit langen Benutzer-Interaktionssequenzen
- Empfehlungsszenarien mit hohem Rausch-Aufkommen (z. B. E-Commerce, Video-Plattformen)
- Anwendungen, die feinkörnige Benutzerinteressen-Modellierung erfordern
Das Papier zitiert wichtige Arbeiten aus den Bereichen sequenzielle Empfehlung, Entrauschungs-Methoden und kontrastive Lernweise, einschließlich:
- Klassische Methoden der sequenziellen Empfehlung: GRU4Rec, SASRec, BERT4Rec
- Entrauschungs-bezogene Arbeiten: HSD, MSDCCL usw.
- Kontrastive Lernmethoden: CL4SRec, ICL usw.
Dieses Papier bietet eine innovative Lösung für das Rausch-Behandlungsproblem in der sequenziellen Empfehlung und hat sowohl theoretische als auch praktische Bedeutung.