2025-11-23T00:10:15.831186

Multi-Granularity Sequence Denoising with Weakly Supervised Signal for Sequential Recommendation

Li, Yang, Zhu

Sequential recommendation aims to predict the next item based on user interests in historical interaction sequences. Historical interaction sequences often contain irrelevant noisy items, which significantly hinders the performance of recommendation systems. Existing research employs unsupervised methods that indirectly identify item-granularity irrelevant noise by predicting the ground truth item. Since these methods lack explicit noise labels, they are prone to misidentify users' interested items as noise. Additionally, while these methods focus on removing item-granularity noise driven by the ground truth item, they overlook interest-granularity noise, limiting their ability to perform broader denoising based on user interests. To address these issues, we propose Multi-Granularity Sequence Denoising with Weakly Supervised Signal for Sequential Recommendation(MGSD-WSS). MGSD-WSS first introduces the Multiple Gaussian Kernel Perceptron module to map the original and enhance sequence into a common representation space and utilizes weakly supervised signals to accurately identify noisy items in the historical interaction sequence. Subsequently, it employs the item-granularity denoising module with noise-weighted contrastive learning to obtain denoised item representations. Then, it extracts target interest representations from the ground truth item and applies noise-weighted contrastive learning to obtain denoised interest representations. Finally, based on the denoised item and interest representations, MGSD-WSS predicts the next item. Extensive experiments on five datasets demonstrate that the proposed method significantly outperforms state-of-the-art sequence recommendation and denoising models. Our code is available at https://github.com/lalunex/MGSD-WSS.

academic

Multi-Granularität-Sequenz-Entrauschung mit schwach überwachtem Signal für sequenzielle Empfehlung

Grundinformationen

Paper-ID: 2510.10564
Titel: Multi-Granularity Sequence Denoising with Weakly Supervised Signal for Sequential Recommendation
Autoren: Liang Li (Chongqing University of Technology), Zhou Yang (Fuzhou University), Xiaofei Zhu (Chongqing University of Technology)
Klassifizierung: cs.IR (Informationsbeschaffung)
Veröffentlichungsdatum: 12. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.10564
Code-Link: https://github.com/lalunex/MGSD-WSS

Zusammenfassung

Die sequenzielle Empfehlung zielt darauf ab, das nächste Element basierend auf Benutzerinteressen aus historischen Interaktionssequenzen vorherzusagen. Historische Interaktionssequenzen enthalten typischerweise irrelevante Rausch-Elemente, die die Leistung von Empfehlungssystemen erheblich beeinträchtigen. Bestehende Forschungsarbeiten verwenden unüberwachte Methoden, um Rausch auf Elementebene indirekt durch Vorhersage echter Elemente zu identifizieren. Da diesen Methoden explizite Rausch-Etiketten fehlen, besteht die Gefahr, dass interessierende Elemente fälschlicherweise als Rausch klassifiziert werden. Darüber hinaus konzentrieren sich diese Methoden auf die Entfernung von Rausch auf Elementebene, das durch echte Elemente verursacht wird, vernachlässigen aber Rausch auf Interessensebene, was die Fähigkeit zur umfassenderen Entrauschung basierend auf Benutzerinteressen einschränkt. Um diese Probleme zu lösen, wird in diesem Papier die Methode MGSD-WSS (Multi-Granularity Sequence Denoising with Weakly Supervised Signal) für sequenzielle Empfehlung vorgeschlagen.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem von sequenziellen Empfehlungssystemen besteht darin, dass historische Interaktionssequenzen Rausch-Elemente enthalten, wie versehentliche Klicks und böswillige falsche Interaktionen, die die Leistung des Empfehlungssystems erheblich verringern.

Einschränkungen bestehender Methoden

Soft-Entrauschungs-Methoden: Passen die Gewichte von Rausch-Elementen durch Aufmerksamkeitsmechanismen oder Filteralgorithmen an, können aber die Rausch-Auswirkungen nicht vollständig beseitigen
Hard-Entrauschungs-Methoden: Generieren Rausch-Erkennungssignale zur expliziten Entfernung von Rausch-Elementen, weisen aber folgende Probleme auf:
- Verwenden echte Elemente statt echter Rausch-Etiketten zur Modellführung bei der Rausch-Identifikation, mit begrenzter Genauigkeit
- Konzentrieren sich nur auf Entrauschung auf Elementebene und ignorieren Rausch auf Interessensebene

Forschungsmotivation

Das Fehlen expliziter Rausch-Etiketten führt dazu, dass bestehende unüberwachte Methoden leicht interessierende Elemente falsch identifizieren
Benutzerinteraktionen spiegeln nicht nur spezifische Element-Vorlieben wider, sondern verkörpern auch höherwertige Interessen (z. B. enthält das Interesse „Sport" Fußball, Sportschuhe, Laufbänder usw.)
Es ist notwendig, hierarchische Entrauschung auf mehreren Ebenen durchzuführen, um Rausch umfassender zu entfernen

Kernbeiträge

Erstmalige Einführung schwach überwachter Signale: Direktes Training des Modells zur Rausch-Erkennung durch gekennzeichnete schwach überwachte Signale, um die Ungenauigkeit früherer unüberwachter Methoden zu überwinden
Hierarchische Multi-Granularität-Entrauschung: Vorschlag hierarchischer Entrauschungs-Module auf Element- und Interessensebene, kombiniert mit rausch-gewichteter kontrastiver Lernweise
Innovative Architektur-Gestaltung:
- Multiple Gaussian Kernel Perceptron (MGP)-Modul
- Target-aware Sequence Encoding
- Rausch-gewichtete kontrastive Lernweise
Signifikante Leistungssteigerung: Deutliche Überlegenheit gegenüber modernsten Modellen für sequenzielle Empfehlung und Entrauschung auf fünf Datensätzen

Methodische Details

Aufgabendefinition

Gegeben eine Benutzermenge $\mathcal{U} = \{u_1, u_2, \ldots, u_{|\mathcal{U}|}\}$ und eine Elementmenge $\mathcal{V} = \{v_1, v_2, \ldots, v_{|\mathcal{V}|}\}$ , ist jeder Benutzer $u \in \mathcal{U}$ mit einer zeitlich geordneten historischen Interaktionssequenz $S = [s_1, s_2, \ldots, s_n]$ verbunden. Das Ziel besteht darin, die Interaktionssequenz $S$ zu nutzen, um das Element vorherzusagen, mit dem der Benutzer am wahrscheinlichsten im $(n+1)$ -ten Schritt interagiert, d. h. $p(s_{n+1}|s_{1:n})$ .

Modellarchitektur

MGSD-WSS enthält drei Kernkomponenten:

1. Target-aware Sequence Encoding

Sequenzdaten-Augmentation:

Zufällige Auswahl von $t$ verschiedenen Elementen als Rausch zur Einfügung in die ursprüngliche Sequenz
Konstruktion der erweiterten Sequenz $\bar{S} = [\bar{s}_1, \bar{s}_2, \ldots, \bar{s}_{n+t}]$
Erhalt des Überwachungssignals $\bar{Y} = [\bar{y}_1, \bar{y}_2, \ldots, \bar{y}_{n+t}]$ zur Kennzeichnung von Rausch-Positionen

Multiple Gaussian Kernel Perceptron (MGP):

Berechnung der Kosinus-Ähnlichkeit zwischen dem Ziel-Element und jedem Element in der Sequenz: $\bar{\alpha}_i = \cos(\bar{h}_{n+1}, \bar{h}_i)$
Verwendung von $k$ Gaußschen Kernen zur Umwandlung von Relevanz-Scores: $r_{ij} = \exp\left(-\frac{(\bar{\alpha}_i - \mu_j)^2}{2\sigma_j^2}\right)$ $\hat{h}_i = \sum_{j=1}^k r_{ij} \bar{h}_i$
Erhalt reichhaltiger Darstellungen durch Transformer-Encoder: $G = \text{Transformer}(\hat{H} + P)$

2. Auxiliary Noise Discrimination

Verwendung eines gemeinsamen Element-Level-Rausch-Diskriminators zur Erkennung von Rausch-Elementen in der erweiterten Sequenz: $\boldsymbol{\beta}_i = \text{Softmax}((\text{ReLU}(\bar{g}_i W_1 + b_1))W_2)$

Minimierung der Differenz zwischen Rausch-Erkennungssignal und Überwachungssignal durch MSE-Verlust: $MSE = \frac{1}{n}\sum_{i=1}^n (\beta_i^0 - \bar{y}_i)^2$

3. Multi-granularity Sequence Denoising

Entrauschung auf Elementebene:

Umwandlung des Rausch-Erkennungssignals in binäre Hartwerte mittels Gumbel-softmax
Filterung von Rausch-Elementen zur Konstruktion der entrauschten Darstellungsmatrix
Anwendung rausch-gewichteter kontrastiver Lernweise: $ITSCL = -\frac{1}{|G^+|}\sum_{g_i \in G^+} \log \frac{\omega(g_i) \cdot \exp(\text{sim}(e_{se}, g_i)/\tau)}{\sum_{g_j \in G} \omega(g_j) \cdot \exp(\text{sim}(e_{se}, g_j)/\tau)}$

Entrauschung auf Interessensebene:

Einführung einer lernbaren Interessens-Darstellungsmatrix $Q = [q_1, q_2, \ldots, q_m]$
Berechnung von Relevanz-Scores zwischen Elementen und Interessen
Bewertung der Interessens-Zuverlässigkeit mittels zielgerichteter Interessens-Aufmerksamkeit
Anwendung rausch-gewichteter kontrastiver Lernweise auf Interessensebene

Technische Innovationen

Schwach überwachte Signalgenerierung: Generierung expliziter Rausch-Etiketten durch Daten-Augmentations-Strategien zur Bereitstellung genauer Überwachungssignale
Multi-Granularität-Entrauschung: Gleichzeitige Entrauschung auf Element- und Interessensebene für umfassendere Behandlung von Sequenz-Rausch
Rausch-gewichtete kontrastive Lernweise: Zuweisung von Gewichten an Stichproben basierend auf Rausch-Grad, überlegen gegenüber traditioneller gleichgewichteter kontrastiver Lernweise
Gaußscher Kern-Perceptron: Erfassung von Informationen aus verschiedenen Ähnlichkeitsbereichen zur Verbesserung der Sequenz-Darstellung

Experimentelle Einrichtung

Datensätze

Verwendung von fünf öffentlichen Benchmark-Datensätzen:

Datensatz	Sequenzen	Benutzer	Elemente	Durchschnittliche Länge	Sparsität
ML-100k	99.287	944	1.350	105,29	92,21%
Beauty	198.502	22.364	12.102	8,88	99,93%
Sports	296.337	35.599	18.358	8,32	99,95%
Yelp	316.354	30.432	20.034	10,40	99,95%
ML-1M	999.611	6.041	3.417	165,50	95,16%

Bewertungsmetriken

Hit Ratio (HR@{5, 10, 20})
Normalized Discounted Cumulative Gain (NDCG@{5, 10, 20})
Mean Reciprocal Rank (MRR@20)

Vergleichsmethoden

Baseline für sequenzielle Empfehlung:

GRU4Rec, NARM, STAMP, CASER, SASRec, BERT4Rec

Entrauschungs-Baseline:

DSAN, FMLP-Rec, HSD+BERT4Rec, AC-BERT4Rec, MSDCCL+BERT4Rec

Implementierungsdetails

Einbettungsdimension: 100
Batch-Größe: 256
Lernrate: 10^-3
Anzahl der Gaußschen Kerne: 10
Temperaturparameter: τ = 0,5

Experimentelle Ergebnisse

Hauptergebnisse

Vergleich mit Baseline für sequenzielle Empfehlung: MGSD-WSS erreicht in Kombination mit verschiedenen modernen Modellen für sequenzielle Empfehlung signifikante Leistungssteigerungen auf allen Datensätzen. Auf dem ML-100k-Datensatz zeigt MGSD-WSS+BERT4Rec im Vergleich zum ursprünglichen BERT4Rec Verbesserungen von 167,43%, 195,87% bzw. 235,67% bei HR@20, NDCG@20 und MRR@20.

Vergleich mit Entrauschungs-Baseline: Bei den meisten Metriken übertrifft MGSD-WSS+BERT4Rec andere Entrauschungs-Baselines, besonders auf den Datensätzen ML-100k und ML-1M. Auf dem ML-1M-Datensatz liegen die Verbesserungen gegenüber der stärksten Baseline MSDCCL+BERT4Rec zwischen 30,80% und 60,94%.

Ablationsstudien

Analyse des Leistungsrückgangs nach Entfernung einzelner Module:

w/o AND (ohne Auxiliary Noise Discrimination): Größter Leistungsrückgang, beweist die Wichtigkeit schwach überwachter Signale
w/o InSD (ohne Interessensebenen-Entrauschung): Signifikante Auswirkungen auf Beauty-, Sports- und ML-1M-Datensätzen
w/o ItSD (ohne Elementebenen-Entrauschung): Größte Auswirkungen auf ML-100k- und Yelp-Datensätzen
w/o MGP (ohne Multiple Gaussian Kernel Perceptron): Führt zu Leistungsrückgang und validiert die Effektivität dieses Moduls

Analyse rausch-gewichteter kontrastiver Lernweise

Im Vergleich zur traditionellen kontrastiven Lernweise verbessert die rausch-gewichtete kontrastive Lernweise auf dem ML-100k-Datensatz HR@20, NDCG@20 und MRR@20 um 12,59%, 10,63% bzw. 9,48%, was die Effektivität präziser Gewichtszuweisung beweist.

Parametersensitivitätsanalyse

Anzahl der Rausch-Elemente $t$ :

Eine angemessene Anzahl von Rausch-Elementen hilft dem Modell, zwischen echten Vorlieben und Rausch zu unterscheiden
Zu viel Rausch verdünnt das Informationssignal und führt zu Leistungsrückgang

Anzahl der Benutzerinteressen $m$ :

Optimale Leistung wird bei $m=5$ erreicht
Zu viele Interessen können irrelevante Informationen einführen und die Leistung verringern

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Schwach überwachte Signale verbessern die Rausch-Erkennungsgenauigkeit signifikant
Multi-Granularität-Entrauschung ist effektiver als Entrauschung auf einzelner Elementebene
Rausch-gewichtete kontrastive Lernweise übertrifft traditionelle kontrastive Lernweise
Das Modell behält Robustheit über verschiedene Sequenzlängen hinweg

Einschränkungen

Teilweise unbefriedigende Leistung bei einigen Metriken auf Datensätzen mit kurzen Sequenzen (Beauty, Sports, Yelp)
Die Einführung von Rausch kann bei kurzen Sequenzen zu Informationsverschmutzung führen
Erfordert vordefinierte Hyperparameter wie Anzahl der Benutzerinteressen

Zukünftige Richtungen

Untersuchung der Auswirkungen verschiedener Gaußscher Kern-Einstellungen
Erkundung gegnerischer oder heuristischer Rausch-Generierungs-Strategien
Bereitstellung theoretischer oder datengestützter Begründung für Interessens-Konfigurationen

Tiefgreifende Bewertung

Stärken

Hohe Innovativität: Erstmalige Anwendung schwach überwachter Entrauschung in sequenzieller Empfehlung mit Vorschlag eines Multi-Granularität-Entrauschungs-Rahmens
Vollständige Methodik: Umfassende Lösung von Rausch-Erkennung bis Multi-Granularität-Entrauschung
Umfangreiche Experimente: Fünf Datensätze, mehrere Baselines, detaillierte Ablationsstudien und Parameteranalysen
Theoretisch fundiert: Rausch-gewichtete kontrastive Lernweise mit klarer theoretischer Motivation
Ausgezeichnete Leistung: Signifikante Überlegenheit gegenüber bestehenden Methoden bei den meisten Metriken

Mängel

Begrenzte Anwendbarkeit: Instabile Leistung auf Datensätzen mit kurzen Sequenzen
Rechenkomplexität: Multi-Granularität-Entrauschung und kontrastive Lernweise erhöhen den Rechenaufwand
Parametersensitivität: Erfordert sorgfältige Abstimmung von Rausch-Anzahl, Interessens-Anzahl und anderen Parametern
Rausch-Generierungs-Strategie: Zufällige Rausch-Einfügung könnte weniger realistisch sein

Auswirkungen

Akademischer Wert: Bietet neue Forschungsrichtung für Entrauschung in sequenzieller Empfehlung
Praktischer Wert: Anwendbar auf reale Empfehlungssysteme zur Leistungsverbesserung
Reproduzierbarkeit: Bereitstellung detaillierter Implementierungsdetails und Code

Anwendungsszenarien

Empfehlungssysteme mit langen Benutzer-Interaktionssequenzen
Empfehlungsszenarien mit hohem Rausch-Aufkommen (z. B. E-Commerce, Video-Plattformen)
Anwendungen, die feinkörnige Benutzerinteressen-Modellierung erfordern

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten aus den Bereichen sequenzielle Empfehlung, Entrauschungs-Methoden und kontrastive Lernweise, einschließlich:

Klassische Methoden der sequenziellen Empfehlung: GRU4Rec, SASRec, BERT4Rec
Entrauschungs-bezogene Arbeiten: HSD, MSDCCL usw.
Kontrastive Lernmethoden: CL4SRec, ICL usw.

Dieses Papier bietet eine innovative Lösung für das Rausch-Behandlungsproblem in der sequenziellen Empfehlung und hat sowohl theoretische als auch praktische Bedeutung.