2025-11-23T00:10:15.831186

Multi-Granularity Sequence Denoising with Weakly Supervised Signal for Sequential Recommendation

Li, Yang, Zhu

Sequential recommendation aims to predict the next item based on user interests in historical interaction sequences. Historical interaction sequences often contain irrelevant noisy items, which significantly hinders the performance of recommendation systems. Existing research employs unsupervised methods that indirectly identify item-granularity irrelevant noise by predicting the ground truth item. Since these methods lack explicit noise labels, they are prone to misidentify users' interested items as noise. Additionally, while these methods focus on removing item-granularity noise driven by the ground truth item, they overlook interest-granularity noise, limiting their ability to perform broader denoising based on user interests. To address these issues, we propose Multi-Granularity Sequence Denoising with Weakly Supervised Signal for Sequential Recommendation(MGSD-WSS). MGSD-WSS first introduces the Multiple Gaussian Kernel Perceptron module to map the original and enhance sequence into a common representation space and utilizes weakly supervised signals to accurately identify noisy items in the historical interaction sequence. Subsequently, it employs the item-granularity denoising module with noise-weighted contrastive learning to obtain denoised item representations. Then, it extracts target interest representations from the ground truth item and applies noise-weighted contrastive learning to obtain denoised interest representations. Finally, based on the denoised item and interest representations, MGSD-WSS predicts the next item. Extensive experiments on five datasets demonstrate that the proposed method significantly outperforms state-of-the-art sequence recommendation and denoising models. Our code is available at https://github.com/lalunex/MGSD-WSS.

academic

Denoising di Sequenze Multi-Granularità con Segnale Debolmente Supervisionato per la Raccomandazione Sequenziale

Informazioni Fondamentali

ID Articolo: 2510.10564
Titolo: Multi-Granularity Sequence Denoising with Weakly Supervised Signal for Sequential Recommendation
Autori: Liang Li (Chongqing University of Technology), Zhou Yang (Fuzhou University), Xiaofei Zhu (Chongqing University of Technology)
Classificazione: cs.IR (Information Retrieval)
Data di Pubblicazione: 12 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.10564
Link Codice: https://github.com/lalunex/MGSD-WSS

Abstract

La raccomandazione sequenziale mira a prevedere l'elemento successivo sulla base degli interessi derivati dalla sequenza di interazioni storiche dell'utente. Le sequenze di interazioni storiche contengono tipicamente elementi rumorosi non rilevanti, che ostacolano significativamente le prestazioni dei sistemi di raccomandazione. La ricerca esistente impiega metodi non supervisionati per identificare indirettamente il rumore a livello di elemento attraverso la previsione di elementi reali. Poiché questi metodi mancano di etichette di rumore esplicite, tendono a identificare erroneamente elementi di interesse dell'utente come rumore. Inoltre, questi metodi si concentrano sulla rimozione del rumore a livello di elemento guidato da elementi reali, ma trascurano il rumore a livello di interesse, limitando la capacità di denoising più ampio basato sugli interessi dell'utente. Per affrontare questi problemi, questo articolo propone MGSD-WSS (Multi-Granularity Sequence Denoising with Weakly Supervised Signal), un metodo di raccomandazione sequenziale con denoising multi-granularità e segnale debolmente supervisionato.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato dai sistemi di raccomandazione sequenziale è la presenza di elementi rumorosi nelle sequenze di interazioni storiche, come clic accidentali e interazioni false malintenzionate, che riducono significativamente le prestazioni del sistema di raccomandazione.

Limitazioni dei Metodi Esistenti

Metodi di Denoising Soft: Regolano il peso degli elementi rumorosi attraverso meccanismi di attenzione o algoritmi di filtraggio, ma non riescono a eliminare completamente l'effetto del rumore
Metodi di Denoising Hard: Generano segnali di rilevamento del rumore per rimuovere esplicitamente gli elementi rumorosi, ma presentano i seguenti problemi:
- Utilizzano elementi reali anziché etichette di rumore reali per guidare il modello nell'identificazione del rumore, con accuratezza limitata
- Si concentrano esclusivamente sul denoising a livello di elemento, trascurando il rumore a livello di interesse

Motivazione della Ricerca

L'assenza di etichette di rumore esplicite rende i metodi non supervisionati esistenti propensi a identificare erroneamente gli elementi di interesse dell'utente
Le interazioni dell'utente non solo riflettono preferenze per elementi specifici, ma incarnano anche interessi di livello superiore (ad esempio, l'interesse "sport" comprende calcio, scarpe da ginnastica, tapis roulant, ecc.)
È necessario eseguire il denoising gerarchico su più granularità per rimuovere il rumore in modo più completo

Contributi Principali

Introduzione per la Prima Volta di Segnali Debolmente Supervisionati: Addestra direttamente il modello per il rilevamento del rumore attraverso segnali debolmente supervisionati etichettati, superando l'imprecisione dei metodi non supervisionati precedenti
Denoising Gerarchico Multi-Granularità: Propone moduli di denoising gerarchico a livello di elemento e a livello di interesse, abbinati all'apprendimento contrastivo ponderato per il rumore
Progettazione Architettonica Innovativa:
- Modulo Multiple Gaussian Kernel Perceptron (MGP)
- Target-aware Sequence Encoding
- Framework di apprendimento contrastivo ponderato per il rumore
Miglioramento Significativo delle Prestazioni: Supera significativamente i modelli di raccomandazione sequenziale e denoising all'avanguardia su cinque dataset

Dettagli del Metodo

Definizione del Compito

Dato un insieme di utenti $\mathcal{U} = \{u_1, u_2, \ldots, u_{|\mathcal{U}|}\}$ e un insieme di elementi $\mathcal{V} = \{v_1, v_2, \ldots, v_{|\mathcal{V}|}\}$ , ogni utente $u \in \mathcal{U}$ è associato a una sequenza di interazioni storiche ordinata temporalmente $S = [s_1, s_2, \ldots, s_n]$ . L'obiettivo è utilizzare la sequenza di interazioni $S$ per prevedere l'elemento che l'utente ha maggiore probabilità di interagire al passo $(n+1)$ , ovvero $p(s_{n+1}|s_{1:n})$ .

Architettura del Modello

MGSD-WSS contiene tre componenti principali:

1. Target-aware Sequence Encoding

Aumento dei Dati di Sequenza:

Seleziona casualmente $t$ elementi distinti da inserire come rumore nella sequenza originale
Costruisce la sequenza aumentata $\bar{S} = [\bar{s}_1, \bar{s}_2, \ldots, \bar{s}_{n+t}]$
Ottiene il segnale di supervisione $\bar{Y} = [\bar{y}_1, \bar{y}_2, \ldots, \bar{y}_{n+t}]$ che indica le posizioni del rumore

Multiple Gaussian Kernel Perceptron (MGP):

Calcola la similarità del coseno tra l'elemento target e ogni elemento nella sequenza: $\bar{\alpha}_i = \cos(\bar{h}_{n+1}, \bar{h}_i)$
Utilizza $k$ kernel gaussiani per trasformare i punteggi di rilevanza: $r_{ij} = \exp\left(-\frac{(\bar{\alpha}_i - \mu_j)^2}{2\sigma_j^2}\right)$ $\hat{h}_i = \sum_{j=1}^k r_{ij} \bar{h}_i$
Ottiene rappresentazioni ricche attraverso un codificatore Transformer: $G = \text{Transformer}(\hat{H} + P)$

2. Auxiliary Noise Discrimination

Utilizza un discriminatore di rumore a livello di elemento condiviso per rilevare elementi rumorosi nella sequenza aumentata: $\boldsymbol{\beta}_i = \text{Softmax}((\text{ReLU}(\bar{g}_i W_1 + b_1))W_2)$

Minimizza la differenza tra il segnale di rilevamento del rumore e il segnale di supervisione attraverso la perdita MSE: $MSE = \frac{1}{n}\sum_{i=1}^n (\beta_i^0 - \bar{y}_i)^2$

3. Multi-granularity Sequence Denoising

Denoising a Livello di Elemento:

Utilizza Gumbel-softmax per convertire il segnale di rilevamento del rumore in valori binari hard
Filtra gli elementi rumorosi per costruire la matrice di rappresentazione denoised
Applica l'apprendimento contrastivo ponderato per il rumore: $ITSCL = -\frac{1}{|G^+|}\sum_{g_i \in G^+} \log \frac{\omega(g_i) \cdot \exp(\text{sim}(e_{se}, g_i)/\tau)}{\sum_{g_j \in G} \omega(g_j) \cdot \exp(\text{sim}(e_{se}, g_j)/\tau)}$

Denoising a Livello di Interesse:

Introduce una matrice di rappresentazione degli interessi apprendibile $Q = [q_1, q_2, \ldots, q_m]$
Calcola i punteggi di rilevanza tra elementi e interessi
Utilizza l'attenzione agli interessi consapevole del target per valutare l'affidabilità degli interessi
Applica l'apprendimento contrastivo ponderato per il rumore a livello di interesse

Punti di Innovazione Tecnica

Generazione di Segnali Debolmente Supervisionati: Genera etichette di rumore esplicite attraverso strategie di aumento dei dati, fornendo segnali di supervisione accurati
Denoising Multi-Granularità: Esegue il denoising simultaneamente a livello di elemento e di interesse, affrontando il rumore di sequenza in modo più completo
Apprendimento Contrastivo Ponderato per il Rumore: Assegna pesi ai campioni in base al grado di rumore, superiore all'apprendimento contrastivo tradizionale con pesi uguali
Perceptron con Kernel Gaussiani: Cattura informazioni da diverse regioni di similarità, migliorando la rappresentazione della sequenza

Configurazione Sperimentale

Dataset

Utilizza cinque dataset di benchmark pubblici:

Dataset	Sequenze	Utenti	Elementi	Lunghezza Media	Sparsità
ML-100k	99.287	944	1.350	105,29	92,21%
Beauty	198.502	22.364	12.102	8,88	99,93%
Sports	296.337	35.599	18.358	8,32	99,95%
Yelp	316.354	30.432	20.034	10,40	99,95%
ML-1M	999.611	6.041	3.417	165,50	95,16%

Metriche di Valutazione

Hit Ratio (HR@{5, 10, 20})
Normalized Discounted Cumulative Gain (NDCG@{5, 10, 20})
Mean Reciprocal Rank (MRR@20)

Metodi di Confronto

Baseline di Raccomandazione Sequenziale:

GRU4Rec, NARM, STAMP, CASER, SASRec, BERT4Rec

Baseline di Denoising:

DSAN, FMLP-Rec, HSD+BERT4Rec, AC-BERT4Rec, MSDCCL+BERT4Rec

Dettagli di Implementazione

Dimensione dell'embedding: 100
Dimensione del batch: 256
Tasso di apprendimento: 10^-3
Numero di kernel gaussiani: 10
Parametro di temperatura: τ = 0,5

Risultati Sperimentali

Risultati Principali

Confronto con Baseline di Raccomandazione Sequenziale: MGSD-WSS, se combinato con i principali modelli di raccomandazione sequenziale, raggiunge miglioramenti significativi delle prestazioni su tutti i dataset. Nel dataset ML-100k, MGSD-WSS+BERT4Rec mostra miglioramenti rispettivamente del 167,43%, 195,87% e 235,67% in HR@20, NDCG@20 e MRR@20 rispetto al BERT4Rec originale.

Confronto con Baseline di Denoising: Su la maggior parte delle metriche, MGSD-WSS+BERT4Rec supera altri baseline di denoising, in particolare sui dataset ML-100k e ML-1M. Nel dataset ML-1M, rispetto al baseline più forte MSDCCL+BERT4Rec, i miglioramenti variano dal 30,80% al 60,94%.

Esperimenti di Ablazione

Analisi della riduzione delle prestazioni dopo la rimozione di ciascun modulo:

w/o AND (senza Auxiliary Noise Discrimination): La maggiore riduzione delle prestazioni, dimostrando l'importanza dei segnali debolmente supervisionati
w/o InSD (senza Denoising a Livello di Interesse): Impatto significativo sulle prestazioni nei dataset Beauty, Sports e ML-1M
w/o ItSD (senza Denoising a Livello di Elemento): Impatto massimo sui dataset ML-100k e Yelp
w/o MGP (senza Multiple Gaussian Kernel Perceptron): Causa una riduzione delle prestazioni, convalidando l'efficacia del modulo

Analisi dell'Apprendimento Contrastivo Ponderato per il Rumore

Rispetto all'apprendimento contrastivo tradizionale, l'apprendimento contrastivo ponderato per il rumore migliora rispettivamente HR@20, NDCG@20 e MRR@20 del 12,59%, 10,63% e 9,48% nel dataset ML-100k, dimostrando l'efficacia dell'assegnazione precisa dei pesi.

Analisi della Sensibilità ai Parametri

Numero di Elementi Rumorosi $t$ :

Un numero moderato di elementi rumorosi aiuta il modello a imparare a distinguere le preferenze reali dal rumore
Un eccesso di rumore diluisce il segnale informativo, causando una riduzione delle prestazioni

Numero di Interessi dell'Utente $m$ :

Raggiunge le migliori prestazioni quando $m=5$
Un numero eccessivo di interessi può introdurre informazioni non rilevanti, riducendo le prestazioni

Lavori Correlati

Raccomandazione Sequenziale

Evoluzione dai metodi iniziali della catena di Markov ai metodi di apprendimento profondo, inclusi RNN, LSTM, CNN, meccanismi di attenzione e reti neurali grafiche. La ricerca recente integra grafi di conoscenza esterni, informazioni cross-domain e framework di apprendimento multimodale.

Metodi di Denoising

Divisi in due categorie: denoising soft (regolazione dei pesi) e denoising hard (rimozione diretta). I metodi di denoising hard esistenti si basano principalmente su elementi reali come guida, mancando di etichette di rumore reali e concentrandosi esclusivamente a livello di elemento.

Apprendimento Contrastivo

Utilizzato nei sistemi di raccomandazione per estrarre rappresentazioni di alta qualità, ma i metodi esistenti trattano tutti i campioni equamente, ignorando le differenze di importanza dei campioni.

Conclusioni e Discussione

Conclusioni Principali

I segnali debolmente supervisionati migliorano significativamente l'accuratezza del rilevamento del rumore
Il denoising multi-granularità è più efficace del denoising a singola granularità a livello di elemento
L'apprendimento contrastivo ponderato per il rumore supera l'apprendimento contrastivo tradizionale
Il modello mantiene robustezza su diverse lunghezze di sequenza

Limitazioni

Le prestazioni su alcuni indicatori nei dataset a sequenza breve (Beauty, Sports, Yelp) non sono ideali
L'introduzione di rumore potrebbe causare inquinamento informativo nelle sequenze brevi
È necessario preimpostare iperparametri come il numero di interessi dell'utente

Direzioni Future

Investigare l'impatto di diverse configurazioni di kernel gaussiani
Esplorare strategie di generazione del rumore avversariali o euristiche
Fornire analisi teoriche o guidate dai dati sulla ragionevolezza della configurazione degli interessi

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Prima applicazione del denoising debolmente supervisionato nella raccomandazione sequenziale, propone un framework di denoising multi-granularità
Metodo Completo: Soluzione completa dal rilevamento del rumore al denoising multi-granularità
Sperimentazione Completa: Cinque dataset, molteplici baseline, esperimenti di ablazione dettagliati e analisi parametriche
Razionalità Teorica: L'apprendimento contrastivo ponderato per il rumore ha una motivazione teorica esplicita
Prestazioni Eccellenti: Supera significativamente i metodi esistenti su la maggior parte degli indicatori

Insufficienze

Limitazioni di Applicabilità: Prestazioni instabili su dataset a sequenza breve
Complessità Computazionale: Il denoising multi-granularità e l'apprendimento contrastivo aumentano il carico computazionale
Sensibilità agli Iperparametri: Richiede un'attenta regolazione del numero di elementi rumorosi, numero di interessi e altri parametri
Strategia di Generazione del Rumore: L'inserimento casuale di rumore potrebbe non essere sufficientemente realistico

Impatto

Valore Accademico: Fornisce una nuova direzione di ricerca per il denoising nella raccomandazione sequenziale
Valore Pratico: Applicabile ai sistemi di raccomandazione reali per migliorare le prestazioni
Riproducibilità: Fornisce dettagli di implementazione dettagliati e codice

Scenari di Applicazione

Sistemi di raccomandazione con dati di interazione utente a sequenza lunga
Scenari di raccomandazione con rumore elevato (come e-commerce e piattaforme video)
Applicazioni che richiedono la modellazione raffinata degli interessi dell'utente

Riferimenti Bibliografici

L'articolo cita lavori importanti nei campi della raccomandazione sequenziale, metodi di denoising e apprendimento contrastivo, inclusi:

Metodi classici di raccomandazione sequenziale: GRU4Rec, SASRec, BERT4Rec
Lavori correlati al denoising: HSD, MSDCCL, ecc.
Metodi di apprendimento contrastivo: CL4SRec, ICL, ecc.

Questo articolo fornisce una soluzione innovativa al problema della gestione del rumore nella raccomandazione sequenziale, con significativo valore sia teorico che pratico.