2025-11-23T00:10:15.831186

Multi-Granularity Sequence Denoising with Weakly Supervised Signal for Sequential Recommendation

Li, Yang, Zhu
Sequential recommendation aims to predict the next item based on user interests in historical interaction sequences. Historical interaction sequences often contain irrelevant noisy items, which significantly hinders the performance of recommendation systems. Existing research employs unsupervised methods that indirectly identify item-granularity irrelevant noise by predicting the ground truth item. Since these methods lack explicit noise labels, they are prone to misidentify users' interested items as noise. Additionally, while these methods focus on removing item-granularity noise driven by the ground truth item, they overlook interest-granularity noise, limiting their ability to perform broader denoising based on user interests. To address these issues, we propose Multi-Granularity Sequence Denoising with Weakly Supervised Signal for Sequential Recommendation(MGSD-WSS). MGSD-WSS first introduces the Multiple Gaussian Kernel Perceptron module to map the original and enhance sequence into a common representation space and utilizes weakly supervised signals to accurately identify noisy items in the historical interaction sequence. Subsequently, it employs the item-granularity denoising module with noise-weighted contrastive learning to obtain denoised item representations. Then, it extracts target interest representations from the ground truth item and applies noise-weighted contrastive learning to obtain denoised interest representations. Finally, based on the denoised item and interest representations, MGSD-WSS predicts the next item. Extensive experiments on five datasets demonstrate that the proposed method significantly outperforms state-of-the-art sequence recommendation and denoising models. Our code is available at https://github.com/lalunex/MGSD-WSS.
academic

Denoising di Sequenze Multi-Granularità con Segnale Debolmente Supervisionato per la Raccomandazione Sequenziale

Informazioni Fondamentali

  • ID Articolo: 2510.10564
  • Titolo: Multi-Granularity Sequence Denoising with Weakly Supervised Signal for Sequential Recommendation
  • Autori: Liang Li (Chongqing University of Technology), Zhou Yang (Fuzhou University), Xiaofei Zhu (Chongqing University of Technology)
  • Classificazione: cs.IR (Information Retrieval)
  • Data di Pubblicazione: 12 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.10564
  • Link Codice: https://github.com/lalunex/MGSD-WSS

Abstract

La raccomandazione sequenziale mira a prevedere l'elemento successivo sulla base degli interessi derivati dalla sequenza di interazioni storiche dell'utente. Le sequenze di interazioni storiche contengono tipicamente elementi rumorosi non rilevanti, che ostacolano significativamente le prestazioni dei sistemi di raccomandazione. La ricerca esistente impiega metodi non supervisionati per identificare indirettamente il rumore a livello di elemento attraverso la previsione di elementi reali. Poiché questi metodi mancano di etichette di rumore esplicite, tendono a identificare erroneamente elementi di interesse dell'utente come rumore. Inoltre, questi metodi si concentrano sulla rimozione del rumore a livello di elemento guidato da elementi reali, ma trascurano il rumore a livello di interesse, limitando la capacità di denoising più ampio basato sugli interessi dell'utente. Per affrontare questi problemi, questo articolo propone MGSD-WSS (Multi-Granularity Sequence Denoising with Weakly Supervised Signal), un metodo di raccomandazione sequenziale con denoising multi-granularità e segnale debolmente supervisionato.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato dai sistemi di raccomandazione sequenziale è la presenza di elementi rumorosi nelle sequenze di interazioni storiche, come clic accidentali e interazioni false malintenzionate, che riducono significativamente le prestazioni del sistema di raccomandazione.

Limitazioni dei Metodi Esistenti

  1. Metodi di Denoising Soft: Regolano il peso degli elementi rumorosi attraverso meccanismi di attenzione o algoritmi di filtraggio, ma non riescono a eliminare completamente l'effetto del rumore
  2. Metodi di Denoising Hard: Generano segnali di rilevamento del rumore per rimuovere esplicitamente gli elementi rumorosi, ma presentano i seguenti problemi:
    • Utilizzano elementi reali anziché etichette di rumore reali per guidare il modello nell'identificazione del rumore, con accuratezza limitata
    • Si concentrano esclusivamente sul denoising a livello di elemento, trascurando il rumore a livello di interesse

Motivazione della Ricerca

  • L'assenza di etichette di rumore esplicite rende i metodi non supervisionati esistenti propensi a identificare erroneamente gli elementi di interesse dell'utente
  • Le interazioni dell'utente non solo riflettono preferenze per elementi specifici, ma incarnano anche interessi di livello superiore (ad esempio, l'interesse "sport" comprende calcio, scarpe da ginnastica, tapis roulant, ecc.)
  • È necessario eseguire il denoising gerarchico su più granularità per rimuovere il rumore in modo più completo

Contributi Principali

  1. Introduzione per la Prima Volta di Segnali Debolmente Supervisionati: Addestra direttamente il modello per il rilevamento del rumore attraverso segnali debolmente supervisionati etichettati, superando l'imprecisione dei metodi non supervisionati precedenti
  2. Denoising Gerarchico Multi-Granularità: Propone moduli di denoising gerarchico a livello di elemento e a livello di interesse, abbinati all'apprendimento contrastivo ponderato per il rumore
  3. Progettazione Architettonica Innovativa:
    • Modulo Multiple Gaussian Kernel Perceptron (MGP)
    • Target-aware Sequence Encoding
    • Framework di apprendimento contrastivo ponderato per il rumore
  4. Miglioramento Significativo delle Prestazioni: Supera significativamente i modelli di raccomandazione sequenziale e denoising all'avanguardia su cinque dataset

Dettagli del Metodo

Definizione del Compito

Dato un insieme di utenti U={u1,u2,,uU}\mathcal{U} = \{u_1, u_2, \ldots, u_{|\mathcal{U}|}\} e un insieme di elementi V={v1,v2,,vV}\mathcal{V} = \{v_1, v_2, \ldots, v_{|\mathcal{V}|}\}, ogni utente uUu \in \mathcal{U} è associato a una sequenza di interazioni storiche ordinata temporalmente S=[s1,s2,,sn]S = [s_1, s_2, \ldots, s_n]. L'obiettivo è utilizzare la sequenza di interazioni SS per prevedere l'elemento che l'utente ha maggiore probabilità di interagire al passo (n+1)(n+1), ovvero p(sn+1s1:n)p(s_{n+1}|s_{1:n}).

Architettura del Modello

MGSD-WSS contiene tre componenti principali:

1. Target-aware Sequence Encoding

Aumento dei Dati di Sequenza:

  • Seleziona casualmente tt elementi distinti da inserire come rumore nella sequenza originale
  • Costruisce la sequenza aumentata Sˉ=[sˉ1,sˉ2,,sˉn+t]\bar{S} = [\bar{s}_1, \bar{s}_2, \ldots, \bar{s}_{n+t}]
  • Ottiene il segnale di supervisione Yˉ=[yˉ1,yˉ2,,yˉn+t]\bar{Y} = [\bar{y}_1, \bar{y}_2, \ldots, \bar{y}_{n+t}] che indica le posizioni del rumore

Multiple Gaussian Kernel Perceptron (MGP):

  • Calcola la similarità del coseno tra l'elemento target e ogni elemento nella sequenza: αˉi=cos(hˉn+1,hˉi)\bar{\alpha}_i = \cos(\bar{h}_{n+1}, \bar{h}_i)
  • Utilizza kk kernel gaussiani per trasformare i punteggi di rilevanza: rij=exp((αˉiμj)22σj2)r_{ij} = \exp\left(-\frac{(\bar{\alpha}_i - \mu_j)^2}{2\sigma_j^2}\right)h^i=j=1krijhˉi\hat{h}_i = \sum_{j=1}^k r_{ij} \bar{h}_i
  • Ottiene rappresentazioni ricche attraverso un codificatore Transformer: G=Transformer(H^+P)G = \text{Transformer}(\hat{H} + P)

2. Auxiliary Noise Discrimination

Utilizza un discriminatore di rumore a livello di elemento condiviso per rilevare elementi rumorosi nella sequenza aumentata: βi=Softmax((ReLU(gˉiW1+b1))W2)\boldsymbol{\beta}_i = \text{Softmax}((\text{ReLU}(\bar{g}_i W_1 + b_1))W_2)

Minimizza la differenza tra il segnale di rilevamento del rumore e il segnale di supervisione attraverso la perdita MSE: MSE=1ni=1n(βi0yˉi)2MSE = \frac{1}{n}\sum_{i=1}^n (\beta_i^0 - \bar{y}_i)^2

3. Multi-granularity Sequence Denoising

Denoising a Livello di Elemento:

  • Utilizza Gumbel-softmax per convertire il segnale di rilevamento del rumore in valori binari hard
  • Filtra gli elementi rumorosi per costruire la matrice di rappresentazione denoised
  • Applica l'apprendimento contrastivo ponderato per il rumore: ITSCL=1G+giG+logω(gi)exp(sim(ese,gi)/τ)gjGω(gj)exp(sim(ese,gj)/τ)ITSCL = -\frac{1}{|G^+|}\sum_{g_i \in G^+} \log \frac{\omega(g_i) \cdot \exp(\text{sim}(e_{se}, g_i)/\tau)}{\sum_{g_j \in G} \omega(g_j) \cdot \exp(\text{sim}(e_{se}, g_j)/\tau)}

Denoising a Livello di Interesse:

  • Introduce una matrice di rappresentazione degli interessi apprendibile Q=[q1,q2,,qm]Q = [q_1, q_2, \ldots, q_m]
  • Calcola i punteggi di rilevanza tra elementi e interessi
  • Utilizza l'attenzione agli interessi consapevole del target per valutare l'affidabilità degli interessi
  • Applica l'apprendimento contrastivo ponderato per il rumore a livello di interesse

Punti di Innovazione Tecnica

  1. Generazione di Segnali Debolmente Supervisionati: Genera etichette di rumore esplicite attraverso strategie di aumento dei dati, fornendo segnali di supervisione accurati
  2. Denoising Multi-Granularità: Esegue il denoising simultaneamente a livello di elemento e di interesse, affrontando il rumore di sequenza in modo più completo
  3. Apprendimento Contrastivo Ponderato per il Rumore: Assegna pesi ai campioni in base al grado di rumore, superiore all'apprendimento contrastivo tradizionale con pesi uguali
  4. Perceptron con Kernel Gaussiani: Cattura informazioni da diverse regioni di similarità, migliorando la rappresentazione della sequenza

Configurazione Sperimentale

Dataset

Utilizza cinque dataset di benchmark pubblici:

DatasetSequenzeUtentiElementiLunghezza MediaSparsità
ML-100k99.2879441.350105,2992,21%
Beauty198.50222.36412.1028,8899,93%
Sports296.33735.59918.3588,3299,95%
Yelp316.35430.43220.03410,4099,95%
ML-1M999.6116.0413.417165,5095,16%

Metriche di Valutazione

  • Hit Ratio (HR@{5, 10, 20})
  • Normalized Discounted Cumulative Gain (NDCG@{5, 10, 20})
  • Mean Reciprocal Rank (MRR@20)

Metodi di Confronto

Baseline di Raccomandazione Sequenziale:

  • GRU4Rec, NARM, STAMP, CASER, SASRec, BERT4Rec

Baseline di Denoising:

  • DSAN, FMLP-Rec, HSD+BERT4Rec, AC-BERT4Rec, MSDCCL+BERT4Rec

Dettagli di Implementazione

  • Dimensione dell'embedding: 100
  • Dimensione del batch: 256
  • Tasso di apprendimento: 10^-3
  • Numero di kernel gaussiani: 10
  • Parametro di temperatura: τ = 0,5

Risultati Sperimentali

Risultati Principali

Confronto con Baseline di Raccomandazione Sequenziale: MGSD-WSS, se combinato con i principali modelli di raccomandazione sequenziale, raggiunge miglioramenti significativi delle prestazioni su tutti i dataset. Nel dataset ML-100k, MGSD-WSS+BERT4Rec mostra miglioramenti rispettivamente del 167,43%, 195,87% e 235,67% in HR@20, NDCG@20 e MRR@20 rispetto al BERT4Rec originale.

Confronto con Baseline di Denoising: Su la maggior parte delle metriche, MGSD-WSS+BERT4Rec supera altri baseline di denoising, in particolare sui dataset ML-100k e ML-1M. Nel dataset ML-1M, rispetto al baseline più forte MSDCCL+BERT4Rec, i miglioramenti variano dal 30,80% al 60,94%.

Esperimenti di Ablazione

Analisi della riduzione delle prestazioni dopo la rimozione di ciascun modulo:

  • w/o AND (senza Auxiliary Noise Discrimination): La maggiore riduzione delle prestazioni, dimostrando l'importanza dei segnali debolmente supervisionati
  • w/o InSD (senza Denoising a Livello di Interesse): Impatto significativo sulle prestazioni nei dataset Beauty, Sports e ML-1M
  • w/o ItSD (senza Denoising a Livello di Elemento): Impatto massimo sui dataset ML-100k e Yelp
  • w/o MGP (senza Multiple Gaussian Kernel Perceptron): Causa una riduzione delle prestazioni, convalidando l'efficacia del modulo

Analisi dell'Apprendimento Contrastivo Ponderato per il Rumore

Rispetto all'apprendimento contrastivo tradizionale, l'apprendimento contrastivo ponderato per il rumore migliora rispettivamente HR@20, NDCG@20 e MRR@20 del 12,59%, 10,63% e 9,48% nel dataset ML-100k, dimostrando l'efficacia dell'assegnazione precisa dei pesi.

Analisi della Sensibilità ai Parametri

Numero di Elementi Rumorosi tt:

  • Un numero moderato di elementi rumorosi aiuta il modello a imparare a distinguere le preferenze reali dal rumore
  • Un eccesso di rumore diluisce il segnale informativo, causando una riduzione delle prestazioni

Numero di Interessi dell'Utente mm:

  • Raggiunge le migliori prestazioni quando m=5m=5
  • Un numero eccessivo di interessi può introdurre informazioni non rilevanti, riducendo le prestazioni

Lavori Correlati

Raccomandazione Sequenziale

Evoluzione dai metodi iniziali della catena di Markov ai metodi di apprendimento profondo, inclusi RNN, LSTM, CNN, meccanismi di attenzione e reti neurali grafiche. La ricerca recente integra grafi di conoscenza esterni, informazioni cross-domain e framework di apprendimento multimodale.

Metodi di Denoising

Divisi in due categorie: denoising soft (regolazione dei pesi) e denoising hard (rimozione diretta). I metodi di denoising hard esistenti si basano principalmente su elementi reali come guida, mancando di etichette di rumore reali e concentrandosi esclusivamente a livello di elemento.

Apprendimento Contrastivo

Utilizzato nei sistemi di raccomandazione per estrarre rappresentazioni di alta qualità, ma i metodi esistenti trattano tutti i campioni equamente, ignorando le differenze di importanza dei campioni.

Conclusioni e Discussione

Conclusioni Principali

  1. I segnali debolmente supervisionati migliorano significativamente l'accuratezza del rilevamento del rumore
  2. Il denoising multi-granularità è più efficace del denoising a singola granularità a livello di elemento
  3. L'apprendimento contrastivo ponderato per il rumore supera l'apprendimento contrastivo tradizionale
  4. Il modello mantiene robustezza su diverse lunghezze di sequenza

Limitazioni

  1. Le prestazioni su alcuni indicatori nei dataset a sequenza breve (Beauty, Sports, Yelp) non sono ideali
  2. L'introduzione di rumore potrebbe causare inquinamento informativo nelle sequenze brevi
  3. È necessario preimpostare iperparametri come il numero di interessi dell'utente

Direzioni Future

  1. Investigare l'impatto di diverse configurazioni di kernel gaussiani
  2. Esplorare strategie di generazione del rumore avversariali o euristiche
  3. Fornire analisi teoriche o guidate dai dati sulla ragionevolezza della configurazione degli interessi

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Prima applicazione del denoising debolmente supervisionato nella raccomandazione sequenziale, propone un framework di denoising multi-granularità
  2. Metodo Completo: Soluzione completa dal rilevamento del rumore al denoising multi-granularità
  3. Sperimentazione Completa: Cinque dataset, molteplici baseline, esperimenti di ablazione dettagliati e analisi parametriche
  4. Razionalità Teorica: L'apprendimento contrastivo ponderato per il rumore ha una motivazione teorica esplicita
  5. Prestazioni Eccellenti: Supera significativamente i metodi esistenti su la maggior parte degli indicatori

Insufficienze

  1. Limitazioni di Applicabilità: Prestazioni instabili su dataset a sequenza breve
  2. Complessità Computazionale: Il denoising multi-granularità e l'apprendimento contrastivo aumentano il carico computazionale
  3. Sensibilità agli Iperparametri: Richiede un'attenta regolazione del numero di elementi rumorosi, numero di interessi e altri parametri
  4. Strategia di Generazione del Rumore: L'inserimento casuale di rumore potrebbe non essere sufficientemente realistico

Impatto

  1. Valore Accademico: Fornisce una nuova direzione di ricerca per il denoising nella raccomandazione sequenziale
  2. Valore Pratico: Applicabile ai sistemi di raccomandazione reali per migliorare le prestazioni
  3. Riproducibilità: Fornisce dettagli di implementazione dettagliati e codice

Scenari di Applicazione

  1. Sistemi di raccomandazione con dati di interazione utente a sequenza lunga
  2. Scenari di raccomandazione con rumore elevato (come e-commerce e piattaforme video)
  3. Applicazioni che richiedono la modellazione raffinata degli interessi dell'utente

Riferimenti Bibliografici

L'articolo cita lavori importanti nei campi della raccomandazione sequenziale, metodi di denoising e apprendimento contrastivo, inclusi:

  • Metodi classici di raccomandazione sequenziale: GRU4Rec, SASRec, BERT4Rec
  • Lavori correlati al denoising: HSD, MSDCCL, ecc.
  • Metodi di apprendimento contrastivo: CL4SRec, ICL, ecc.

Questo articolo fornisce una soluzione innovativa al problema della gestione del rumore nella raccomandazione sequenziale, con significativo valore sia teorico che pratico.