2025-11-23T00:10:15.831186

Multi-Granularity Sequence Denoising with Weakly Supervised Signal for Sequential Recommendation

Li, Yang, Zhu
Sequential recommendation aims to predict the next item based on user interests in historical interaction sequences. Historical interaction sequences often contain irrelevant noisy items, which significantly hinders the performance of recommendation systems. Existing research employs unsupervised methods that indirectly identify item-granularity irrelevant noise by predicting the ground truth item. Since these methods lack explicit noise labels, they are prone to misidentify users' interested items as noise. Additionally, while these methods focus on removing item-granularity noise driven by the ground truth item, they overlook interest-granularity noise, limiting their ability to perform broader denoising based on user interests. To address these issues, we propose Multi-Granularity Sequence Denoising with Weakly Supervised Signal for Sequential Recommendation(MGSD-WSS). MGSD-WSS first introduces the Multiple Gaussian Kernel Perceptron module to map the original and enhance sequence into a common representation space and utilizes weakly supervised signals to accurately identify noisy items in the historical interaction sequence. Subsequently, it employs the item-granularity denoising module with noise-weighted contrastive learning to obtain denoised item representations. Then, it extracts target interest representations from the ground truth item and applies noise-weighted contrastive learning to obtain denoised interest representations. Finally, based on the denoised item and interest representations, MGSD-WSS predicts the next item. Extensive experiments on five datasets demonstrate that the proposed method significantly outperforms state-of-the-art sequence recommendation and denoising models. Our code is available at https://github.com/lalunex/MGSD-WSS.
academic

Débruitage de Séquences Multi-Granularité avec Signal Faiblement Supervisé pour la Recommandation Séquentielle

Informations Fondamentales

  • ID de l'article : 2510.10564
  • Titre : Multi-Granularity Sequence Denoising with Weakly Supervised Signal for Sequential Recommendation
  • Auteurs : Liang Li (Université Technologique de Chongqing), Zhou Yang (Université de Fuzhou), Xiaofei Zhu (Université Technologique de Chongqing)
  • Classification : cs.IR (Récupération d'Information)
  • Date de Publication : 12 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.10564
  • Lien du code : https://github.com/lalunex/MGSD-WSS

Résumé

La recommandation séquentielle vise à prédire l'élément suivant en fonction des intérêts extraits de la séquence d'interactions historiques de l'utilisateur. Les séquences d'interactions historiques contiennent généralement des éléments bruits non pertinents, qui entravent considérablement les performances du système de recommandation. Les recherches existantes adoptent des approches non supervisées, identifiant indirectement les bruits au niveau des éléments en prédisant les éléments réels. Faute d'étiquettes de bruit explicites, ces méthodes risquent de mal classer les éléments d'intérêt de l'utilisateur comme du bruit. De plus, ces méthodes se concentrent sur l'élimination des bruits au niveau des éléments générés par les éléments réels, mais ignorent les bruits au niveau des intérêts, limitant la capacité à effectuer un débruitage plus large basé sur les intérêts de l'utilisateur. Pour résoudre ces problèmes, cet article propose une méthode de recommandation séquentielle avec débruitage de séquences multi-granularité et signal faiblement supervisé (MGSD-WSS).

Contexte de Recherche et Motivation

Définition du Problème

Le problème fondamental auquel font face les systèmes de recommandation séquentielle est la présence d'éléments bruits dans les séquences d'interactions historiques, tels que les clics accidentels et les fausses interactions malveillantes, qui réduisent considérablement les performances du système de recommandation.

Limitations des Méthodes Existantes

  1. Méthodes de débruitage souple : Ajustent le poids des éléments bruits via des mécanismes d'attention ou des algorithmes de filtrage, mais ne peuvent pas éliminer complètement l'impact du bruit
  2. Méthodes de débruitage dur : Génèrent des signaux de détection de bruit pour supprimer explicitement les éléments bruits, mais présentent les problèmes suivants :
    • Utilisent des éléments réels plutôt que des étiquettes de bruit réelles pour guider la détection de bruit par le modèle, avec une précision limitée
    • Se concentrent uniquement sur le débruitage au niveau des éléments, ignorant les bruits au niveau des intérêts

Motivation de la Recherche

  • L'absence d'étiquettes de bruit explicites rend les méthodes non supervisées existantes susceptibles de mal classer les éléments d'intérêt de l'utilisateur
  • Les interactions utilisateur reflètent non seulement les préférences pour des éléments spécifiques, mais incarnent également des intérêts de niveau supérieur (par exemple, l'intérêt « sport » englobe le football, les chaussures de sport, les tapis roulants, etc.)
  • Un débruitage hiérarchique à plusieurs niveaux de granularité est nécessaire pour éliminer le bruit de manière plus complète

Contributions Fondamentales

  1. Introduction pionnière de signaux faiblement supervisés : Entraîne directement le modèle pour la détection de bruit via des signaux faiblement supervisés étiquetés, surpassant l'imprécision des méthodes non supervisées antérieures
  2. Débruitage hiérarchique multi-granularité : Propose des modules de débruitage hiérarchiques au niveau des éléments et des intérêts, associés à l'apprentissage contrastif pondéré par le bruit
  3. Conception architecturale innovante :
    • Module Multiple Gaussian Kernel Perceptron (MGP)
    • Codage de Séquence Conscient de la Cible
    • Cadre d'apprentissage contrastif pondéré par le bruit
  4. Améliorations de performance significatives : Surpasse considérablement les modèles de recommandation séquentielle et de débruitage de pointe sur cinq ensembles de données

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné un ensemble d'utilisateurs U={u1,u2,,uU}\mathcal{U} = \{u_1, u_2, \ldots, u_{|\mathcal{U}|}\} et un ensemble d'éléments V={v1,v2,,vV}\mathcal{V} = \{v_1, v_2, \ldots, v_{|\mathcal{V}|}\}, chaque utilisateur uUu \in \mathcal{U} est associé à une séquence d'interactions historiques ordonnée chronologiquement S=[s1,s2,,sn]S = [s_1, s_2, \ldots, s_n]. L'objectif est d'utiliser la séquence d'interactions SS pour prédire l'élément que l'utilisateur est le plus susceptible d'interagir à l'étape (n+1)(n+1), c'est-à-dire p(sn+1s1:n)p(s_{n+1}|s_{1:n}).

Architecture du Modèle

MGSD-WSS contient trois composants fondamentaux :

1. Codage de Séquence Conscient de la Cible

Augmentation des données de séquence :

  • Sélectionne aléatoirement tt éléments distincts comme bruit à insérer dans la séquence originale
  • Construit une séquence augmentée Sˉ=[sˉ1,sˉ2,,sˉn+t]\bar{S} = [\bar{s}_1, \bar{s}_2, \ldots, \bar{s}_{n+t}]
  • Obtient un signal supervisé Yˉ=[yˉ1,yˉ2,,yˉn+t]\bar{Y} = [\bar{y}_1, \bar{y}_2, \ldots, \bar{y}_{n+t}] indiquant les positions de bruit

Multiple Gaussian Kernel Perceptron (MGP) :

  • Calcule la similarité cosinus entre l'élément cible et chaque élément de la séquence : αˉi=cos(hˉn+1,hˉi)\bar{\alpha}_i = \cos(\bar{h}_{n+1}, \bar{h}_i)
  • Utilise kk noyaux gaussiens pour transformer les scores de pertinence : rij=exp((αˉiμj)22σj2)r_{ij} = \exp\left(-\frac{(\bar{\alpha}_i - \mu_j)^2}{2\sigma_j^2}\right)h^i=j=1krijhˉi\hat{h}_i = \sum_{j=1}^k r_{ij} \bar{h}_i
  • Obtient des représentations riches via un encodeur Transformer : G=Transformer(H^+P)G = \text{Transformer}(\hat{H} + P)

2. Discrimination Auxiliaire de Bruit

Utilise un discriminateur de bruit au niveau des éléments partagé pour détecter les éléments bruits dans la séquence augmentée : βi=Softmax((ReLU(gˉiW1+b1))W2)\boldsymbol{\beta}_i = \text{Softmax}((\text{ReLU}(\bar{g}_i W_1 + b_1))W_2)

Minimise la différence entre le signal de détection de bruit et le signal supervisé via une perte MSE : MSE=1ni=1n(βi0yˉi)2MSE = \frac{1}{n}\sum_{i=1}^n (\beta_i^0 - \bar{y}_i)^2

3. Débruitage de Séquences Multi-Granularité

Débruitage au niveau des éléments :

  • Convertit le signal de détection de bruit en valeurs binaires dures via Gumbel-softmax
  • Filtre les éléments bruits pour construire une matrice de représentation débruitée
  • Applique l'apprentissage contrastif pondéré par le bruit : ITSCL=1G+giG+logω(gi)exp(sim(ese,gi)/τ)gjGω(gj)exp(sim(ese,gj)/τ)ITSCL = -\frac{1}{|G^+|}\sum_{g_i \in G^+} \log \frac{\omega(g_i) \cdot \exp(\text{sim}(e_{se}, g_i)/\tau)}{\sum_{g_j \in G} \omega(g_j) \cdot \exp(\text{sim}(e_{se}, g_j)/\tau)}

Débruitage au niveau des intérêts :

  • Introduit une matrice de représentation d'intérêts apprenable Q=[q1,q2,,qm]Q = [q_1, q_2, \ldots, q_m]
  • Calcule les scores de pertinence entre les éléments et les intérêts
  • Évalue la fiabilité des intérêts via l'attention d'intérêt consciente de la cible
  • Applique l'apprentissage contrastif pondéré par le bruit au niveau des intérêts

Points d'Innovation Technique

  1. Génération de signaux faiblement supervisés : Génère des étiquettes de bruit explicites via une stratégie d'augmentation de données, fournissant des signaux supervisés précis
  2. Débruitage multi-granularité : Effectue le débruitage simultanément au niveau des éléments et des intérêts, traitant le bruit de séquence de manière plus complète
  3. Apprentissage contrastif pondéré par le bruit : Attribue des poids aux échantillons selon leur degré de bruit, surpassant l'apprentissage contrastif traditionnel à poids égaux
  4. Perceptron à noyaux gaussiens : Capture les informations de différentes régions de similarité, enrichissant la représentation de séquence

Configuration Expérimentale

Ensembles de Données

Utilise cinq ensembles de données de référence publics :

Ensemble de DonnéesNombre de SéquencesNombre d'UtilisateursNombre d'ÉlémentsLongueur MoyenneParcimonie
ML-100k99,2879441,350105.2992.21%
Beauty198,50222,36412,1028.8899.93%
Sports296,33735,59918,3588.3299.95%
Yelp316,35430,43220,03410.4099.95%
ML-1M999,6116,0413,417165.5095.16%

Métriques d'Évaluation

  • Hit Ratio (HR@{5, 10, 20})
  • Normalized Discounted Cumulative Gain (NDCG@{5, 10, 20})
  • Mean Reciprocal Rank (MRR@20)

Méthodes Comparatives

Lignes de base de recommandation séquentielle :

  • GRU4Rec, NARM, STAMP, CASER, SASRec, BERT4Rec

Lignes de base de débruitage :

  • DSAN, FMLP-Rec, HSD+BERT4Rec, AC-BERT4Rec, MSDCCL+BERT4Rec

Détails d'Implémentation

  • Dimension d'intégration : 100
  • Taille de lot : 256
  • Taux d'apprentissage : 10^-3
  • Nombre de noyaux gaussiens : 10
  • Paramètre de température : τ = 0.5

Résultats Expérimentaux

Résultats Principaux

Comparaison avec les lignes de base de recommandation séquentielle : MGSD-WSS combiné avec divers modèles de recommandation séquentielle populaires obtient des améliorations de performance significatives sur tous les ensembles de données. Sur l'ensemble de données ML-100k, MGSD-WSS+BERT4Rec améliore respectivement HR@20, NDCG@20 et MRR@20 de 167.43%, 195.87% et 235.67% par rapport au BERT4Rec original.

Comparaison avec les lignes de base de débruitage : Sur la plupart des métriques, MGSD-WSS+BERT4Rec surpasse les autres lignes de base de débruitage, en particulier sur les ensembles de données ML-100k et ML-1M. Sur l'ensemble de données ML-1M, les améliorations par rapport à la ligne de base la plus forte MSDCCL+BERT4Rec varient de 30.80% à 60.94%.

Étude d'Ablation

Analyse de la dégradation des performances après suppression de chaque module :

  • w/o AND (sans discrimination auxiliaire de bruit) : La plus grande dégradation de performance, démontrant l'importance des signaux faiblement supervisés
  • w/o InSD (sans débruitage au niveau des intérêts) : Impact significatif sur les ensembles de données Beauty, Sports et ML-1M
  • w/o ItSD (sans débruitage au niveau des éléments) : Impact maximal sur les ensembles de données ML-100k et Yelp
  • w/o MGP (sans perceptron multi-noyaux gaussiens) : Entraîne une dégradation de performance, validant l'efficacité du module

Analyse de l'Apprentissage Contrastif Pondéré par le Bruit

Comparé à l'apprentissage contrastif traditionnel, l'apprentissage contrastif pondéré par le bruit améliore respectivement HR@20, NDCG@20 et MRR@20 de 12.59%, 10.63% et 9.48% sur l'ensemble de données ML-100k, démontrant l'efficacité de l'attribution de poids précis.

Analyse de Sensibilité aux Paramètres

Nombre d'éléments bruits tt :

  • Un nombre modéré d'éléments bruits aide le modèle à apprendre à distinguer les préférences réelles du bruit
  • Un excès de bruit dilue le signal informatif, entraînant une dégradation de performance

Nombre d'intérêts utilisateur mm :

  • Performance optimale atteinte à m=5m=5
  • Un excès d'intérêts peut introduire des informations non pertinentes, réduisant la performance

Travaux Connexes

Recommandation Séquentielle

Évolution des méthodes de chaînes de Markov précoces vers des méthodes d'apprentissage profond, incluant RNN, LSTM, CNN, mécanismes d'attention et réseaux de neurones graphiques. Les recherches récentes intègrent des graphes de connaissances externes, des informations inter-domaines et des cadres d'apprentissage multimodal.

Méthodes de Débruitage

Se divisent en deux catégories : débruitage souple (ajustement des poids) et débruitage dur (suppression directe). Les méthodes de débruitage dur existantes dépendent principalement de la guidance par des éléments réels, manquent d'étiquettes de bruit réelles et se concentrent uniquement au niveau des éléments.

Apprentissage Contrastif

Utilisé dans les systèmes de recommandation pour extraire des représentations de haute qualité, mais les méthodes existantes traitent tous les échantillons de manière égale, ignorant les différences d'importance des échantillons.

Conclusion et Discussion

Conclusions Principales

  1. Les signaux faiblement supervisés améliorent considérablement la précision de la détection de bruit
  2. Le débruitage multi-granularité est plus efficace que le débruitage au niveau unique des éléments
  3. L'apprentissage contrastif pondéré par le bruit surpasse l'apprentissage contrastif traditionnel
  4. Le modèle maintient la robustesse sur différentes longueurs de séquence

Limitations

  1. Performance insuffisante sur certaines métriques des ensembles de données à séquences courtes (Beauty, Sports, Yelp)
  2. L'introduction de bruit peut causer une pollution informationnelle sur les séquences courtes
  3. Nécessite de prédéfinir des hyperparamètres tels que le nombre d'intérêts utilisateur

Directions Futures

  1. Étudier l'impact de différentes configurations de noyaux gaussiens
  2. Explorer des stratégies de génération de bruit adversariales ou heuristiques
  3. Fournir une analyse théorique ou basée sur les données pour la configuration des intérêts

Évaluation Approfondie

Avantages

  1. Forte innovativité : Application pionnière du débruitage faiblement supervisé en recommandation séquentielle, proposant un cadre de débruitage multi-granularité
  2. Méthode complète : Solution complète du débruitage allant de la détection de bruit au débruitage multi-granularité
  3. Expérimentation approfondie : Cinq ensembles de données, multiples lignes de base, études d'ablation détaillées et analyses de paramètres
  4. Justification théorique solide : L'apprentissage contrastif pondéré par le bruit possède une motivation théorique explicite
  5. Performance excellente : Surpasse considérablement les méthodes existantes sur la plupart des métriques

Insuffisances

  1. Limitations d'applicabilité : Performance instable sur les ensembles de données à séquences courtes
  2. Complexité computationnelle : Le débruitage multi-granularité et l'apprentissage contrastif augmentent la charge computationnelle
  3. Sensibilité aux hyperparamètres : Nécessite un ajustement minutieux du nombre de bruits, du nombre d'intérêts et d'autres paramètres
  4. Stratégie de génération de bruit : L'insertion aléatoire de bruit peut ne pas être suffisamment réaliste

Impact

  1. Valeur académique : Fournit une nouvelle direction de recherche pour le débruitage en recommandation séquentielle
  2. Valeur pratique : Applicable aux systèmes de recommandation réels pour améliorer les performances
  3. Reproductibilité : Fournit des détails d'implémentation détaillés et du code

Scénarios d'Application

  1. Systèmes de recommandation avec données d'interactions utilisateur à longues séquences
  2. Scénarios de recommandation avec bruit important (plateformes de commerce électronique, vidéo)
  3. Applications nécessitant une modélisation fine des intérêts utilisateur

Références Bibliographiques

L'article cite des travaux importants dans les domaines de la recommandation séquentielle, des méthodes de débruitage et de l'apprentissage contrastif, incluant :

  • Méthodes classiques de recommandation séquentielle : GRU4Rec, SASRec, BERT4Rec
  • Travaux connexes au débruitage : HSD, MSDCCL, etc.
  • Méthodes d'apprentissage contrastif : CL4SRec, ICL, etc.

Cet article fournit une solution innovante au problème du traitement du bruit en recommandation séquentielle, possédant une valeur importante tant sur le plan théorique que pratique.