2025-11-23T00:10:15.831186

Multi-Granularity Sequence Denoising with Weakly Supervised Signal for Sequential Recommendation

Li, Yang, Zhu
Sequential recommendation aims to predict the next item based on user interests in historical interaction sequences. Historical interaction sequences often contain irrelevant noisy items, which significantly hinders the performance of recommendation systems. Existing research employs unsupervised methods that indirectly identify item-granularity irrelevant noise by predicting the ground truth item. Since these methods lack explicit noise labels, they are prone to misidentify users' interested items as noise. Additionally, while these methods focus on removing item-granularity noise driven by the ground truth item, they overlook interest-granularity noise, limiting their ability to perform broader denoising based on user interests. To address these issues, we propose Multi-Granularity Sequence Denoising with Weakly Supervised Signal for Sequential Recommendation(MGSD-WSS). MGSD-WSS first introduces the Multiple Gaussian Kernel Perceptron module to map the original and enhance sequence into a common representation space and utilizes weakly supervised signals to accurately identify noisy items in the historical interaction sequence. Subsequently, it employs the item-granularity denoising module with noise-weighted contrastive learning to obtain denoised item representations. Then, it extracts target interest representations from the ground truth item and applies noise-weighted contrastive learning to obtain denoised interest representations. Finally, based on the denoised item and interest representations, MGSD-WSS predicts the next item. Extensive experiments on five datasets demonstrate that the proposed method significantly outperforms state-of-the-art sequence recommendation and denoising models. Our code is available at https://github.com/lalunex/MGSD-WSS.
academic

Multi-Granularity Sequence Denoising with Weakly Supervised Signal for Sequential Recommendation

基本信息

  • 论文ID: 2510.10564
  • 标题: Multi-Granularity Sequence Denoising with Weakly Supervised Signal for Sequential Recommendation
  • 作者: Liang Li (重庆理工大学), Zhou Yang (福州大学), Xiaofei Zhu (重庆理工大学)
  • 分类: cs.IR (信息检索)
  • 发表时间: 2025年10月12日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.10564
  • 代码链接: https://github.com/lalunex/MGSD-WSS

摘要

序列推荐旨在基于用户历史交互序列中的兴趣来预测下一个物品。历史交互序列通常包含不相关的噪声物品,这显著阻碍了推荐系统的性能。现有研究采用无监督方法,通过预测真实物品来间接识别物品粒度的无关噪声。由于这些方法缺乏明确的噪声标签,容易将用户感兴趣的物品误识别为噪声。此外,这些方法专注于移除由真实物品驱动的物品粒度噪声,但忽略了兴趣粒度噪声,限制了基于用户兴趣进行更广泛去噪的能力。为解决这些问题,本文提出了多粒度序列去噪与弱监督信号的序列推荐方法(MGSD-WSS)。

研究背景与动机

问题定义

序列推荐系统面临的核心问题是历史交互序列中存在噪声物品,如意外点击和恶意虚假交互,这些噪声显著降低了推荐系统的性能。

现有方法的局限性

  1. 软去噪方法:通过注意力机制或过滤算法调整噪声物品的权重,但无法完全消除噪声影响
  2. 硬去噪方法:生成噪声检测信号来显式移除噪声物品,但存在以下问题:
    • 使用真实物品而非真实噪声标签来指导模型识别噪声,准确性有限
    • 仅关注物品粒度去噪,忽略了兴趣粒度的噪声

研究动机

  • 缺乏明确的噪声标签使得现有无监督方法容易误识别用户感兴趣的物品
  • 用户交互不仅反映特定物品偏好,还体现更高层次的兴趣(如"体育"兴趣包含足球、运动鞋、跑步机等)
  • 需要在多个粒度上进行层次化去噪以更全面地移除噪声

核心贡献

  1. 首次引入弱监督信号:通过标记的弱监督信号直接训练模型进行噪声识别,克服了以往无监督方法的不准确性
  2. 多粒度层次化去噪:提出物品粒度和兴趣粒度的层次化去噪模块,配合噪声加权对比学习
  3. 创新的架构设计
    • Multiple Gaussian Kernel Perceptron (MGP)模块
    • Target-aware Sequence Encoding
    • 噪声加权对比学习框架
  4. 显著的性能提升:在五个数据集上显著优于最先进的序列推荐和去噪模型

方法详解

任务定义

给定用户集合 U={u1,u2,,uU}\mathcal{U} = \{u_1, u_2, \ldots, u_{|\mathcal{U}|}\} 和物品集合 V={v1,v2,,vV}\mathcal{V} = \{v_1, v_2, \ldots, v_{|\mathcal{V}|}\},每个用户 uUu \in \mathcal{U} 关联一个按时间顺序排列的历史交互序列 S=[s1,s2,,sn]S = [s_1, s_2, \ldots, s_n]。目标是利用交互序列 SS 预测用户在第 (n+1)(n+1) 步最可能交互的物品,即 p(sn+1s1:n)p(s_{n+1}|s_{1:n})

模型架构

MGSD-WSS包含三个核心组件:

1. Target-aware Sequence Encoding

序列数据增强

  • 随机选择 tt 个不同物品作为噪声插入原始序列
  • 构建增强序列 Sˉ=[sˉ1,sˉ2,,sˉn+t]\bar{S} = [\bar{s}_1, \bar{s}_2, \ldots, \bar{s}_{n+t}]
  • 获得监督信号 Yˉ=[yˉ1,yˉ2,,yˉn+t]\bar{Y} = [\bar{y}_1, \bar{y}_2, \ldots, \bar{y}_{n+t}] 标示噪声位置

Multiple Gaussian Kernel Perceptron (MGP)

  • 计算目标物品与序列中每个物品的余弦相似度: αˉi=cos(hˉn+1,hˉi)\bar{\alpha}_i = \cos(\bar{h}_{n+1}, \bar{h}_i)
  • 使用 kk 个高斯核转换相关性得分: rij=exp((αˉiμj)22σj2)r_{ij} = \exp\left(-\frac{(\bar{\alpha}_i - \mu_j)^2}{2\sigma_j^2}\right)h^i=j=1krijhˉi\hat{h}_i = \sum_{j=1}^k r_{ij} \bar{h}_i
  • 通过Transformer编码器获得丰富的表示: G=Transformer(H^+P)G = \text{Transformer}(\hat{H} + P)

2. Auxiliary Noise Discrimination

使用共享的物品级噪声判别器检测增强序列中的噪声物品: βi=Softmax((ReLU(gˉiW1+b1))W2)\boldsymbol{\beta}_i = \text{Softmax}((\text{ReLU}(\bar{g}_i W_1 + b_1))W_2)

通过MSE损失最小化噪声检测信号与监督信号的差异: MSE=1ni=1n(βi0yˉi)2MSE = \frac{1}{n}\sum_{i=1}^n (\beta_i^0 - \bar{y}_i)^2

3. Multi-granularity Sequence Denoising

物品粒度去噪

  • 使用Gumbel-softmax将噪声检测信号转换为二进制硬值
  • 过滤噪声物品构建去噪表示矩阵
  • 应用噪声加权对比学习: ITSCL=1G+giG+logω(gi)exp(sim(ese,gi)/τ)gjGω(gj)exp(sim(ese,gj)/τ)ITSCL = -\frac{1}{|G^+|}\sum_{g_i \in G^+} \log \frac{\omega(g_i) \cdot \exp(\text{sim}(e_{se}, g_i)/\tau)}{\sum_{g_j \in G} \omega(g_j) \cdot \exp(\text{sim}(e_{se}, g_j)/\tau)}

兴趣粒度去噪

  • 引入可学习的兴趣表示矩阵 Q=[q1,q2,,qm]Q = [q_1, q_2, \ldots, q_m]
  • 计算物品与兴趣的相关性得分
  • 使用目标感知兴趣注意力评估兴趣可靠性
  • 应用兴趣粒度噪声加权对比学习

技术创新点

  1. 弱监督信号生成:通过数据增强策略生成明确的噪声标签,提供准确的监督信号
  2. 多粒度去噪:同时在物品和兴趣两个粒度上进行去噪,更全面地处理序列噪声
  3. 噪声加权对比学习:根据噪声程度为样本分配权重,优于传统的等权重对比学习
  4. 高斯核感知器:捕获不同相似性区域的信息,增强序列表示

实验设置

数据集

使用五个公开基准数据集:

数据集序列数用户数物品数平均长度稀疏度
ML-100k99,2879441,350105.2992.21%
Beauty198,50222,36412,1028.8899.93%
Sports296,33735,59918,3588.3299.95%
Yelp316,35430,43220,03410.4099.95%
ML-1M999,6116,0413,417165.5095.16%

评价指标

  • Hit Ratio (HR@{5, 10, 20})
  • Normalized Discounted Cumulative Gain (NDCG@{5, 10, 20})
  • Mean Reciprocal Rank (MRR@20)

对比方法

序列推荐基线

  • GRU4Rec, NARM, STAMP, CASER, SASRec, BERT4Rec

去噪基线

  • DSAN, FMLP-Rec, HSD+BERT4Rec, AC-BERT4Rec, MSDCCL+BERT4Rec

实现细节

  • 嵌入维度:100
  • 批量大小:256
  • 学习率:10^-3
  • 高斯核数量:10个
  • 温度参数:τ = 0.5

实验结果

主要结果

与序列推荐基线的比较: MGSD-WSS与各主流序列推荐模型结合后,在所有数据集上都取得显著性能提升。在ML-100k数据集上,MGSD-WSS+BERT4Rec相比原始BERT4Rec在HR@20、NDCG@20和MRR@20上分别提升167.43%、195.87%和235.67%。

与去噪基线的比较: 在大多数指标上,MGSD-WSS+BERT4Rec优于其他去噪基线,特别是在ML-100k和ML-1M数据集上表现突出。在ML-1M数据集上,相比最强基线MSDCCL+BERT4Rec,各指标提升幅度为30.80%-60.94%。

消融实验

移除各模块后的性能下降分析:

  • w/o AND(无辅助噪声判别):性能下降最大,证明弱监督信号的重要性
  • w/o InSD(无兴趣粒度去噪):在Beauty、Sports、ML-1M数据集上显著影响性能
  • w/o ItSD(无物品粒度去噪):在ML-100k和Yelp数据集上影响最大
  • w/o MGP(无多高斯核感知器):导致性能下降,验证了该模块的有效性

噪声加权对比学习分析

相比传统对比学习,噪声加权对比学习在ML-100k数据集上将HR@20、NDCG@20和MRR@20分别提升12.59%、10.63%和9.48%,证明了精确权重分配的有效性。

参数敏感性分析

噪声物品数量 tt

  • 适度的噪声物品数量有助于模型学习区分真实偏好和噪声
  • 过多噪声会稀释信息信号,导致性能下降

用户兴趣数量 mm

  • m=5m=5 时达到最佳性能
  • 过多兴趣可能引入无关信息,降低性能

相关工作

序列推荐

从早期的马尔可夫链方法发展到深度学习方法,包括RNN、LSTM、CNN、注意力机制、图神经网络等。近期研究集成外部知识图谱、跨域信息和多模态学习框架。

去噪方法

分为软去噪(调整权重)和硬去噪(直接移除)两类。现有硬去噪方法主要依赖真实物品指导,缺乏真实噪声标签,且仅关注物品粒度。

对比学习

在推荐系统中用于提取高质量表示,但现有方法平等对待所有样本,忽略样本重要性差异。

结论与讨论

主要结论

  1. 弱监督信号显著提升噪声识别准确性
  2. 多粒度去噪比单一物品粒度去噪更有效
  3. 噪声加权对比学习优于传统对比学习
  4. 模型在不同序列长度下都保持鲁棒性

局限性

  1. 在短序列数据集(Beauty、Sports、Yelp)上的部分指标表现不够理想
  2. 引入噪声可能对短序列造成信息污染
  3. 需要预先设定用户兴趣数量等超参数

未来方向

  1. 研究不同高斯核设置的影响
  2. 探索对抗性或启发式噪声生成策略
  3. 为兴趣配置提供理论或数据驱动的合理性分析

深度评价

优点

  1. 创新性强:首次在序列推荐中应用弱监督去噪,提出多粒度去噪框架
  2. 方法完备:从噪声检测到多粒度去噪的完整解决方案
  3. 实验充分:五个数据集、多个基线、详细的消融实验和参数分析
  4. 理论合理:噪声加权对比学习有明确的理论动机
  5. 性能优异:在大多数指标上显著优于现有方法

不足

  1. 适用性限制:在短序列数据集上表现不够稳定
  2. 计算复杂度:多粒度去噪和对比学习增加了计算开销
  3. 超参数敏感:需要仔细调节噪声数量、兴趣数量等参数
  4. 噪声生成策略:随机插入噪声可能不够真实

影响力

  1. 学术价值:为序列推荐去噪提供新的研究方向
  2. 实用价值:可应用于实际推荐系统提升性能
  3. 可复现性:提供了详细的实现细节和代码

适用场景

  1. 长序列用户交互数据的推荐系统
  2. 噪声较多的推荐场景(如电商、视频平台)
  3. 需要精细化用户兴趣建模的应用

参考文献

论文引用了序列推荐、去噪方法、对比学习等领域的重要工作,包括:

  • 序列推荐经典方法:GRU4Rec, SASRec, BERT4Rec
  • 去噪相关工作:HSD, MSDCCL等
  • 对比学习方法:CL4SRec, ICL等

该论文为序列推荐中的噪声处理问题提供了创新性的解决方案,在理论和实践上都具有重要价值。