2025-11-15T18:28:11.606243

S-Diff: An Anisotropic Diffusion Model for Collaborative Filtering in Spectral Domain

Xia, Cheng, Tang et al.
Recovering user preferences from user-item interaction matrices is a key challenge in recommender systems. While diffusion models can sample and reconstruct preferences from latent distributions, they often fail to capture similar users' collective preferences effectively. Additionally, latent variables degrade into pure Gaussian noise during the forward process, lowering the signal-to-noise ratio, which in turn degrades performance. To address this, we propose S-Diff, inspired by graph-based collaborative filtering, better to utilize low-frequency components in the graph spectral domain. S-Diff maps user interaction vectors into the spectral domain and parameterizes diffusion noise to align with graph frequency. This anisotropic diffusion retains significant low-frequency components, preserving a high signal-to-noise ratio. S-Diff further employs a conditional denoising network to encode user interactions, recovering true preferences from noisy data. This method achieves strong results across multiple datasets.
academic

S-Diff: An Anisotropic Diffusion Model for Collaborative Filtering in Spectral Domain

基本信息

  • 论文ID: 2501.00384
  • 标题: S-Diff: An Anisotropic Diffusion Model for Collaborative Filtering in Spectral Domain
  • 作者: Rui Xia, Yanhua Cheng, Yongxiang Tang, Xiaocheng Liu, Xialong Liu, Lisong Wang, Peng Jiang
  • 分类: cs.IR (Information Retrieval)
  • 发表会议: WSDM '25 (The Eighteenth ACM International Conference on Web Search and Data Mining)
  • 论文链接: https://arxiv.org/abs/2501.00384

摘要

推荐系统中从用户-物品交互矩阵恢复用户偏好是一个关键挑战。虽然扩散模型可以从潜在分布中采样和重构偏好,但它们往往无法有效捕获相似用户的集体偏好。此外,在前向过程中潜在变量会退化为纯高斯噪声,降低信噪比,进而影响性能。为解决这些问题,本文提出S-Diff,受图基协同过滤启发,更好地利用图谱域中的低频成分。S-Diff将用户交互向量映射到谱域,并参数化扩散噪声以与图频率对齐。这种各向异性扩散保留了重要的低频成分,维持了高信噪比。S-Diff进一步采用条件去噪网络编码用户交互,从噪声数据中恢复真实偏好。该方法在多个数据集上取得了强劲结果。

研究背景与动机

问题定义

推荐系统的核心任务是从稀疏的用户-物品交互矩阵中恢复用户的真实偏好,这本质上是一个逆问题。传统的协同过滤方法通过挖掘用户间的相似性来解决这一问题。

现有方法的局限性

  1. 传统扩散模型的不足
    • 主要依赖个体用户交互向量作为条件输入,未能充分利用协同过滤中用户间的共享偏好信息
    • 在高维历史交互向量中注入大量高斯噪声,使得去噪解码器的恢复过程变得复杂
  2. 编码-解码不一致性
    • 一些模型在解码网络中显式使用协同信息作为条件指导,但前向过程未反映协同信号
    • 导致编码和解码过程之间的不一致性
  3. 信噪比退化问题
    • 潜在变量在前向过程中退化为纯高斯噪声,降低信噪比
    • 影响模型的整体性能

研究动机

受图基协同过滤和图信号处理成功的启发,作者观察到图卷积的"过度平滑"过程类似于扩散过程中的信号平滑。基于这一洞察,提出在图谱域中进行各向异性扩散,以更好地保留低频信息(代表全局偏好)。

核心贡献

  1. 提出谱域前向扩散过程:引入在图谱域中定义的前向扩散过程,有效融合用户的全局偏好信息
  2. 各向异性噪声参数化方法:提出参数化调制不同频率成分噪声尺度的方法,理论分析和实验结果证明了该设置在信噪比方面的优势
  3. 元素级融合去噪模块:在逆过程中设计基于元素级融合的去噪模块,广泛实验验证了所提方法的有效性
  4. 理论保证:提供了谱域扩散过程的有界性质分析,证明了方法的理论合理性

方法详解

任务定义

给定用户集合U和物品集合I,用户-物品交互矩阵X ∈ {0,1}^{|U|×|I|},其中x_{u,i} = 1表示用户u与物品i有交互。目标是预测评分向量 ∈ ℝ^{|I|},为指定用户生成所有物品的潜在偏好分数。

模型架构

1. 图构建与谱分解

  • 物品相似性图:定义归一化相似性邻接矩阵A = ^T,其中 = D_U^{-1/2}X****D_I^{-1/2}
  • 拉普拉斯算子L = I - A
  • 特征分解L = UΛU^T,其中Λ包含特征值,U包含特征向量

2. 图引导前向扩散

传统扩散过程:x_t = α_tx_0 + σ_tε_t

改进的图引导扩散:x_t = C_tx_0 + σ_tε_t

其中C_t = e^{-Lt}是由拉普拉斯矩阵定义的时间衰减算子。

3. 谱域扩散框架

通过谱变换v_t = U^Tx_t,将扩散过程转换到谱域:

v_t = λ_t ⊙ v_0 + σtv{ε,t}

其中:

  • v_0 = U^Tx_0是x_0的频率响应
  • λ_t = e^{-t·d_1}, e^{-t·d_2}, ..., e^{-t·d_{|I|}}是特征值向量
  • ⊙表示元素级乘法

4. 各向异性噪声调度

采用方差保持扩散模型:

  • α_t = λ_t
  • σ_t^2 = 1 - λ_t^2

引入边界参数控制:

  • αt = (1 - α) · λt + α
  • σ_t = Min(√(1 - λt^2), σ)

5. 条件逆向去噪

使用神经网络φ_θ进行去噪,优化目标:

L_t = E_{(v_0,v_t)~q_0(v_0)q_t(v_t|v_0)}||φ_θ(v_t, U^Tc, t) - v_0||^2

技术创新点

  1. 谱域映射:将传统的空间域扩散转换到图谱域,利用图的频谱特性
  2. 各向异性噪声:根据特征值调制不同频率成分的噪声水平,保留低频信息
  3. 有界性质:由于拉普拉斯矩阵特征值的有界性,保证了信噪比的下界
  4. FiLM融合:使用Feature-wise Linear Modulation进行元素级条件融合

实验设置

数据集

使用三个公开数据集:

  • MovieLens-1M: 5,949用户,2,810物品,571,531交互,稀疏度96.6%
  • Yelp: 54,574用户,34,395物品,1,402,736交互,稀疏度99.93%
  • Amazon-Book: 108,822用户,94,949物品,3,146,256交互,稀疏度99.97%

数据按7:1:2比例划分为训练、验证和测试集。

评价指标

  • Recall@K: 衡量top-K推荐列表中相关物品的比例
  • NDCG@K: 排序敏感指标,对位置更高的相关物品给予更高分数

对比方法

包括传统协同过滤方法、图神经网络方法和扩散模型:

  • MF, LightGCN, CDAE, MultiDAE/MultiVAE
  • CODIGEM, DiffRec (扩散模型)
  • LinkProp, BSPM, Giff (图信号处理方法)

实现细节

  • 批大小:100
  • 学习率:1e-4
  • 最大训练轮数:1,000
  • 扩散步数:T=5
  • 谱分解维度:200维

实验结果

主要结果

在所有数据集和评价指标上,S-Diff均显著优于所有对比方法:

Amazon-Book数据集

  • Recall@10: 0.1155 (vs. 最佳baseline Giff: 0.1109)
  • NDCG@10: 0.0746 (vs. 最佳baseline Giff: 0.0733)

Yelp数据集

  • Recall@10: 0.0635 (vs. 最佳baseline Giff: 0.0639)
  • NDCG@20: 0.0561 (vs. 最佳baseline Giff: 0.0520)

MovieLens-1M数据集

  • Recall@10: 0.1277 (vs. 最佳baseline Giff: 0.1108)
  • NDCG@10: 0.0970 (vs. 最佳baseline Giff: 0.0952)

消融实验

1. 频率相关噪声参数的影响

比较不同噪声调度策略:

  • DDPM in Spectral: 在谱域使用传统高斯噪声
  • S-Diff-VE: 方差爆炸扩散
  • S-Diff-VP: 方差保持扩散(本文方法)

结果显示S-Diff-VP在信噪比和性能上均最优。

2. 去噪网络组件分析

移除FiLM层后性能显著下降,验证了元素级融合的重要性。

信噪比分析

理论分析和实验证明,谱域各向异性扩散相比传统扩散模型具有更好的信噪比下界:

SNR(t) = α_t^2/σ_t^2 ≥ (e^{-2τ})^2/(1-(e^{-2τ})^2)

实验显示即使经过1000步扩散,S-Diff仍保持可辨识的信噪比。

参数敏感性分析

  • 谱分解维度K: K=200时取得最佳性能
  • 边界参数: α_ ∈ 0, 0.1, σ_ ∈ 0.4, 0.5时效果最佳

相关工作

扩散模型在推荐中的应用

  • CODIGEM: 首次将DDPM应用于协同过滤
  • DiffRec: 通过潜在空间映射和时间步引导改进扩散模型
  • CF-Diff: 预计算多跳邻居信息作为条件
  • Giff: 使用图传播进行信号平滑和恢复

图滤波方法

  • LightGCN: 多层线性聚合邻居信息
  • Poly-CF: 自适应谱图滤波
  • SGFCF: 将协同过滤转化为自适应滤波器设计问题

结论与讨论

主要结论

  1. S-Diff成功将图谱理论与扩散模型结合,在谱域进行各向异性扩散
  2. 通过保留低频成分和维持高信噪比,显著提升了推荐性能
  3. 方法具有良好的理论基础和实验验证

局限性

  1. 计算复杂度: 需要进行谱分解,时间复杂度为O(K|I|m)
  2. 参数调优: 需要仔细调节边界参数α_和σ_
  3. 扩展性: 对于超大规模数据集的适用性有待验证

未来方向

  1. 优化计算效率: 研究更高效的谱分解和扩散过程
  2. 自适应参数: 开发自动调节噪声参数的方法
  3. 多模态扩展: 将方法扩展到多模态推荐场景

深度评价

优点

  1. 理论创新: 巧妙地将图信号处理与扩散模型结合,提供了新的理论视角
  2. 技术先进: 各向异性噪声调度和谱域扩散是重要的技术贡献
  3. 实验充分: 在多个数据集上进行了全面的对比和消融实验
  4. 性能优越: 在所有评价指标上均取得了最佳性能

不足

  1. 复杂度较高: 谱分解增加了计算开销,可能限制在大规模数据上的应用
  2. 参数敏感: 方法涉及多个超参数,需要仔细调优
  3. 理论分析不够深入: 对为什么各向异性扩散更有效缺乏更深层的理论解释

影响力

  1. 学术价值: 为扩散模型在推荐系统中的应用提供了新思路
  2. 实用价值: 方法具有良好的性能提升,有实际应用潜力
  3. 可复现性: 论文提供了详细的实现细节和算法描述

适用场景

  • 中等规模的推荐系统
  • 对推荐质量要求较高的场景
  • 具有明显协同过滤特征的数据集
  • 计算资源相对充足的环境

参考文献

论文引用了52篇相关文献,涵盖了扩散模型、协同过滤、图神经网络等多个领域的重要工作,为本研究提供了坚实的理论基础。


总体评价: 这是一篇高质量的研究论文,在理论创新和实验验证方面都表现出色。将图谱理论与扩散模型的结合是一个有价值的贡献,为推荐系统领域提供了新的研究方向。尽管存在一些局限性,但整体上是一项值得关注的工作。