2025-11-15T18:28:11.606243

S-Diff: An Anisotropic Diffusion Model for Collaborative Filtering in Spectral Domain

Xia, Cheng, Tang et al.
Recovering user preferences from user-item interaction matrices is a key challenge in recommender systems. While diffusion models can sample and reconstruct preferences from latent distributions, they often fail to capture similar users' collective preferences effectively. Additionally, latent variables degrade into pure Gaussian noise during the forward process, lowering the signal-to-noise ratio, which in turn degrades performance. To address this, we propose S-Diff, inspired by graph-based collaborative filtering, better to utilize low-frequency components in the graph spectral domain. S-Diff maps user interaction vectors into the spectral domain and parameterizes diffusion noise to align with graph frequency. This anisotropic diffusion retains significant low-frequency components, preserving a high signal-to-noise ratio. S-Diff further employs a conditional denoising network to encode user interactions, recovering true preferences from noisy data. This method achieves strong results across multiple datasets.
academic

S-Diff: Un Modelo de Difusión Anisotrópica para Filtrado Colaborativo en Dominio Espectral

Información Básica

  • ID del Artículo: 2501.00384
  • Título: S-Diff: An Anisotropic Diffusion Model for Collaborative Filtering in Spectral Domain
  • Autores: Rui Xia, Yanhua Cheng, Yongxiang Tang, Xiaocheng Liu, Xialong Liu, Lisong Wang, Peng Jiang
  • Clasificación: cs.IR (Recuperación de Información)
  • Conferencia de Publicación: WSDM '25 (The Eighteenth ACM International Conference on Web Search and Data Mining)
  • Enlace del Artículo: https://arxiv.org/abs/2501.00384

Resumen

La recuperación de preferencias de usuario a partir de la matriz de interacción usuario-elemento es un desafío clave en sistemas de recomendación. Aunque los modelos de difusión pueden muestrear y reconstruir preferencias a partir de distribuciones latentes, a menudo no capturan efectivamente las preferencias colectivas de usuarios similares. Además, las variables latentes se degradan a ruido gaussiano puro durante el proceso directo, reduciendo la relación señal-ruido e impactando el rendimiento. Para abordar estos problemas, este artículo propone S-Diff, inspirado en filtrado colaborativo basado en grafos, que aprovecha mejor los componentes de baja frecuencia en el dominio espectral. S-Diff mapea vectores de interacción de usuario al dominio espectral y parametriza el ruido de difusión para alinearse con las frecuencias del grafo. Esta difusión anisotrópica preserva componentes de baja frecuencia importantes, manteniendo una alta relación señal-ruido. S-Diff adopta además una red de desruido condicional que codifica interacciones de usuario para recuperar preferencias verdaderas a partir de datos ruidosos. El método logra resultados sólidos en múltiples conjuntos de datos.

Antecedentes de Investigación y Motivación

Definición del Problema

La tarea central de los sistemas de recomendación es recuperar las preferencias verdaderas del usuario a partir de una matriz usuario-elemento dispersa, lo cual es esencialmente un problema inverso. Los métodos tradicionales de filtrado colaborativo resuelven este problema explotando similitudes entre usuarios.

Limitaciones de Métodos Existentes

  1. Insuficiencias de Modelos de Difusión Tradicionales:
    • Dependen principalmente de vectores de interacción de usuario individual como entrada condicional, sin aprovechar completamente la información de preferencias compartidas entre usuarios en filtrado colaborativo
    • Inyectan grandes cantidades de ruido gaussiano en vectores de interacción histórica de alta dimensión, haciendo que el proceso de recuperación del decodificador de desruido sea complejo
  2. Inconsistencia Codificación-Decodificación:
    • Algunos modelos utilizan explícitamente información colaborativa como guía condicional en la red de decodificación, pero el proceso directo no refleja señales colaborativas
    • Resulta en inconsistencia entre los procesos de codificación y decodificación
  3. Problema de Degradación de Relación Señal-Ruido:
    • Las variables latentes se degradan a ruido gaussiano puro durante el proceso directo, reduciendo la relación señal-ruido
    • Afecta el rendimiento general del modelo

Motivación de la Investigación

Inspirados por el éxito del filtrado colaborativo basado en grafos y el procesamiento de señales de grafo, los autores observan que el proceso de "sobre-suavizado" de convolución de grafo es similar al suavizado de señal en procesos de difusión. Basándose en esta perspectiva, proponen realizar difusión anisotrópica en el dominio espectral del grafo para preservar mejor la información de baja frecuencia (que representa preferencias globales).

Contribuciones Principales

  1. Propone Proceso de Difusión Directa en Dominio Espectral: Introduce un proceso de difusión directa definido en el dominio espectral del grafo, fusionando efectivamente información de preferencias globales de usuario
  2. Método de Parametrización de Ruido Anisotrópico: Propone un método para parametrizar la modulación de escalas de ruido de diferentes componentes de frecuencia, con análisis teórico y resultados experimentales que demuestran ventajas en relación señal-ruido
  3. Módulo de Desruido con Fusión a Nivel de Elemento: Diseña un módulo de desruido basado en fusión a nivel de elemento en el proceso inverso, con experimentos extensos que validan la efectividad del método propuesto
  4. Garantías Teóricas: Proporciona análisis de propiedades acotadas del proceso de difusión espectral, demostrando la solidez teórica del método

Explicación Detallada del Método

Definición de Tarea

Dado un conjunto de usuarios U y conjunto de elementos I, matriz de interacción usuario-elemento X ∈ {0,1}^{|U|×|I|}, donde x_{u,i} = 1 indica que el usuario u interactuó con el elemento i. El objetivo es predecir un vector de calificación ∈ ℝ^{|I|}, generando puntuaciones de preferencia latente para todos los elementos de un usuario especificado.

Arquitectura del Modelo

1. Construcción de Grafo y Descomposición Espectral

  • Grafo de Similitud de Elementos: Define matriz de adyacencia de similitud normalizada A = ^T, donde = D_U^{-1/2}X****D_I^{-1/2}
  • Operador Laplaciano: L = I - A
  • Descomposición de Eigenvalores: L = UΛU^T, donde Λ contiene eigenvalores y U contiene eigenvectores

2. Difusión Directa Guiada por Grafo

Proceso de difusión tradicional: x_t = α_tx_0 + σ_tε_t

Difusión mejorada guiada por grafo: x_t = C_tx_0 + σ_tε_t

donde C_t = e^{-Lt} es el operador de decaimiento temporal definido por la matriz laplaciana.

3. Marco de Difusión en Dominio Espectral

Mediante transformación espectral v_t = U^Tx_t, convierte el proceso de difusión al dominio espectral:

v_t = λ_t ⊙ v_0 + σtv{ε,t}

donde:

  • v_0 = U^Tx_0 es la respuesta de frecuencia de x_0
  • λ_t = e^{-t·d_1}, e^{-t·d_2}, ..., e^{-t·d_{|I|}} es el vector de eigenvalores
  • ⊙ denota multiplicación a nivel de elemento

4. Programación de Ruido Anisotrópico

Adopta modelo de difusión que preserva varianza:

  • α_t = λ_t
  • σ_t^2 = 1 - λ_t^2

Introduce control de parámetros de límite:

  • αt = (1 - α) · λt + α
  • σ_t = Min(√(1 - λt^2), σ)

5. Desruido Inverso Condicional

Utiliza red neuronal φ_θ para desruido, con objetivo de optimización:

L_t = E_{(v_0,v_t)~q_0(v_0)q_t(v_t|v_0)}||φ_θ(v_t, U^Tc, t) - v_0||^2

Puntos de Innovación Técnica

  1. Mapeo en Dominio Espectral: Convierte difusión tradicional en dominio espacial a dominio espectral de grafo, aprovechando características espectrales del grafo
  2. Ruido Anisotrópico: Modula niveles de ruido de diferentes componentes de frecuencia según eigenvalores, preservando información de baja frecuencia
  3. Propiedades Acotadas: Debido a la acotación de eigenvalores de la matriz laplaciana, garantiza un límite inferior de relación señal-ruido
  4. Fusión FiLM: Utiliza Feature-wise Linear Modulation para fusión condicional a nivel de elemento

Configuración Experimental

Conjuntos de Datos

Utiliza tres conjuntos de datos públicos:

  • MovieLens-1M: 5,949 usuarios, 2,810 elementos, 571,531 interacciones, dispersidad 96.6%
  • Yelp: 54,574 usuarios, 34,395 elementos, 1,402,736 interacciones, dispersidad 99.93%
  • Amazon-Book: 108,822 usuarios, 94,949 elementos, 3,146,256 interacciones, dispersidad 99.97%

Los datos se dividen en proporción 7:1:2 en conjuntos de entrenamiento, validación y prueba.

Métricas de Evaluación

  • Recall@K: Mide la proporción de elementos relevantes en la lista de recomendación top-K
  • NDCG@K: Métrica sensible al orden, asignando puntuaciones más altas a elementos relevantes en posiciones superiores

Métodos de Comparación

Incluye métodos tradicionales de filtrado colaborativo, métodos de redes neuronales de grafo y modelos de difusión:

  • MF, LightGCN, CDAE, MultiDAE/MultiVAE
  • CODIGEM, DiffRec (modelos de difusión)
  • LinkProp, BSPM, Giff (métodos de procesamiento de señales de grafo)

Detalles de Implementación

  • Tamaño de lote: 100
  • Tasa de aprendizaje: 1e-4
  • Número máximo de épocas de entrenamiento: 1,000
  • Pasos de difusión: T=5
  • Dimensión de descomposición espectral: 200 dimensiones

Resultados Experimentales

Resultados Principales

En todos los conjuntos de datos e indicadores de evaluación, S-Diff supera significativamente todos los métodos de comparación:

Conjunto de Datos Amazon-Book:

  • Recall@10: 0.1155 (vs. mejor baseline Giff: 0.1109)
  • NDCG@10: 0.0746 (vs. mejor baseline Giff: 0.0733)

Conjunto de Datos Yelp:

  • Recall@10: 0.0635 (vs. mejor baseline Giff: 0.0639)
  • NDCG@20: 0.0561 (vs. mejor baseline Giff: 0.0520)

Conjunto de Datos MovieLens-1M:

  • Recall@10: 0.1277 (vs. mejor baseline Giff: 0.1108)
  • NDCG@10: 0.0970 (vs. mejor baseline Giff: 0.0952)

Experimentos de Ablación

1. Impacto de Parámetros de Ruido Relacionados con Frecuencia

Compara diferentes estrategias de programación de ruido:

  • DDPM in Spectral: Utiliza ruido gaussiano tradicional en dominio espectral
  • S-Diff-VE: Difusión de explosión de varianza
  • S-Diff-VP: Difusión de preservación de varianza (método de este artículo)

Los resultados muestran que S-Diff-VP es óptimo tanto en relación señal-ruido como en rendimiento.

2. Análisis de Componentes de Red de Desruido

La eliminación de la capa FiLM resulta en una disminución significativa del rendimiento, validando la importancia de la fusión a nivel de elemento.

Análisis de Relación Señal-Ruido

El análisis teórico y experimental demuestran que la difusión anisotrópica en dominio espectral tiene un límite inferior de relación señal-ruido mejor que los modelos de difusión tradicionales:

SNR(t) = α_t^2/σ_t^2 ≥ (e^{-2τ})^2/(1-(e^{-2τ})^2)

Los experimentos muestran que incluso después de 1000 pasos de difusión, S-Diff mantiene una relación señal-ruido identificable.

Análisis de Sensibilidad de Parámetros

  • Dimensión de Descomposición Espectral K: Mejor rendimiento con K=200
  • Parámetros de Límite: Mejor rendimiento con α_ ∈ 0, 0.1, σ_ ∈ 0.4, 0.5

Trabajo Relacionado

Aplicación de Modelos de Difusión en Recomendación

  • CODIGEM: Primera aplicación de DDPM a filtrado colaborativo
  • DiffRec: Mejora modelos de difusión mediante mapeo de espacio latente y guía de pasos temporales
  • CF-Diff: Precomputa información de vecinos de múltiples saltos como condición
  • Giff: Utiliza propagación de grafo para suavizado y recuperación de señal

Métodos de Filtrado de Grafo

  • LightGCN: Agregación lineal de múltiples capas de información de vecinos
  • Poly-CF: Filtrado de grafo espectral adaptativo
  • SGFCF: Transforma filtrado colaborativo en problema de diseño de filtro adaptativo

Conclusiones y Discusión

Conclusiones Principales

  1. S-Diff combina exitosamente teoría espectral de grafos con modelos de difusión, realizando difusión anisotrópica en dominio espectral
  2. Al preservar componentes de baja frecuencia y mantener alta relación señal-ruido, mejora significativamente el rendimiento de recomendación
  3. El método tiene una base teórica sólida y validación experimental

Limitaciones

  1. Complejidad Computacional: Requiere descomposición espectral, con complejidad temporal O(K|I|m)
  2. Ajuste de Parámetros: Requiere ajuste cuidadoso de parámetros de límite α_ y σ_
  3. Escalabilidad: La aplicabilidad a conjuntos de datos de escala muy grande requiere verificación

Direcciones Futuras

  1. Optimización de Eficiencia Computacional: Investigar métodos más eficientes de descomposición espectral y procesos de difusión
  2. Parámetros Adaptativos: Desarrollar métodos para ajuste automático de parámetros de ruido
  3. Extensión Multimodal: Extender el método a escenarios de recomendación multimodal

Evaluación Profunda

Fortalezas

  1. Innovación Teórica: Combina ingeniosamente procesamiento de señales de grafo con modelos de difusión, proporcionando una nueva perspectiva teórica
  2. Avance Técnico: La programación de ruido anisotrópico y la difusión en dominio espectral son contribuciones técnicas importantes
  3. Experimentación Completa: Realiza comparaciones exhaustivas y experimentos de ablación en múltiples conjuntos de datos
  4. Rendimiento Superior: Logra el mejor rendimiento en todos los indicadores de evaluación

Insuficiencias

  1. Complejidad Relativamente Alta: La descomposición espectral añade sobrecarga computacional, limitando potencialmente la aplicación en datos a gran escala
  2. Sensibilidad a Parámetros: El método involucra múltiples hiperparámetros que requieren ajuste cuidadoso
  3. Análisis Teórico Insuficiente: Carece de explicación teórica más profunda sobre por qué la difusión anisotrópica es más efectiva

Impacto

  1. Valor Académico: Proporciona nuevas perspectivas para la aplicación de modelos de difusión en sistemas de recomendación
  2. Valor Práctico: El método muestra mejoras de rendimiento sólidas con potencial de aplicación práctica
  3. Reproducibilidad: El artículo proporciona detalles de implementación detallados y descripción de algoritmos

Escenarios de Aplicación

  • Sistemas de recomendación de escala media
  • Escenarios con requisitos altos de calidad de recomendación
  • Conjuntos de datos con características evidentes de filtrado colaborativo
  • Entornos con recursos computacionales relativamente abundantes

Referencias

El artículo cita 52 referencias relacionadas, cubriendo múltiples campos incluyendo modelos de difusión, filtrado colaborativo y redes neuronales de grafo, proporcionando una base teórica sólida para esta investigación.


Evaluación General: Este es un artículo de investigación de alta calidad que demuestra excelencia tanto en innovación teórica como en validación experimental. La combinación de teoría espectral de grafos con modelos de difusión es una contribución valiosa que proporciona nuevas direcciones de investigación para el campo de sistemas de recomendación. A pesar de algunas limitaciones, es un trabajo que merece atención.