Recovering user preferences from user-item interaction matrices is a key challenge in recommender systems. While diffusion models can sample and reconstruct preferences from latent distributions, they often fail to capture similar users' collective preferences effectively. Additionally, latent variables degrade into pure Gaussian noise during the forward process, lowering the signal-to-noise ratio, which in turn degrades performance. To address this, we propose S-Diff, inspired by graph-based collaborative filtering, better to utilize low-frequency components in the graph spectral domain. S-Diff maps user interaction vectors into the spectral domain and parameterizes diffusion noise to align with graph frequency. This anisotropic diffusion retains significant low-frequency components, preserving a high signal-to-noise ratio. S-Diff further employs a conditional denoising network to encode user interactions, recovering true preferences from noisy data. This method achieves strong results across multiple datasets.
S-Diff : Un Modèle de Diffusion Anisotrope pour le Filtrage Collaboratif dans le Domaine Spectral
- ID de l'article : 2501.00384
- Titre : S-Diff: An Anisotropic Diffusion Model for Collaborative Filtering in Spectral Domain
- Auteurs : Rui Xia, Yanhua Cheng, Yongxiang Tang, Xiaocheng Liu, Xialong Liu, Lisong Wang, Peng Jiang
- Classification : cs.IR (Récupération d'Information)
- Conférence de Publication : WSDM '25 (The Eighteenth ACM International Conference on Web Search and Data Mining)
- Lien de l'article : https://arxiv.org/abs/2501.00384
La récupération des préférences utilisateur à partir de la matrice d'interaction utilisateur-article dans les systèmes de recommandation est un défi fondamental. Bien que les modèles de diffusion puissent échantillonner et reconstruire les préférences à partir d'une distribution latente, ils ne parviennent souvent pas à capturer efficacement les préférences collectives des utilisateurs similaires. De plus, les variables latentes se dégradent en bruit gaussien pur lors du processus avant, réduisant le rapport signal-bruit et affectant les performances. Pour résoudre ces problèmes, cet article propose S-Diff, inspiré par le filtrage collaboratif basé sur les graphes, qui exploite mieux les composantes basse fréquence dans le domaine spectral des graphes. S-Diff mappe les vecteurs d'interaction utilisateur au domaine spectral et paramétrise le bruit de diffusion pour s'aligner avec les fréquences du graphe. Cette diffusion anisotrope préserve les composantes basse fréquence importantes et maintient un rapport signal-bruit élevé. S-Diff adopte en outre un réseau de débruitage conditionnel pour encoder les interactions utilisateur et récupérer les véritables préférences à partir de données bruitées. La méthode obtient des résultats robustes sur plusieurs ensembles de données.
La tâche centrale des systèmes de recommandation est de récupérer les véritables préférences utilisateur à partir d'une matrice d'interaction utilisateur-article clairsemée, ce qui est essentiellement un problème inverse. Les méthodes traditionnelles de filtrage collaboratif résolvent ce problème en exploitant les similitudes entre utilisateurs.
- Insuffisances des modèles de diffusion traditionnels :
- Dépendent principalement des vecteurs d'interaction utilisateur individuels comme entrées conditionnelles, n'exploitant pas pleinement les informations de préférences partagées entre utilisateurs dans le filtrage collaboratif
- Injectent une grande quantité de bruit gaussien dans les vecteurs d'interaction historique haute dimension, rendant le processus de récupération du décodeur de débruitage complexe
- Incohérence Encodage-Décodage :
- Certains modèles utilisent explicitement les informations collaboratives comme guide conditionnel dans le réseau de décodage, mais le processus avant ne reflète pas les signaux collaboratifs
- Cela entraîne une incohérence entre les processus d'encodage et de décodage
- Problème de Dégradation du Rapport Signal-Bruit :
- Les variables latentes se dégradent en bruit gaussien pur lors du processus avant, réduisant le rapport signal-bruit
- Affecte les performances globales du modèle
Inspirés par le succès du filtrage collaboratif basé sur les graphes et du traitement des signaux graphiques, les auteurs observent que le processus de « sur-lissage » de la convolution graphique est similaire au lissage des signaux dans le processus de diffusion. Sur la base de cette intuition, ils proposent une diffusion anisotrope dans le domaine spectral des graphes pour mieux préserver les informations basse fréquence (représentant les préférences globales).
- Proposition d'un processus de diffusion avant dans le domaine spectral : Introduction d'un processus de diffusion avant défini dans le domaine spectral des graphes, fusionnant efficacement les informations de préférences globales des utilisateurs
- Méthode de paramétrisation du bruit anisotrope : Proposition d'une méthode de paramétrisation modulant les échelles de bruit de différentes composantes fréquentielles, avec analyse théorique et résultats expérimentaux démontrant les avantages de ce paramétrage en termes de rapport signal-bruit
- Module de débruitage avec fusion au niveau des éléments : Conception d'un module de débruitage basé sur la fusion au niveau des éléments dans le processus inverse, validé par des expériences approfondies
- Garanties Théoriques : Fourniture d'une analyse des propriétés de limitation du processus de diffusion spectrale, démontrant la justification théorique de la méthode
Étant donné un ensemble d'utilisateurs U et un ensemble d'articles I, la matrice d'interaction utilisateur-article X ∈ {0,1}^{|U|×|I|}, où x_{u,i} = 1 indique une interaction entre l'utilisateur u et l'article i. L'objectif est de prédire un vecteur d'évaluation x̂ ∈ ℝ^{|I|}, générant les scores de préférence latente de tous les articles pour un utilisateur spécifié.
- Graphe de Similarité d'Articles : Définition de la matrice d'adjacence de similarité normalisée A = X̃^TX̃, où X̃ = D_U^{-1/2}X****D_I^{-1/2}
- Opérateur Laplacien : L = I - A
- Décomposition Spectrale : L = UΛU^T, où Λ contient les valeurs propres et U contient les vecteurs propres
Processus de diffusion traditionnel : x_t = α_tx_0 + σ_tε_t
Diffusion améliorée guidée par le graphe : x_t = C_tx_0 + σ_tε_t
où C_t = e^{-Lt} est l'opérateur d'atténuation temporelle défini par la matrice laplacienne.
Conversion du processus de diffusion au domaine spectral via transformation spectrale v_t = U^Tx_t :
v_t = λ_t ⊙ v_0 + σtv{ε,t}
où :
- v_0 = U^Tx_0 est la réponse fréquencielle de x_0
- λ_t = e^{-t·d_1}, e^{-t·d_2}, ..., e^{-t·d_{|I|}} est le vecteur des valeurs propres
- ⊙ représente la multiplication au niveau des éléments
Adoption d'un modèle de diffusion préservant la variance :
- α_t = λ_t
- σ_t^2 = 1 - λ_t^2
Introduction d'un contrôle par paramètres limites :
- αt = (1 - α) · λt + α
- σ_t = Min(√(1 - λt^2), σ)
Utilisation d'un réseau de neurones φ_θ pour le débruitage, avec objectif d'optimisation :
L_t = E_{(v_0,v_t)~q_0(v_0)q_t(v_t|v_0)}||φ_θ(v_t, U^Tc, t) - v_0||^2
- Mappage Spectral : Conversion de la diffusion traditionnelle en domaine spatial vers le domaine spectral des graphes, exploitant les caractéristiques spectrales du graphe
- Bruit Anisotrope : Modulation du niveau de bruit de différentes composantes fréquentielles selon les valeurs propres, préservant les informations basse fréquence
- Propriétés de Limitation : Garantie d'une limite inférieure du rapport signal-bruit grâce à la limitation des valeurs propres de la matrice laplacienne
- Fusion FiLM : Utilisation de Feature-wise Linear Modulation pour la fusion conditionnelle au niveau des éléments
Utilisation de trois ensembles de données publics :
- MovieLens-1M : 5 949 utilisateurs, 2 810 articles, 571 531 interactions, sparsité 96,6%
- Yelp : 54 574 utilisateurs, 34 395 articles, 1 402 736 interactions, sparsité 99,93%
- Amazon-Book : 108 822 utilisateurs, 94 949 articles, 3 146 256 interactions, sparsité 99,97%
Les données sont divisées selon un ratio 7:1:2 en ensembles d'entraînement, de validation et de test.
- Recall@K : Mesure la proportion d'articles pertinents dans la liste de recommandation top-K
- NDCG@K : Métrique sensible au classement, attribuant des scores plus élevés aux articles pertinents à des positions plus hautes
Incluant les méthodes traditionnelles de filtrage collaboratif, les méthodes de réseaux de neurones graphiques et les modèles de diffusion :
- MF, LightGCN, CDAE, MultiDAE/MultiVAE
- CODIGEM, DiffRec (modèles de diffusion)
- LinkProp, BSPM, Giff (méthodes de traitement des signaux graphiques)
- Taille de lot : 100
- Taux d'apprentissage : 1e-4
- Nombre maximum d'itérations d'entraînement : 1 000
- Étapes de diffusion : T=5
- Dimension de décomposition spectrale : 200 dimensions
Sur tous les ensembles de données et métriques d'évaluation, S-Diff surpasse significativement toutes les méthodes de comparaison :
Ensemble de Données Amazon-Book :
- Recall@10 : 0,1155 (vs. meilleure baseline Giff : 0,1109)
- NDCG@10 : 0,0746 (vs. meilleure baseline Giff : 0,0733)
Ensemble de Données Yelp :
- Recall@10 : 0,0635 (vs. meilleure baseline Giff : 0,0639)
- NDCG@20 : 0,0561 (vs. meilleure baseline Giff : 0,0520)
Ensemble de Données MovieLens-1M :
- Recall@10 : 0,1277 (vs. meilleure baseline Giff : 0,1108)
- NDCG@10 : 0,0970 (vs. meilleure baseline Giff : 0,0952)
Comparaison de différentes stratégies de planification du bruit :
- DDPM in Spectral : Utilisation du bruit gaussien traditionnel dans le domaine spectral
- S-Diff-VE : Diffusion à variance explosive
- S-Diff-VP : Diffusion à variance préservée (méthode proposée)
Les résultats montrent que S-Diff-VP est optimal en termes de rapport signal-bruit et de performance.
La suppression de la couche FiLM entraîne une baisse significative des performances, validant l'importance de la fusion au niveau des éléments.
L'analyse théorique et les expériences démontrent que la diffusion anisotrope spectrale offre une meilleure limite inférieure du rapport signal-bruit par rapport aux modèles de diffusion traditionnels :
SNR(t) = α_t^2/σ_t^2 ≥ (e^{-2τ})^2/(1-(e^{-2τ})^2)
Les expériences montrent que même après 1 000 étapes de diffusion, S-Diff maintient un rapport signal-bruit discernable.
- Dimension de Décomposition Spectrale K : Performance optimale à K=200
- Paramètres Limites : Meilleur effet avec α_ ∈ 0, 0,1, σ_ ∈ 0,4, 0,5
- CODIGEM : Première application de DDPM au filtrage collaboratif
- DiffRec : Amélioration du modèle de diffusion par mappage d'espace latent et guidage d'étapes temporelles
- CF-Diff : Pré-calcul des informations de voisins multi-sauts comme condition
- Giff : Utilisation de la propagation graphique pour le lissage et la récupération des signaux
- LightGCN : Agrégation linéaire multi-couches des informations de voisins
- Poly-CF : Filtrage spectral graphique adaptatif
- SGFCF : Transformation du filtrage collaboratif en problème de conception de filtre adaptatif
- S-Diff combine avec succès la théorie spectrale des graphes et les modèles de diffusion, effectuant une diffusion anisotrope dans le domaine spectral
- En préservant les composantes basse fréquence et en maintenant un rapport signal-bruit élevé, elle améliore significativement les performances de recommandation
- La méthode possède une base théorique solide et une validation expérimentale
- Complexité Computationnelle : Nécessite une décomposition spectrale, avec complexité temporelle O(K|I|m)
- Ajustement des Paramètres : Nécessite un ajustement minutieux des paramètres limites α_ et σ_
- Extensibilité : L'applicabilité aux ensembles de données à très grande échelle reste à vérifier
- Optimisation de l'Efficacité Computationnelle : Recherche de méthodes de décomposition spectrale et de processus de diffusion plus efficaces
- Paramètres Adaptatifs : Développement de méthodes d'ajustement automatique des paramètres de bruit
- Extension Multimodale : Extension de la méthode aux scénarios de recommandation multimodale
- Innovation Théorique : Combinaison ingénieuse du traitement des signaux graphiques et des modèles de diffusion, offrant une nouvelle perspective théorique
- Avancée Technique : La planification du bruit anisotrope et la diffusion spectrale sont des contributions techniques importantes
- Expériences Complètes : Comparaisons et expériences d'ablation approfondies sur plusieurs ensembles de données
- Performance Supérieure : Obtention des meilleures performances sur toutes les métriques d'évaluation
- Complexité Élevée : La décomposition spectrale augmente les frais de calcul, pouvant limiter l'application sur les données à grande échelle
- Sensibilité aux Paramètres : La méthode implique plusieurs hyperparamètres nécessitant un ajustement minutieux
- Analyse Théorique Insuffisante : Manque d'explication théorique plus profonde sur pourquoi la diffusion anisotrope est plus efficace
- Valeur Académique : Fournit une nouvelle perspective pour l'application des modèles de diffusion dans les systèmes de recommandation
- Valeur Pratique : La méthode offre une amélioration significative des performances avec un potentiel d'application pratique
- Reproductibilité : L'article fournit des détails d'implémentation détaillés et une description d'algorithme
- Systèmes de recommandation de taille moyenne
- Scénarios exigeant une qualité de recommandation élevée
- Ensembles de données présentant des caractéristiques distinctes de filtrage collaboratif
- Environnements disposant de ressources de calcul relativement abondantes
L'article cite 52 références pertinentes, couvrant plusieurs domaines incluant les modèles de diffusion, le filtrage collaboratif et les réseaux de neurones graphiques, fournissant une base théorique solide pour cette recherche.
Évaluation Globale : Ceci est un article de recherche de haute qualité, excellant à la fois en innovation théorique et en validation expérimentale. La combinaison de la théorie spectrale des graphes et des modèles de diffusion constitue une contribution précieuse, offrant une nouvelle direction de recherche pour le domaine des systèmes de recommandation. Malgré certaines limitations, il s'agit d'un travail digne d'attention.