Recovering user preferences from user-item interaction matrices is a key challenge in recommender systems. While diffusion models can sample and reconstruct preferences from latent distributions, they often fail to capture similar users' collective preferences effectively. Additionally, latent variables degrade into pure Gaussian noise during the forward process, lowering the signal-to-noise ratio, which in turn degrades performance. To address this, we propose S-Diff, inspired by graph-based collaborative filtering, better to utilize low-frequency components in the graph spectral domain. S-Diff maps user interaction vectors into the spectral domain and parameterizes diffusion noise to align with graph frequency. This anisotropic diffusion retains significant low-frequency components, preserving a high signal-to-noise ratio. S-Diff further employs a conditional denoising network to encode user interactions, recovering true preferences from noisy data. This method achieves strong results across multiple datasets.
- Paper-ID: 2501.00384
- Titel: S-Diff: An Anisotropic Diffusion Model for Collaborative Filtering in Spectral Domain
- Autoren: Rui Xia, Yanhua Cheng, Yongxiang Tang, Xiaocheng Liu, Xialong Liu, Lisong Wang, Peng Jiang
- Klassifizierung: cs.IR (Informationsbeschaffung)
- Veröffentlichungskonferenz: WSDM '25 (The Eighteenth ACM International Conference on Web Search and Data Mining)
- Paper-Link: https://arxiv.org/abs/2501.00384
Die Wiederherstellung von Benutzervorlieben aus der Benutzer-Artikel-Interaktionsmatrix in Empfehlungssystemen ist eine Schlüsselherausforderung. Obwohl Diffusionsmodelle Stichproben aus latenten Verteilungen entnehmen und Vorlieben rekonstruieren können, erfassen sie oft nicht wirksam die kollektiven Vorlieben ähnlicher Benutzer. Darüber hinaus degenerieren latente Variablen im Vorwärtsprozess zu reinem Gaußschen Rauschen, was das Signal-Rausch-Verhältnis verschlechtert und die Leistung beeinträchtigt. Um diese Probleme zu lösen, schlagen wir S-Diff vor, inspiriert durch graphenbasiertes kollaboratives Filtern, um Niederfrequenzkomponenten im Spektralbereich besser zu nutzen. S-Diff bildet Benutzerinteraktionsvektoren in den Spektralbereich ab und parametrisiert Diffusionsrauschen, um sich an Graphenfrequenzen anzupassen. Diese anisotrope Diffusion bewahrt wichtige Niederfrequenzkomponenten und erhält ein hohes Signal-Rausch-Verhältnis. S-Diff nutzt ferner ein bedingtes Denoise-Netzwerk zur Kodierung von Benutzerinteraktionen und zur Wiederherstellung echter Vorlieben aus verrauschten Daten. Das Verfahren erzielte starke Ergebnisse auf mehreren Datensätzen.
Die Kernaufgabe von Empfehlungssystemen besteht darin, echte Benutzervorlieben aus der spärlichen Benutzer-Artikel-Interaktionsmatrix wiederherzustellen, was im Wesentlichen ein inverses Problem darstellt. Traditionelle Methoden des kollaborativen Filterns lösen dieses Problem durch Ausnutzung von Ähnlichkeiten zwischen Benutzern.
- Unzulänglichkeiten traditioneller Diffusionsmodelle:
- Verlassen sich hauptsächlich auf individuelle Benutzerinteraktionsvektoren als bedingte Eingaben und nutzen Informationen über gemeinsame Vorlieben zwischen Benutzern im kollaborativen Filtern nicht vollständig
- Injizieren große Mengen Gaußschen Rauschens in hochdimensionale historische Interaktionsvektoren, was den Wiederherstellungsprozess des Denoise-Decoders kompliziert
- Inkonsistenz zwischen Kodierung und Dekodierung:
- Einige Modelle verwenden explizit kollaborative Informationen als bedingte Anleitung im Decodierungsnetzwerk, aber der Vorwärtsprozess spiegelt kollaborative Signale nicht wider
- Führt zu Inkonsistenzen zwischen Kodierungs- und Decodierungsprozessen
- Verschlechterung des Signal-Rausch-Verhältnisses:
- Latente Variablen degenerieren im Vorwärtsprozess zu reinem Gaußschen Rauschen
- Beeinträchtigt die Gesamtleistung des Modells
Inspiriert durch den Erfolg graphenbasierter Methoden des kollaborativen Filterns und der Graphensignalverarbeitung beobachteten die Autoren, dass der "Überglättungs"-Prozess von Graphenfaltungen dem Signalglättungsprozess in Diffusionsprozessen ähnelt. Basierend auf dieser Einsicht wird anisotrope Diffusion im Graphenspektralbereich durchgeführt, um Niederfrequenzinformationen (die globale Vorlieben darstellen) besser zu bewahren.
- Vorwärts-Diffusionsprozess im Spektralbereich: Einführung eines im Graphenspektralbereich definierten Vorwärts-Diffusionsprozesses, der Informationen über globale Benutzervorlieben wirksam integriert
- Anisotrope Rausch-Parametrisierungsmethode: Vorschlag einer Methode zur Parametrisierung der Modulation von Rauschskalen verschiedener Frequenzkomponenten; theoretische Analysen und experimentelle Ergebnisse belegen die Vorteile dieser Einstellung in Bezug auf das Signal-Rausch-Verhältnis
- Elementweise Fusions-Denoise-Modul: Entwurf eines elementweisen Fusions-basierten Denoise-Moduls im Rückwärtsprozess; umfangreiche Experimente validieren die Wirksamkeit der vorgeschlagenen Methode
- Theoretische Garantien: Bereitstellung von Analysen der Beschränktheitseigenschaften des Spektralbereichs-Diffusionsprozesses, die die theoretische Stichhaltigkeit der Methode nachweisen
Gegeben seien eine Benutzermenge U und eine Artikelmenge I, die Benutzer-Artikel-Interaktionsmatrix X ∈ {0,1}^{|U|×|I|}, wobei x_{u,i} = 1 anzeigt, dass Benutzer u mit Artikel i interagiert hat. Das Ziel besteht darin, einen Bewertungsvektor x̂ ∈ ℝ^{|I|} vorherzusagen, um latente Präferenzwerte für alle Artikel für einen bestimmten Benutzer zu generieren.
- Artikel-Ähnlichkeitsgraph: Definieren Sie die normalisierte Ähnlichkeits-Nachbarschaftsmatrix A = X̃^TX̃, wobei X̃ = D_U^{-1/2}X****D_I^{-1/2}
- Laplace-Operator: L = I - A
- Eigenzerlegung: L = UΛU^T, wobei Λ Eigenwerte und U Eigenvektoren enthält
Traditioneller Diffusionsprozess: x_t = α_tx_0 + σ_tε_t
Verbesserter graphengesteuerter Diffusionsprozess: x_t = C_tx_0 + σ_tε_t
wobei C_t = e^{-Lt} der durch die Laplace-Matrix definierte zeitabhängige Zerfallsoperator ist.
Durch spektrale Transformation v_t = U^Tx_t wird der Diffusionsprozess in den Spektralbereich transformiert:
v_t = λ_t ⊙ v_0 + σtv{ε,t}
wobei:
- v_0 = U^Tx_0 die Frequenzantwort von x_0 ist
- λ_t = e^{-t·d_1}, e^{-t·d_2}, ..., e^{-t·d_{|I|}} der Eigenwertevektor ist
- ⊙ elementweise Multiplikation bezeichnet
Verwendung eines varianzerhaltenden Diffusionsmodells:
- α_t = λ_t
- σ_t^2 = 1 - λ_t^2
Einführung von Grenzparameter-Steuerung:
- αt = (1 - α) · λt + α
- σ_t = Min(√(1 - λt^2), σ)
Verwendung eines neuronalen Netzwerks φ_θ zum Denoise mit Optimierungsziel:
L_t = E_{(v_0,v_t)~q_0(v_0)q_t(v_t|v_0)}||φ_θ(v_t, U^Tc, t) - v_0||^2
- Spektralbereichs-Abbildung: Umwandlung der traditionellen räumlichen Diffusion in den Graphenspektralbereich unter Nutzung spektraler Eigenschaften des Graphen
- Anisotropes Rauschen: Modulation des Rauschpegels verschiedener Frequenzkomponenten gemäß Eigenwerten zur Bewahrung von Niederfrequenzinformationen
- Beschränktheitseigenschaften: Aufgrund der Beschränktheit der Eigenwerte der Laplace-Matrix wird eine Untergrenze des Signal-Rausch-Verhältnisses garantiert
- FiLM-Fusion: Verwendung von Feature-wise Linear Modulation für elementweise bedingte Fusion
Verwendung von drei öffentlichen Datensätzen:
- MovieLens-1M: 5.949 Benutzer, 2.810 Artikel, 571.531 Interaktionen, Sparsität 96,6%
- Yelp: 54.574 Benutzer, 34.395 Artikel, 1.402.736 Interaktionen, Sparsität 99,93%
- Amazon-Book: 108.822 Benutzer, 94.949 Artikel, 3.146.256 Interaktionen, Sparsität 99,97%
Daten wurden im Verhältnis 7:1:2 in Trainings-, Validierungs- und Testsätze aufgeteilt.
- Recall@K: Misst den Anteil relevanter Artikel in der Top-K-Empfehlungsliste
- NDCG@K: Rangempfindliche Metrik, die relevanten Artikeln an höheren Positionen höhere Werte zuweist
Umfasst traditionelle Methoden des kollaborativen Filterns, Graphenneuronale Netze und Diffusionsmodelle:
- MF, LightGCN, CDAE, MultiDAE/MultiVAE
- CODIGEM, DiffRec (Diffusionsmodelle)
- LinkProp, BSPM, Giff (Graphensignalverarbeitungsmethoden)
- Batch-Größe: 100
- Lernrate: 1e-4
- Maximale Trainingsepochen: 1.000
- Diffusionsschritte: T=5
- Spektralzerlegungsdimension: 200-dimensional
Auf allen Datensätzen und Bewertungsmetriken übertrifft S-Diff alle Vergleichsmethoden erheblich:
Amazon-Book-Datensatz:
- Recall@10: 0,1155 (vs. beste Baseline Giff: 0,1109)
- NDCG@10: 0,0746 (vs. beste Baseline Giff: 0,0733)
Yelp-Datensatz:
- Recall@10: 0,0635 (vs. beste Baseline Giff: 0,0639)
- NDCG@20: 0,0561 (vs. beste Baseline Giff: 0,0520)
MovieLens-1M-Datensatz:
- Recall@10: 0,1277 (vs. beste Baseline Giff: 0,1108)
- NDCG@10: 0,0970 (vs. beste Baseline Giff: 0,0952)
Vergleich verschiedener Rausch-Planungsstrategien:
- DDPM im Spektralbereich: Verwendung traditionellen Gaußschen Rauschens im Spektralbereich
- S-Diff-VE: Varianzexplosions-Diffusion
- S-Diff-VP: Varianzerhaltungs-Diffusion (vorgeschlagene Methode)
Ergebnisse zeigen, dass S-Diff-VP sowohl beim Signal-Rausch-Verhältnis als auch bei der Leistung optimal ist.
Das Entfernen der FiLM-Schicht führt zu einem signifikanten Leistungsabfall und validiert die Wichtigkeit der elementweisen Fusion.
Theoretische Analysen und Experimente zeigen, dass die Spektralbereichs-anisotrope Diffusion im Vergleich zu traditionellen Diffusionsmodellen eine bessere Untergrenze des Signal-Rausch-Verhältnisses aufweist:
SNR(t) = α_t^2/σ_t^2 ≥ (e^{-2τ})^2/(1-(e^{-2τ})^2)
Experimente zeigen, dass S-Diff selbst nach 1000 Diffusionsschritten ein erkennbares Signal-Rausch-Verhältnis beibehält.
- Spektralzerlegungsdimension K: Beste Leistung bei K=200
- Grenzparameter: Beste Ergebnisse bei α_ ∈ 0, 0,1, σ_ ∈ 0,4, 0,5
- CODIGEM: Erste Anwendung von DDPM auf kollaboratives Filtern
- DiffRec: Verbesserung des Diffusionsmodells durch latente Raumabbildung und Zeitschritt-Anleitung
- CF-Diff: Vorberechnung von Multi-Hop-Nachbarinformationen als Bedingung
- Giff: Verwendung von Graphenausbreitung für Signalglättung und Wiederherstellung
- LightGCN: Mehrschichtige lineare Aggregation von Nachbarinformationen
- Poly-CF: Adaptive spektrale Graphenfilterung
- SGFCF: Umwandlung des kollaborativen Filterns in ein adaptives Filterdesign-Problem
- S-Diff kombiniert erfolgreich Graphenspektraltheorie mit Diffusionsmodellen und führt anisotrope Diffusion im Spektralbereich durch
- Durch Bewahrung von Niederfrequenzkomponenten und Aufrechterhaltung eines hohen Signal-Rausch-Verhältnisses wird die Empfehlungsleistung erheblich verbessert
- Die Methode verfügt über eine solide theoretische Grundlage und experimentelle Validierung
- Rechenkomplexität: Erfordert Spektralzerlegung mit Zeitkomplexität O(K|I|m)
- Parameteroptimierung: Erfordert sorgfältige Anpassung der Grenzparameter α_ und σ_
- Skalierbarkeit: Die Anwendbarkeit auf sehr große Datensätze muss noch überprüft werden
- Optimierung der Recheneffizienz: Untersuchung effizienterer Spektralzerlegung und Diffusionsprozesse
- Adaptive Parameter: Entwicklung von Methoden zur automatischen Anpassung von Rausch-Parametern
- Multimodale Erweiterung: Erweiterung der Methode auf multimodale Empfehlungsszenarien
- Theoretische Innovation: Geschickte Kombination von Graphensignalverarbeitung und Diffusionsmodellen mit neuer theoretischer Perspektive
- Technische Fortschritte: Anisotrope Rausch-Planung und Spektralbereichs-Diffusion sind wichtige technische Beiträge
- Umfangreiche Experimente: Umfassende Vergleiche und Ablationsstudien auf mehreren Datensätzen
- Überlegene Leistung: Beste Leistung auf allen Bewertungsmetriken
- Höhere Komplexität: Spektralzerlegung erhöht den Rechenaufwand und kann die Anwendung auf großen Datensätzen einschränken
- Parametersensitivität: Die Methode beinhaltet mehrere Hyperparameter, die sorgfältig optimiert werden müssen
- Unzureichende theoretische Analyse: Mangelnde tiefere theoretische Erklärung, warum anisotrope Diffusion wirksamer ist
- Akademischer Wert: Bietet neue Perspektiven für die Anwendung von Diffusionsmodellen in Empfehlungssystemen
- Praktischer Wert: Die Methode zeigt gute Leistungsverbesserungen mit praktischem Anwendungspotenzial
- Reproduzierbarkeit: Das Paper bietet detaillierte Implementierungsdetails und Algorithmusbeschreibungen
- Mittlere Empfehlungssysteme
- Szenarien mit hohen Anforderungen an Empfehlungsqualität
- Datensätze mit ausgeprägten Merkmalen des kollaborativen Filterns
- Umgebungen mit ausreichenden Rechenressourcen
Das Paper zitiert 52 relevante Arbeiten, die wichtige Arbeiten in mehreren Bereichen wie Diffusionsmodelle, kollaboratives Filtern und Graphenneuronale Netze abdecken und eine solide theoretische Grundlage für diese Forschung bieten.
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das sowohl bei theoretischen Innovationen als auch bei experimenteller Validierung hervorragende Leistungen zeigt. Die Kombination von Graphenspektraltheorie und Diffusionsmodellen ist ein wertvoller Beitrag, der neue Forschungsrichtungen für das Feld der Empfehlungssysteme bietet. Trotz einiger Einschränkungen handelt es sich insgesamt um eine beachtenswerte Arbeit.