2025-11-15T18:28:11.606243

S-Diff: An Anisotropic Diffusion Model for Collaborative Filtering in Spectral Domain

Xia, Cheng, Tang et al.

Recovering user preferences from user-item interaction matrices is a key challenge in recommender systems. While diffusion models can sample and reconstruct preferences from latent distributions, they often fail to capture similar users' collective preferences effectively. Additionally, latent variables degrade into pure Gaussian noise during the forward process, lowering the signal-to-noise ratio, which in turn degrades performance. To address this, we propose S-Diff, inspired by graph-based collaborative filtering, better to utilize low-frequency components in the graph spectral domain. S-Diff maps user interaction vectors into the spectral domain and parameterizes diffusion noise to align with graph frequency. This anisotropic diffusion retains significant low-frequency components, preserving a high signal-to-noise ratio. S-Diff further employs a conditional denoising network to encode user interactions, recovering true preferences from noisy data. This method achieves strong results across multiple datasets.

academic

S-Diff: Ein anisotropes Diffusionsmodell für kollaboratives Filtern im Spektralbereich

Grundinformationen

Paper-ID: 2501.00384
Titel: S-Diff: An Anisotropic Diffusion Model for Collaborative Filtering in Spectral Domain
Autoren: Rui Xia, Yanhua Cheng, Yongxiang Tang, Xiaocheng Liu, Xialong Liu, Lisong Wang, Peng Jiang
Klassifizierung: cs.IR (Informationsbeschaffung)
Veröffentlichungskonferenz: WSDM '25 (The Eighteenth ACM International Conference on Web Search and Data Mining)
Paper-Link: https://arxiv.org/abs/2501.00384

Zusammenfassung

Die Wiederherstellung von Benutzervorlieben aus der Benutzer-Artikel-Interaktionsmatrix in Empfehlungssystemen ist eine Schlüsselherausforderung. Obwohl Diffusionsmodelle Stichproben aus latenten Verteilungen entnehmen und Vorlieben rekonstruieren können, erfassen sie oft nicht wirksam die kollektiven Vorlieben ähnlicher Benutzer. Darüber hinaus degenerieren latente Variablen im Vorwärtsprozess zu reinem Gaußschen Rauschen, was das Signal-Rausch-Verhältnis verschlechtert und die Leistung beeinträchtigt. Um diese Probleme zu lösen, schlagen wir S-Diff vor, inspiriert durch graphenbasiertes kollaboratives Filtern, um Niederfrequenzkomponenten im Spektralbereich besser zu nutzen. S-Diff bildet Benutzerinteraktionsvektoren in den Spektralbereich ab und parametrisiert Diffusionsrauschen, um sich an Graphenfrequenzen anzupassen. Diese anisotrope Diffusion bewahrt wichtige Niederfrequenzkomponenten und erhält ein hohes Signal-Rausch-Verhältnis. S-Diff nutzt ferner ein bedingtes Denoise-Netzwerk zur Kodierung von Benutzerinteraktionen und zur Wiederherstellung echter Vorlieben aus verrauschten Daten. Das Verfahren erzielte starke Ergebnisse auf mehreren Datensätzen.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernaufgabe von Empfehlungssystemen besteht darin, echte Benutzervorlieben aus der spärlichen Benutzer-Artikel-Interaktionsmatrix wiederherzustellen, was im Wesentlichen ein inverses Problem darstellt. Traditionelle Methoden des kollaborativen Filterns lösen dieses Problem durch Ausnutzung von Ähnlichkeiten zwischen Benutzern.

Einschränkungen bestehender Methoden

Unzulänglichkeiten traditioneller Diffusionsmodelle:
- Verlassen sich hauptsächlich auf individuelle Benutzerinteraktionsvektoren als bedingte Eingaben und nutzen Informationen über gemeinsame Vorlieben zwischen Benutzern im kollaborativen Filtern nicht vollständig
- Injizieren große Mengen Gaußschen Rauschens in hochdimensionale historische Interaktionsvektoren, was den Wiederherstellungsprozess des Denoise-Decoders kompliziert
Inkonsistenz zwischen Kodierung und Dekodierung:
- Einige Modelle verwenden explizit kollaborative Informationen als bedingte Anleitung im Decodierungsnetzwerk, aber der Vorwärtsprozess spiegelt kollaborative Signale nicht wider
- Führt zu Inkonsistenzen zwischen Kodierungs- und Decodierungsprozessen
Verschlechterung des Signal-Rausch-Verhältnisses:
- Latente Variablen degenerieren im Vorwärtsprozess zu reinem Gaußschen Rauschen
- Beeinträchtigt die Gesamtleistung des Modells

Forschungsmotivation

Inspiriert durch den Erfolg graphenbasierter Methoden des kollaborativen Filterns und der Graphensignalverarbeitung beobachteten die Autoren, dass der "Überglättungs"-Prozess von Graphenfaltungen dem Signalglättungsprozess in Diffusionsprozessen ähnelt. Basierend auf dieser Einsicht wird anisotrope Diffusion im Graphenspektralbereich durchgeführt, um Niederfrequenzinformationen (die globale Vorlieben darstellen) besser zu bewahren.

Kernbeiträge

Vorwärts-Diffusionsprozess im Spektralbereich: Einführung eines im Graphenspektralbereich definierten Vorwärts-Diffusionsprozesses, der Informationen über globale Benutzervorlieben wirksam integriert
Anisotrope Rausch-Parametrisierungsmethode: Vorschlag einer Methode zur Parametrisierung der Modulation von Rauschskalen verschiedener Frequenzkomponenten; theoretische Analysen und experimentelle Ergebnisse belegen die Vorteile dieser Einstellung in Bezug auf das Signal-Rausch-Verhältnis
Elementweise Fusions-Denoise-Modul: Entwurf eines elementweisen Fusions-basierten Denoise-Moduls im Rückwärtsprozess; umfangreiche Experimente validieren die Wirksamkeit der vorgeschlagenen Methode
Theoretische Garantien: Bereitstellung von Analysen der Beschränktheitseigenschaften des Spektralbereichs-Diffusionsprozesses, die die theoretische Stichhaltigkeit der Methode nachweisen

Methodische Details

Aufgabendefinition

Gegeben seien eine Benutzermenge U und eine Artikelmenge I, die Benutzer-Artikel-Interaktionsmatrix X ∈ {0,1}^{|U|×|I|}, wobei x_{u,i} = 1 anzeigt, dass Benutzer u mit Artikel i interagiert hat. Das Ziel besteht darin, einen Bewertungsvektor x̂ ∈ ℝ^{|I|} vorherzusagen, um latente Präferenzwerte für alle Artikel für einen bestimmten Benutzer zu generieren.

Modellarchitektur

1. Graphenkonstruktion und Spektralzerlegung

Artikel-Ähnlichkeitsgraph: Definieren Sie die normalisierte Ähnlichkeits-Nachbarschaftsmatrix A = X̃^TX̃, wobei X̃ = D_U^{-1/2}X****D_I^{-1/2}
Laplace-Operator: L = I - A
Eigenzerlegung: L = UΛU^T, wobei Λ Eigenwerte und U Eigenvektoren enthält

2. Graphengesteuerte Vorwärts-Diffusion

Traditioneller Diffusionsprozess: x_t = α_tx_0 + σ_tε_t

Verbesserter graphengesteuerter Diffusionsprozess: x_t = C_tx_0 + σ_tε_t

wobei C_t = e^{-Lt} der durch die Laplace-Matrix definierte zeitabhängige Zerfallsoperator ist.

3. Spektralbereichs-Diffusionsrahmen

Durch spektrale Transformation v_t = U^Tx_t wird der Diffusionsprozess in den Spektralbereich transformiert:

v_t = λ_t ⊙ v_0 + σtv{ε,t}

wobei:

v_0 = U^Tx_0 die Frequenzantwort von x_0 ist
λ_t = e^{-t·d_1}, e^{-t·d_2}, ..., e^{-t·d_{|I|}} der Eigenwertevektor ist
⊙ elementweise Multiplikation bezeichnet

4. Anisotrope Rausch-Planung

Verwendung eines varianzerhaltenden Diffusionsmodells:

α_t = λ_t
σ_t^2 = 1 - λ_t^2

Einführung von Grenzparameter-Steuerung:

αt = (1 - α) · λt + α
σ_t = Min(√(1 - λt^2), σ)

5. Bedingte Rückwärts-Denoise

Verwendung eines neuronalen Netzwerks φ_θ zum Denoise mit Optimierungsziel:

L_t = E_{(v_0,v_t)~q_0(v_0)q_t(v_t|v_0)}||φ_θ(v_t, U^Tc, t) - v_0||^2

Technische Innovationspunkte

Spektralbereichs-Abbildung: Umwandlung der traditionellen räumlichen Diffusion in den Graphenspektralbereich unter Nutzung spektraler Eigenschaften des Graphen
Anisotropes Rauschen: Modulation des Rauschpegels verschiedener Frequenzkomponenten gemäß Eigenwerten zur Bewahrung von Niederfrequenzinformationen
Beschränktheitseigenschaften: Aufgrund der Beschränktheit der Eigenwerte der Laplace-Matrix wird eine Untergrenze des Signal-Rausch-Verhältnisses garantiert
FiLM-Fusion: Verwendung von Feature-wise Linear Modulation für elementweise bedingte Fusion

Experimentelle Einrichtung

Datensätze

Verwendung von drei öffentlichen Datensätzen:

MovieLens-1M: 5.949 Benutzer, 2.810 Artikel, 571.531 Interaktionen, Sparsität 96,6%
Yelp: 54.574 Benutzer, 34.395 Artikel, 1.402.736 Interaktionen, Sparsität 99,93%
Amazon-Book: 108.822 Benutzer, 94.949 Artikel, 3.146.256 Interaktionen, Sparsität 99,97%

Daten wurden im Verhältnis 7:1:2 in Trainings-, Validierungs- und Testsätze aufgeteilt.

Bewertungsmetriken

Recall@K: Misst den Anteil relevanter Artikel in der Top-K-Empfehlungsliste
NDCG@K: Rangempfindliche Metrik, die relevanten Artikeln an höheren Positionen höhere Werte zuweist

Vergleichsmethoden

Umfasst traditionelle Methoden des kollaborativen Filterns, Graphenneuronale Netze und Diffusionsmodelle:

MF, LightGCN, CDAE, MultiDAE/MultiVAE
CODIGEM, DiffRec (Diffusionsmodelle)
LinkProp, BSPM, Giff (Graphensignalverarbeitungsmethoden)

Implementierungsdetails

Batch-Größe: 100
Lernrate: 1e-4
Maximale Trainingsepochen: 1.000
Diffusionsschritte: T=5
Spektralzerlegungsdimension: 200-dimensional

Experimentelle Ergebnisse

Hauptergebnisse

Auf allen Datensätzen und Bewertungsmetriken übertrifft S-Diff alle Vergleichsmethoden erheblich:

Amazon-Book-Datensatz:

Recall@10: 0,1155 (vs. beste Baseline Giff: 0,1109)
NDCG@10: 0,0746 (vs. beste Baseline Giff: 0,0733)

Yelp-Datensatz:

Recall@10: 0,0635 (vs. beste Baseline Giff: 0,0639)
NDCG@20: 0,0561 (vs. beste Baseline Giff: 0,0520)

MovieLens-1M-Datensatz:

Recall@10: 0,1277 (vs. beste Baseline Giff: 0,1108)
NDCG@10: 0,0970 (vs. beste Baseline Giff: 0,0952)

Ablationsstudien

1. Auswirkungen frequenzbezogener Rausch-Parameter

Vergleich verschiedener Rausch-Planungsstrategien:

DDPM im Spektralbereich: Verwendung traditionellen Gaußschen Rauschens im Spektralbereich
S-Diff-VE: Varianzexplosions-Diffusion
S-Diff-VP: Varianzerhaltungs-Diffusion (vorgeschlagene Methode)

Ergebnisse zeigen, dass S-Diff-VP sowohl beim Signal-Rausch-Verhältnis als auch bei der Leistung optimal ist.

2. Analyse von Denoise-Netzwerk-Komponenten

Das Entfernen der FiLM-Schicht führt zu einem signifikanten Leistungsabfall und validiert die Wichtigkeit der elementweisen Fusion.

Signal-Rausch-Verhältnis-Analyse

Theoretische Analysen und Experimente zeigen, dass die Spektralbereichs-anisotrope Diffusion im Vergleich zu traditionellen Diffusionsmodellen eine bessere Untergrenze des Signal-Rausch-Verhältnisses aufweist:

SNR(t) = α_t^2/σ_t^2 ≥ (e^{-2τ})^2/(1-(e^{-2τ})^2)

Experimente zeigen, dass S-Diff selbst nach 1000 Diffusionsschritten ein erkennbares Signal-Rausch-Verhältnis beibehält.

Parametersensitivitätsanalyse

Spektralzerlegungsdimension K: Beste Leistung bei K=200
Grenzparameter: Beste Ergebnisse bei α_ ∈ 0, 0,1, σ_ ∈ 0,4, 0,5

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

S-Diff kombiniert erfolgreich Graphenspektraltheorie mit Diffusionsmodellen und führt anisotrope Diffusion im Spektralbereich durch
Durch Bewahrung von Niederfrequenzkomponenten und Aufrechterhaltung eines hohen Signal-Rausch-Verhältnisses wird die Empfehlungsleistung erheblich verbessert
Die Methode verfügt über eine solide theoretische Grundlage und experimentelle Validierung

Einschränkungen

Rechenkomplexität: Erfordert Spektralzerlegung mit Zeitkomplexität O(K|I|m)
Parameteroptimierung: Erfordert sorgfältige Anpassung der Grenzparameter α_ und σ_
Skalierbarkeit: Die Anwendbarkeit auf sehr große Datensätze muss noch überprüft werden

Zukünftige Richtungen

Optimierung der Recheneffizienz: Untersuchung effizienterer Spektralzerlegung und Diffusionsprozesse
Adaptive Parameter: Entwicklung von Methoden zur automatischen Anpassung von Rausch-Parametern
Multimodale Erweiterung: Erweiterung der Methode auf multimodale Empfehlungsszenarien

Tiefgreifende Bewertung

Stärken

Theoretische Innovation: Geschickte Kombination von Graphensignalverarbeitung und Diffusionsmodellen mit neuer theoretischer Perspektive
Technische Fortschritte: Anisotrope Rausch-Planung und Spektralbereichs-Diffusion sind wichtige technische Beiträge
Umfangreiche Experimente: Umfassende Vergleiche und Ablationsstudien auf mehreren Datensätzen
Überlegene Leistung: Beste Leistung auf allen Bewertungsmetriken

Mängel

Höhere Komplexität: Spektralzerlegung erhöht den Rechenaufwand und kann die Anwendung auf großen Datensätzen einschränken
Parametersensitivität: Die Methode beinhaltet mehrere Hyperparameter, die sorgfältig optimiert werden müssen
Unzureichende theoretische Analyse: Mangelnde tiefere theoretische Erklärung, warum anisotrope Diffusion wirksamer ist

Einfluss

Akademischer Wert: Bietet neue Perspektiven für die Anwendung von Diffusionsmodellen in Empfehlungssystemen
Praktischer Wert: Die Methode zeigt gute Leistungsverbesserungen mit praktischem Anwendungspotenzial
Reproduzierbarkeit: Das Paper bietet detaillierte Implementierungsdetails und Algorithmusbeschreibungen

Anwendungsszenarien

Mittlere Empfehlungssysteme
Szenarien mit hohen Anforderungen an Empfehlungsqualität
Datensätze mit ausgeprägten Merkmalen des kollaborativen Filterns
Umgebungen mit ausreichenden Rechenressourcen

Literaturverzeichnis

Das Paper zitiert 52 relevante Arbeiten, die wichtige Arbeiten in mehreren Bereichen wie Diffusionsmodelle, kollaboratives Filtern und Graphenneuronale Netze abdecken und eine solide theoretische Grundlage für diese Forschung bieten.

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das sowohl bei theoretischen Innovationen als auch bei experimenteller Validierung hervorragende Leistungen zeigt. Die Kombination von Graphenspektraltheorie und Diffusionsmodellen ist ein wertvoller Beitrag, der neue Forschungsrichtungen für das Feld der Empfehlungssysteme bietet. Trotz einiger Einschränkungen handelt es sich insgesamt um eine beachtenswerte Arbeit.