2025-11-15T18:28:11.606243

S-Diff: An Anisotropic Diffusion Model for Collaborative Filtering in Spectral Domain

Xia, Cheng, Tang et al.
Recovering user preferences from user-item interaction matrices is a key challenge in recommender systems. While diffusion models can sample and reconstruct preferences from latent distributions, they often fail to capture similar users' collective preferences effectively. Additionally, latent variables degrade into pure Gaussian noise during the forward process, lowering the signal-to-noise ratio, which in turn degrades performance. To address this, we propose S-Diff, inspired by graph-based collaborative filtering, better to utilize low-frequency components in the graph spectral domain. S-Diff maps user interaction vectors into the spectral domain and parameterizes diffusion noise to align with graph frequency. This anisotropic diffusion retains significant low-frequency components, preserving a high signal-to-noise ratio. S-Diff further employs a conditional denoising network to encode user interactions, recovering true preferences from noisy data. This method achieves strong results across multiple datasets.
academic

S-Diff: Un Modello di Diffusione Anisotropa per il Filtraggio Collaborativo nel Dominio Spettrale

Informazioni Fondamentali

  • ID Articolo: 2501.00384
  • Titolo: S-Diff: An Anisotropic Diffusion Model for Collaborative Filtering in Spectral Domain
  • Autori: Rui Xia, Yanhua Cheng, Yongxiang Tang, Xiaocheng Liu, Xialong Liu, Lisong Wang, Peng Jiang
  • Classificazione: cs.IR (Information Retrieval)
  • Conferenza di Pubblicazione: WSDM '25 (The Eighteenth ACM International Conference on Web Search and Data Mining)
  • Link Articolo: https://arxiv.org/abs/2501.00384

Riassunto

Il recupero delle preferenze utente dalla matrice di interazione utente-elemento nei sistemi di raccomandazione rappresenta una sfida cruciale. Sebbene i modelli di diffusione possano campionare e ricostruire le preferenze dalla distribuzione latente, spesso non riescono a catturare efficacemente le preferenze collettive di utenti simili. Inoltre, durante il processo in avanti, le variabili latenti si degradano in rumore gaussiano puro, riducendo il rapporto segnale-rumore e compromettendo le prestazioni. Per affrontare questi problemi, questo articolo propone S-Diff, ispirato dal filtraggio collaborativo basato su grafi, che sfrutta meglio le componenti a bassa frequenza nel dominio spettrale. S-Diff mappa i vettori di interazione utente nel dominio spettrale e parametrizza il rumore di diffusione per allinearlo con le frequenze del grafo. Questa diffusione anisotropa preserva le componenti a bassa frequenza importanti, mantenendo un elevato rapporto segnale-rumore. S-Diff adotta inoltre una rete di denoising condizionata per codificare le interazioni utente e recuperare le preferenze reali dai dati rumorosi. Il metodo raggiunge risultati robusti su più dataset.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il compito fondamentale dei sistemi di raccomandazione è recuperare le preferenze reali degli utenti dalla matrice di interazione utente-elemento sparsa, che è essenzialmente un problema inverso. I metodi tradizionali di filtraggio collaborativo affrontano questo problema sfruttando le similarità tra utenti.

Limitazioni dei Metodi Esistenti

  1. Insufficienze dei Modelli di Diffusione Tradizionali:
    • Si affidano principalmente ai vettori di interazione dei singoli utenti come input condizionato, non sfruttando pienamente le informazioni sulle preferenze condivise tra utenti nel filtraggio collaborativo
    • Iniettano grandi quantità di rumore gaussiano nei vettori di interazione storica ad alta dimensione, rendendo complesso il processo di recupero del decodificatore di denoising
  2. Incoerenza Codifica-Decodifica:
    • Alcuni modelli utilizzano esplicitamente le informazioni collaborative come guida condizionata nella rete di decodifica, ma il processo in avanti non riflette i segnali collaborativi
    • Ciò causa incoerenza tra i processi di codifica e decodifica
  3. Problema di Degradazione del Rapporto Segnale-Rumore:
    • Le variabili latenti si degradano in rumore gaussiano puro durante il processo in avanti, riducendo il rapporto segnale-rumore
    • Influisce sulle prestazioni complessive del modello

Motivazione della Ricerca

Ispirato dal successo del filtraggio collaborativo basato su grafi e dall'elaborazione dei segnali grafici, gli autori osservano che il processo di "over-smoothing" della convoluzione grafica è simile allo smoothing dei segnali nel processo di diffusione. Basandosi su questa intuizione, propongono una diffusione anisotropa nel dominio spettrale del grafo per preservare meglio le informazioni a bassa frequenza (che rappresentano le preferenze globali).

Contributi Principali

  1. Proposta di Processo di Diffusione in Avanti nel Dominio Spettrale: Introduce un processo di diffusione in avanti definito nel dominio spettrale del grafo, integrando efficacemente le informazioni sulle preferenze globali degli utenti
  2. Metodo di Parametrizzazione del Rumore Anisotropo: Propone un metodo per parametrizzare la modulazione della scala del rumore di diverse componenti di frequenza, con analisi teorica e risultati sperimentali che dimostrano i vantaggi di questa configurazione in termini di rapporto segnale-rumore
  3. Modulo di Denoising con Fusione a Livello di Elemento: Progetta un modulo di denoising basato sulla fusione a livello di elemento nel processo inverso, con esperimenti estesi che verificano l'efficacia del metodo proposto
  4. Garanzie Teoriche: Fornisce analisi delle proprietà di limitatezza del processo di diffusione nel dominio spettrale, dimostrando la razionalità teorica del metodo

Dettagli del Metodo

Definizione del Compito

Dato un insieme di utenti U e un insieme di elementi I, la matrice di interazione utente-elemento X ∈ {0,1}^{|U|×|I|}, dove x_{u,i} = 1 indica che l'utente u ha interagito con l'elemento i. L'obiettivo è predire il vettore di valutazione ∈ ℝ^{|I|}, generando i punteggi di preferenza latente di tutti gli elementi per un utente specificato.

Architettura del Modello

1. Costruzione del Grafo e Decomposizione Spettrale

  • Grafo di Similarità degli Elementi: Definisce la matrice di adiacenza di similarità normalizzata A = ^T, dove = D_U^{-1/2}X****D_I^{-1/2}
  • Operatore Laplaciano: L = I - A
  • Decomposizione agli Autovalori: L = UΛU^T, dove Λ contiene gli autovalori e U contiene gli autovettori

2. Diffusione in Avanti Guidata dal Grafo

Processo di diffusione tradizionale: x_t = α_tx_0 + σ_tε_t

Diffusione migliorata guidata dal grafo: x_t = C_tx_0 + σ_tε_t

dove C_t = e^{-Lt} è l'operatore di decadimento temporale definito dalla matrice laplaciana.

3. Framework di Diffusione nel Dominio Spettrale

Trasformando il processo di diffusione nel dominio spettrale attraverso la trasformazione spettrale v_t = U^Tx_t:

v_t = λ_t ⊙ v_0 + σtv{ε,t}

dove:

  • v_0 = U^Tx_0 è la risposta in frequenza di x_0
  • λ_t = e^{-t·d_1}, e^{-t·d_2}, ..., e^{-t·d_{|I|}} è il vettore degli autovalori
  • ⊙ rappresenta la moltiplicazione a livello di elemento

4. Pianificazione del Rumore Anisotropo

Adotta un modello di diffusione con varianza preservata:

  • α_t = λ_t
  • σ_t^2 = 1 - λ_t^2

Introduce il controllo dei parametri di limitazione:

  • αt = (1 - α) · λt + α
  • σ_t = Min(√(1 - λt^2), σ)

5. Denoising Inverso Condizionato

Utilizza una rete neurale φ_θ per il denoising, con obiettivo di ottimizzazione:

L_t = E_{(v_0,v_t)~q_0(v_0)q_t(v_t|v_0)}||φ_θ(v_t, U^Tc, t) - v_0||^2

Punti di Innovazione Tecnica

  1. Mappatura nel Dominio Spettrale: Converte la diffusione tradizionale nel dominio spaziale al dominio spettrale del grafo, sfruttando le caratteristiche spettrali del grafo
  2. Rumore Anisotropo: Modula il livello di rumore di diverse componenti di frequenza in base agli autovalori, preservando le informazioni a bassa frequenza
  3. Proprietà di Limitatezza: Grazie alla limitatezza degli autovalori della matrice laplaciana, garantisce un limite inferiore del rapporto segnale-rumore
  4. Fusione FiLM: Utilizza Feature-wise Linear Modulation per la fusione condizionata a livello di elemento

Configurazione Sperimentale

Dataset

Utilizza tre dataset pubblici:

  • MovieLens-1M: 5.949 utenti, 2.810 elementi, 571.531 interazioni, sparsità 96,6%
  • Yelp: 54.574 utenti, 34.395 elementi, 1.402.736 interazioni, sparsità 99,93%
  • Amazon-Book: 108.822 utenti, 94.949 elementi, 3.146.256 interazioni, sparsità 99,97%

I dati sono divisi nel rapporto 7:1:2 in set di addestramento, validazione e test.

Metriche di Valutazione

  • Recall@K: Misura la proporzione di elementi rilevanti nella lista di raccomandazione top-K
  • NDCG@K: Metrica sensibile al ranking, assegnando punteggi più alti agli elementi rilevanti in posizioni più alte

Metodi di Confronto

Include metodi tradizionali di filtraggio collaborativo, metodi di reti neurali grafiche e modelli di diffusione:

  • MF, LightGCN, CDAE, MultiDAE/MultiVAE
  • CODIGEM, DiffRec (modelli di diffusione)
  • LinkProp, BSPM, Giff (metodi di elaborazione dei segnali grafici)

Dettagli di Implementazione

  • Dimensione del batch: 100
  • Tasso di apprendimento: 1e-4
  • Numero massimo di epoche di addestramento: 1.000
  • Passi di diffusione: T=5
  • Dimensione della decomposizione spettrale: 200 dimensioni

Risultati Sperimentali

Risultati Principali

Su tutti i dataset e le metriche di valutazione, S-Diff supera significativamente tutti i metodi di confronto:

Dataset Amazon-Book:

  • Recall@10: 0,1155 (vs. miglior baseline Giff: 0,1109)
  • NDCG@10: 0,0746 (vs. miglior baseline Giff: 0,0733)

Dataset Yelp:

  • Recall@10: 0,0635 (vs. miglior baseline Giff: 0,0639)
  • NDCG@20: 0,0561 (vs. miglior baseline Giff: 0,0520)

Dataset MovieLens-1M:

  • Recall@10: 0,1277 (vs. miglior baseline Giff: 0,1108)
  • NDCG@10: 0,0970 (vs. miglior baseline Giff: 0,0952)

Esperimenti di Ablazione

1. Impatto dei Parametri di Rumore Correlati alla Frequenza

Confronta diverse strategie di pianificazione del rumore:

  • DDPM in Spectral: Utilizza rumore gaussiano tradizionale nel dominio spettrale
  • S-Diff-VE: Diffusione con varianza esplodente
  • S-Diff-VP: Diffusione con varianza preservata (metodo di questo articolo)

I risultati mostrano che S-Diff-VP è ottimale sia nel rapporto segnale-rumore che nelle prestazioni.

2. Analisi dei Componenti della Rete di Denoising

La rimozione dello strato FiLM causa un calo significativo delle prestazioni, verificando l'importanza della fusione a livello di elemento.

Analisi del Rapporto Segnale-Rumore

L'analisi teorica e gli esperimenti dimostrano che la diffusione anisotropa nel dominio spettrale ha un limite inferiore del rapporto segnale-rumore migliore rispetto ai modelli di diffusione tradizionali:

SNR(t) = α_t^2/σ_t^2 ≥ (e^{-2τ})^2/(1-(e^{-2τ})^2)

Gli esperimenti mostrano che anche dopo 1000 passi di diffusione, S-Diff mantiene un rapporto segnale-rumore distinguibile.

Analisi di Sensibilità dei Parametri

  • Dimensione della Decomposizione Spettrale K: Le migliori prestazioni si ottengono con K=200
  • Parametri di Limitazione: Le prestazioni migliori si ottengono con α_ ∈ 0, 0,1, σ_ ∈ 0,4, 0,5

Lavori Correlati

Applicazioni dei Modelli di Diffusione nella Raccomandazione

  • CODIGEM: Prima applicazione di DDPM al filtraggio collaborativo
  • DiffRec: Migliora il modello di diffusione attraverso la mappatura dello spazio latente e la guida del passo temporale
  • CF-Diff: Precalcola le informazioni dei vicini multi-hop come condizione
  • Giff: Utilizza la propagazione del grafo per lo smoothing e il recupero dei segnali

Metodi di Filtraggio Grafico

  • LightGCN: Aggregazione lineare multi-strato delle informazioni dei vicini
  • Poly-CF: Filtraggio spettrale grafico adattivo
  • SGFCF: Trasforma il filtraggio collaborativo in un problema di progettazione di filtri adattivi

Conclusioni e Discussione

Conclusioni Principali

  1. S-Diff combina con successo la teoria spettrale dei grafi con i modelli di diffusione, eseguendo diffusione anisotropa nel dominio spettrale
  2. Preservando le componenti a bassa frequenza e mantenendo un elevato rapporto segnale-rumore, migliora significativamente le prestazioni di raccomandazione
  3. Il metodo ha solide basi teoriche e verifiche sperimentali

Limitazioni

  1. Complessità Computazionale: Richiede decomposizione spettrale, con complessità temporale O(K|I|m)
  2. Ottimizzazione dei Parametri: Richiede un'attenta regolazione dei parametri di limitazione α_ e σ_
  3. Scalabilità: L'applicabilità su dataset di scala molto grande rimane da verificare

Direzioni Future

  1. Ottimizzazione dell'Efficienza Computazionale: Ricerca di metodi di decomposizione spettrale e processi di diffusione più efficienti
  2. Parametri Adattivi: Sviluppo di metodi per la regolazione automatica dei parametri di rumore
  3. Estensione Multimodale: Estensione del metodo a scenari di raccomandazione multimodale

Valutazione Approfondita

Vantaggi

  1. Innovazione Teorica: Combina abilmente l'elaborazione dei segnali grafici con i modelli di diffusione, fornendo una nuova prospettiva teorica
  2. Avanzamento Tecnico: La pianificazione del rumore anisotropo e la diffusione nel dominio spettrale rappresentano importanti contributi tecnici
  3. Esperimenti Completi: Conduce confronti e esperimenti di ablazione completi su più dataset
  4. Prestazioni Superiori: Raggiunge le migliori prestazioni su tutte le metriche di valutazione

Insufficienze

  1. Complessità Elevata: La decomposizione spettrale aumenta l'overhead computazionale, potenzialmente limitando l'applicazione su dati su larga scala
  2. Sensibilità ai Parametri: Il metodo coinvolge più iperparametri che richiedono un'attenta regolazione
  3. Analisi Teorica Incompleta: Manca un'analisi teorica più profonda su perché la diffusione anisotropa sia più efficace

Impatto

  1. Valore Accademico: Fornisce nuove prospettive per l'applicazione dei modelli di diffusione nei sistemi di raccomandazione
  2. Valore Pratico: Il metodo offre miglioramenti significativi nelle prestazioni con potenziale di applicazione pratica
  3. Riproducibilità: L'articolo fornisce dettagli di implementazione e descrizioni di algoritmi dettagliati

Scenari Applicabili

  • Sistemi di raccomandazione di scala media
  • Scenari che richiedono elevata qualità di raccomandazione
  • Dataset con caratteristiche evidenti di filtraggio collaborativo
  • Ambienti con risorse computazionali relativamente abbondanti

Bibliografia

L'articolo cita 52 lavori correlati, coprendo importanti contributi in più campi inclusi modelli di diffusione, filtraggio collaborativo e reti neurali grafiche, fornendo una solida base teorica per questa ricerca.


Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che dimostra eccellenza sia nell'innovazione teorica che nella verifica sperimentale. La combinazione della teoria spettrale dei grafi con i modelli di diffusione rappresenta un contributo prezioso, fornendo una nuova direzione di ricerca per il campo dei sistemi di raccomandazione. Nonostante alcune limitazioni, è un lavoro degno di attenzione nel complesso.