Recovering user preferences from user-item interaction matrices is a key challenge in recommender systems. While diffusion models can sample and reconstruct preferences from latent distributions, they often fail to capture similar users' collective preferences effectively. Additionally, latent variables degrade into pure Gaussian noise during the forward process, lowering the signal-to-noise ratio, which in turn degrades performance. To address this, we propose S-Diff, inspired by graph-based collaborative filtering, better to utilize low-frequency components in the graph spectral domain. S-Diff maps user interaction vectors into the spectral domain and parameterizes diffusion noise to align with graph frequency. This anisotropic diffusion retains significant low-frequency components, preserving a high signal-to-noise ratio. S-Diff further employs a conditional denoising network to encode user interactions, recovering true preferences from noisy data. This method achieves strong results across multiple datasets.
- ID Articolo: 2501.00384
- Titolo: S-Diff: An Anisotropic Diffusion Model for Collaborative Filtering in Spectral Domain
- Autori: Rui Xia, Yanhua Cheng, Yongxiang Tang, Xiaocheng Liu, Xialong Liu, Lisong Wang, Peng Jiang
- Classificazione: cs.IR (Information Retrieval)
- Conferenza di Pubblicazione: WSDM '25 (The Eighteenth ACM International Conference on Web Search and Data Mining)
- Link Articolo: https://arxiv.org/abs/2501.00384
Il recupero delle preferenze utente dalla matrice di interazione utente-elemento nei sistemi di raccomandazione rappresenta una sfida cruciale. Sebbene i modelli di diffusione possano campionare e ricostruire le preferenze dalla distribuzione latente, spesso non riescono a catturare efficacemente le preferenze collettive di utenti simili. Inoltre, durante il processo in avanti, le variabili latenti si degradano in rumore gaussiano puro, riducendo il rapporto segnale-rumore e compromettendo le prestazioni. Per affrontare questi problemi, questo articolo propone S-Diff, ispirato dal filtraggio collaborativo basato su grafi, che sfrutta meglio le componenti a bassa frequenza nel dominio spettrale. S-Diff mappa i vettori di interazione utente nel dominio spettrale e parametrizza il rumore di diffusione per allinearlo con le frequenze del grafo. Questa diffusione anisotropa preserva le componenti a bassa frequenza importanti, mantenendo un elevato rapporto segnale-rumore. S-Diff adotta inoltre una rete di denoising condizionata per codificare le interazioni utente e recuperare le preferenze reali dai dati rumorosi. Il metodo raggiunge risultati robusti su più dataset.
Il compito fondamentale dei sistemi di raccomandazione è recuperare le preferenze reali degli utenti dalla matrice di interazione utente-elemento sparsa, che è essenzialmente un problema inverso. I metodi tradizionali di filtraggio collaborativo affrontano questo problema sfruttando le similarità tra utenti.
- Insufficienze dei Modelli di Diffusione Tradizionali:
- Si affidano principalmente ai vettori di interazione dei singoli utenti come input condizionato, non sfruttando pienamente le informazioni sulle preferenze condivise tra utenti nel filtraggio collaborativo
- Iniettano grandi quantità di rumore gaussiano nei vettori di interazione storica ad alta dimensione, rendendo complesso il processo di recupero del decodificatore di denoising
- Incoerenza Codifica-Decodifica:
- Alcuni modelli utilizzano esplicitamente le informazioni collaborative come guida condizionata nella rete di decodifica, ma il processo in avanti non riflette i segnali collaborativi
- Ciò causa incoerenza tra i processi di codifica e decodifica
- Problema di Degradazione del Rapporto Segnale-Rumore:
- Le variabili latenti si degradano in rumore gaussiano puro durante il processo in avanti, riducendo il rapporto segnale-rumore
- Influisce sulle prestazioni complessive del modello
Ispirato dal successo del filtraggio collaborativo basato su grafi e dall'elaborazione dei segnali grafici, gli autori osservano che il processo di "over-smoothing" della convoluzione grafica è simile allo smoothing dei segnali nel processo di diffusione. Basandosi su questa intuizione, propongono una diffusione anisotropa nel dominio spettrale del grafo per preservare meglio le informazioni a bassa frequenza (che rappresentano le preferenze globali).
- Proposta di Processo di Diffusione in Avanti nel Dominio Spettrale: Introduce un processo di diffusione in avanti definito nel dominio spettrale del grafo, integrando efficacemente le informazioni sulle preferenze globali degli utenti
- Metodo di Parametrizzazione del Rumore Anisotropo: Propone un metodo per parametrizzare la modulazione della scala del rumore di diverse componenti di frequenza, con analisi teorica e risultati sperimentali che dimostrano i vantaggi di questa configurazione in termini di rapporto segnale-rumore
- Modulo di Denoising con Fusione a Livello di Elemento: Progetta un modulo di denoising basato sulla fusione a livello di elemento nel processo inverso, con esperimenti estesi che verificano l'efficacia del metodo proposto
- Garanzie Teoriche: Fornisce analisi delle proprietà di limitatezza del processo di diffusione nel dominio spettrale, dimostrando la razionalità teorica del metodo
Dato un insieme di utenti U e un insieme di elementi I, la matrice di interazione utente-elemento X ∈ {0,1}^{|U|×|I|}, dove x_{u,i} = 1 indica che l'utente u ha interagito con l'elemento i. L'obiettivo è predire il vettore di valutazione x̂ ∈ ℝ^{|I|}, generando i punteggi di preferenza latente di tutti gli elementi per un utente specificato.
- Grafo di Similarità degli Elementi: Definisce la matrice di adiacenza di similarità normalizzata A = X̃^TX̃, dove X̃ = D_U^{-1/2}X****D_I^{-1/2}
- Operatore Laplaciano: L = I - A
- Decomposizione agli Autovalori: L = UΛU^T, dove Λ contiene gli autovalori e U contiene gli autovettori
Processo di diffusione tradizionale: x_t = α_tx_0 + σ_tε_t
Diffusione migliorata guidata dal grafo: x_t = C_tx_0 + σ_tε_t
dove C_t = e^{-Lt} è l'operatore di decadimento temporale definito dalla matrice laplaciana.
Trasformando il processo di diffusione nel dominio spettrale attraverso la trasformazione spettrale v_t = U^Tx_t:
v_t = λ_t ⊙ v_0 + σtv{ε,t}
dove:
- v_0 = U^Tx_0 è la risposta in frequenza di x_0
- λ_t = e^{-t·d_1}, e^{-t·d_2}, ..., e^{-t·d_{|I|}} è il vettore degli autovalori
- ⊙ rappresenta la moltiplicazione a livello di elemento
Adotta un modello di diffusione con varianza preservata:
- α_t = λ_t
- σ_t^2 = 1 - λ_t^2
Introduce il controllo dei parametri di limitazione:
- αt = (1 - α) · λt + α
- σ_t = Min(√(1 - λt^2), σ)
Utilizza una rete neurale φ_θ per il denoising, con obiettivo di ottimizzazione:
L_t = E_{(v_0,v_t)~q_0(v_0)q_t(v_t|v_0)}||φ_θ(v_t, U^Tc, t) - v_0||^2
- Mappatura nel Dominio Spettrale: Converte la diffusione tradizionale nel dominio spaziale al dominio spettrale del grafo, sfruttando le caratteristiche spettrali del grafo
- Rumore Anisotropo: Modula il livello di rumore di diverse componenti di frequenza in base agli autovalori, preservando le informazioni a bassa frequenza
- Proprietà di Limitatezza: Grazie alla limitatezza degli autovalori della matrice laplaciana, garantisce un limite inferiore del rapporto segnale-rumore
- Fusione FiLM: Utilizza Feature-wise Linear Modulation per la fusione condizionata a livello di elemento
Utilizza tre dataset pubblici:
- MovieLens-1M: 5.949 utenti, 2.810 elementi, 571.531 interazioni, sparsità 96,6%
- Yelp: 54.574 utenti, 34.395 elementi, 1.402.736 interazioni, sparsità 99,93%
- Amazon-Book: 108.822 utenti, 94.949 elementi, 3.146.256 interazioni, sparsità 99,97%
I dati sono divisi nel rapporto 7:1:2 in set di addestramento, validazione e test.
- Recall@K: Misura la proporzione di elementi rilevanti nella lista di raccomandazione top-K
- NDCG@K: Metrica sensibile al ranking, assegnando punteggi più alti agli elementi rilevanti in posizioni più alte
Include metodi tradizionali di filtraggio collaborativo, metodi di reti neurali grafiche e modelli di diffusione:
- MF, LightGCN, CDAE, MultiDAE/MultiVAE
- CODIGEM, DiffRec (modelli di diffusione)
- LinkProp, BSPM, Giff (metodi di elaborazione dei segnali grafici)
- Dimensione del batch: 100
- Tasso di apprendimento: 1e-4
- Numero massimo di epoche di addestramento: 1.000
- Passi di diffusione: T=5
- Dimensione della decomposizione spettrale: 200 dimensioni
Su tutti i dataset e le metriche di valutazione, S-Diff supera significativamente tutti i metodi di confronto:
Dataset Amazon-Book:
- Recall@10: 0,1155 (vs. miglior baseline Giff: 0,1109)
- NDCG@10: 0,0746 (vs. miglior baseline Giff: 0,0733)
Dataset Yelp:
- Recall@10: 0,0635 (vs. miglior baseline Giff: 0,0639)
- NDCG@20: 0,0561 (vs. miglior baseline Giff: 0,0520)
Dataset MovieLens-1M:
- Recall@10: 0,1277 (vs. miglior baseline Giff: 0,1108)
- NDCG@10: 0,0970 (vs. miglior baseline Giff: 0,0952)
Confronta diverse strategie di pianificazione del rumore:
- DDPM in Spectral: Utilizza rumore gaussiano tradizionale nel dominio spettrale
- S-Diff-VE: Diffusione con varianza esplodente
- S-Diff-VP: Diffusione con varianza preservata (metodo di questo articolo)
I risultati mostrano che S-Diff-VP è ottimale sia nel rapporto segnale-rumore che nelle prestazioni.
La rimozione dello strato FiLM causa un calo significativo delle prestazioni, verificando l'importanza della fusione a livello di elemento.
L'analisi teorica e gli esperimenti dimostrano che la diffusione anisotropa nel dominio spettrale ha un limite inferiore del rapporto segnale-rumore migliore rispetto ai modelli di diffusione tradizionali:
SNR(t) = α_t^2/σ_t^2 ≥ (e^{-2τ})^2/(1-(e^{-2τ})^2)
Gli esperimenti mostrano che anche dopo 1000 passi di diffusione, S-Diff mantiene un rapporto segnale-rumore distinguibile.
- Dimensione della Decomposizione Spettrale K: Le migliori prestazioni si ottengono con K=200
- Parametri di Limitazione: Le prestazioni migliori si ottengono con α_ ∈ 0, 0,1, σ_ ∈ 0,4, 0,5
- CODIGEM: Prima applicazione di DDPM al filtraggio collaborativo
- DiffRec: Migliora il modello di diffusione attraverso la mappatura dello spazio latente e la guida del passo temporale
- CF-Diff: Precalcola le informazioni dei vicini multi-hop come condizione
- Giff: Utilizza la propagazione del grafo per lo smoothing e il recupero dei segnali
- LightGCN: Aggregazione lineare multi-strato delle informazioni dei vicini
- Poly-CF: Filtraggio spettrale grafico adattivo
- SGFCF: Trasforma il filtraggio collaborativo in un problema di progettazione di filtri adattivi
- S-Diff combina con successo la teoria spettrale dei grafi con i modelli di diffusione, eseguendo diffusione anisotropa nel dominio spettrale
- Preservando le componenti a bassa frequenza e mantenendo un elevato rapporto segnale-rumore, migliora significativamente le prestazioni di raccomandazione
- Il metodo ha solide basi teoriche e verifiche sperimentali
- Complessità Computazionale: Richiede decomposizione spettrale, con complessità temporale O(K|I|m)
- Ottimizzazione dei Parametri: Richiede un'attenta regolazione dei parametri di limitazione α_ e σ_
- Scalabilità: L'applicabilità su dataset di scala molto grande rimane da verificare
- Ottimizzazione dell'Efficienza Computazionale: Ricerca di metodi di decomposizione spettrale e processi di diffusione più efficienti
- Parametri Adattivi: Sviluppo di metodi per la regolazione automatica dei parametri di rumore
- Estensione Multimodale: Estensione del metodo a scenari di raccomandazione multimodale
- Innovazione Teorica: Combina abilmente l'elaborazione dei segnali grafici con i modelli di diffusione, fornendo una nuova prospettiva teorica
- Avanzamento Tecnico: La pianificazione del rumore anisotropo e la diffusione nel dominio spettrale rappresentano importanti contributi tecnici
- Esperimenti Completi: Conduce confronti e esperimenti di ablazione completi su più dataset
- Prestazioni Superiori: Raggiunge le migliori prestazioni su tutte le metriche di valutazione
- Complessità Elevata: La decomposizione spettrale aumenta l'overhead computazionale, potenzialmente limitando l'applicazione su dati su larga scala
- Sensibilità ai Parametri: Il metodo coinvolge più iperparametri che richiedono un'attenta regolazione
- Analisi Teorica Incompleta: Manca un'analisi teorica più profonda su perché la diffusione anisotropa sia più efficace
- Valore Accademico: Fornisce nuove prospettive per l'applicazione dei modelli di diffusione nei sistemi di raccomandazione
- Valore Pratico: Il metodo offre miglioramenti significativi nelle prestazioni con potenziale di applicazione pratica
- Riproducibilità: L'articolo fornisce dettagli di implementazione e descrizioni di algoritmi dettagliati
- Sistemi di raccomandazione di scala media
- Scenari che richiedono elevata qualità di raccomandazione
- Dataset con caratteristiche evidenti di filtraggio collaborativo
- Ambienti con risorse computazionali relativamente abbondanti
L'articolo cita 52 lavori correlati, coprendo importanti contributi in più campi inclusi modelli di diffusione, filtraggio collaborativo e reti neurali grafiche, fornendo una solida base teorica per questa ricerca.
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che dimostra eccellenza sia nell'innovazione teorica che nella verifica sperimentale. La combinazione della teoria spettrale dei grafi con i modelli di diffusione rappresenta un contributo prezioso, fornendo una nuova direzione di ricerca per il campo dei sistemi di raccomandazione. Nonostante alcune limitazioni, è un lavoro degno di attenzione nel complesso.