2025-11-20T21:55:15.461429

Diffusion Generative Recommendation with Continuous Tokens

Qu, Lin, Ding et al.
Recent advances in generative artificial intelligence, particularly large language models (LLMs), have opened new opportunities for enhancing recommender systems (RecSys). Most existing LLM-based RecSys approaches operate in a discrete space, using vector-quantized tokenizers to align with the inherent discrete nature of language models. However, these quantization methods often result in lossy tokenization and suboptimal learning, primarily due to inaccurate gradient propagation caused by the non-differentiable argmin operation in standard vector quantization. Inspired by the emerging trend of embracing continuous tokens in language models, we propose ContRec, a novel framework that seamlessly integrates continuous tokens into LLM-based RecSys. Specifically, ContRec consists of two key modules: a sigma-VAE Tokenizer, which encodes users/items with continuous tokens; and a Dispersive Diffusion module, which captures implicit user preference. The tokenizer is trained with a continuous Variational Auto-Encoder (VAE) objective, where three effective techniques are adopted to avoid representation collapse. By conditioning on the previously generated tokens of the LLM backbone during user modeling, the Dispersive Diffusion module performs a conditional diffusion process with a novel Dispersive Loss, enabling high-quality user preference generation through next-token diffusion. Finally, ContRec leverages both the textual reasoning output from the LLM and the latent representations produced by the diffusion model for Top-K item retrieval, thereby delivering comprehensive recommendation results. Extensive experiments on four datasets demonstrate that \ourname{} consistently outperforms both traditional and SOTA LLM-based recommender systems. Our results highlight the potential of continuous tokenization and generative modeling for advancing the next generation of recommender systems.
academic

Raccomandazione Generativa con Diffusione e Token Continui

Informazioni Fondamentali

  • ID Articolo: 2504.12007
  • Titolo: Diffusion Generative Recommendation with Continuous Tokens
  • Autori: Haohao Qu, Shanru Lin, Yujuan Ding, Yiqi Wang, Wenqi Fan
  • Classificazione: cs.IR cs.AI
  • Data di Pubblicazione/Conferenza: Preprint arXiv (versione rivista 10 ottobre 2025)
  • Link Articolo: https://arxiv.org/abs/2504.12007

Riassunto

Questo articolo affronta le limitazioni dei metodi di tokenizzazione discreta nei sistemi di raccomandazione basati su modelli di linguaggio di grandi dimensioni (LLM), proponendo il framework ContRec, che integra perfettamente token continui nei sistemi di raccomandazione LLM. ContRec contiene due moduli principali: il tokenizzatore σ-VAE (per codificare utenti/elementi con token continui) e il modulo di diffusione dispersa (per catturare le preferenze implicite degli utenti). Combinando l'output di ragionamento testuale dell'LLM e le rappresentazioni latenti generate dal modello di diffusione per il recupero dei Top-K elementi, gli esperimenti su quattro dataset dimostrano che ContRec supera significativamente i sistemi di raccomandazione LLM tradizionali e all'avanguardia.

Contesto di Ricerca e Motivazione

Definizione del Problema

I sistemi di raccomandazione basati su LLM attuali affrontano principalmente due problemi critici:

  1. Tokenizzazione con Perdita di Informazioni: I metodi di quantizzazione vettoriale inevitabilmente perdono informazioni durante la compressione
  2. Propagazione Imprecisa dei Gradienti: L'operazione argmin non differenziabile nella quantizzazione vettoriale standard porta all'uso del trucco "straight-through", generando gradienti imprecisi

Importanza della Ricerca

  • Gli LLM dimostrano forti capacità di generalizzazione e apprendimento contestuale nei sistemi di raccomandazione
  • Gli insiemi di utenti e elementi raggiungono tipicamente scale di milioni, rendendo i metodi di indicizzazione tradizionali inefficienti
  • Sebbene i metodi di quantizzazione siano pratici, presentano limitazioni nella qualità della ricostruzione e nelle prestazioni generative

Limitazioni dei Metodi Esistenti

  1. Metodi Discreti: Come TIGER e UTGRec utilizzano VQ-VAE per costruire vocabolari discreti, con perdita di informazioni nella compressione
  2. Metodi di Proiezione Continua: Come CoLLM e LlaRA utilizzano token continui solo nella parte di input, mentre l'output dipende ancora da generatori discreti, creando una discrepanza discreto-continua

Motivazione della Ricerca

Ispirato dalla tendenza verso token continui nei modelli di linguaggio, questo lavoro esplora il potenziale dell'uso di token continui e modelli di diffusione negli scenari di raccomandazione, realizzando una modellazione di preferenze utente di qualità superiore.

Contributi Principali

  1. Propone il Framework ContRec: Il primo framework che integra perfettamente token continui nei sistemi di raccomandazione LLM, superando i limiti della quantizzazione
  2. Progetta Due Moduli Chiave:
    • Tokenizzatore σ-VAE: Un tokenizzatore continuo robusto che impiega tre tecniche per prevenire il collasso della rappresentazione
    • Modulo di Diffusione Dispersa: Genera rappresentazioni implicite delle preferenze utente attraverso l'apprendimento auto-supervisionato contrastivo
  3. Introduce la Perdita Dispersa: Un meccanismo di apprendimento contrastivo che non richiede coppie esplicite di campioni positivi e negativi
  4. Verifica Sperimentale: Miglioramenti medi del 11,76% in HR@10 e del 10,11% in NDCG@10 su quattro dataset

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un insieme di utenti U = {u₁, u₂, ..., uₙ} e un insieme di elementi V = {v₁, v₂, ..., vₘ}, l'obiettivo è prevedere le preferenze future degli utenti analizzando le interazioni storiche, riformulando la raccomandazione sequenziale come paradigma di modello di linguaggio:

Yᵢ = LLM(P(Tᵢ, {Tⱼ|vⱼ ∈ V(uᵢ)}))

Architettura del Modello

1. Tokenizzatore σ-VAE

Adotta il framework VAE per la tokenizzazione non quantizzata, includendo tre tecniche chiave:

Operazione di Mascheramento: Strategia di mascheramento a livello di elemento basata su distribuzione di Bernoulli

μₖ = Encₖ(Mask(x, ρ))

Encoder K-vie: Canali di codifica paralleli per realizzare la codifica implicita

zₖ = μₖ + σₖ ⊙ ε, dove ε ~ N(0,1), σₖ ~ N(0,Σ)

Kernel Gaussiano: Previene il collasso della varianza

x̂ = Dec(Concat{zₖ}ᴷ)

Funzione di Perdita:

Lvae = ||x̂ - x||₂² + (β/K)∑ᵏ₌₁ᴷ ||μₖ||₂²

2. Modellazione Utente LLM

Combina informazioni semantiche discrete e conoscenze collaborative continue:

Xᵢ := P(Tᵢ, {Tⱼ|vⱼ ∈ V(uᵢ)})

Utilizza token speciali ⟨z_start⟩ e ⟨z_end⟩ per contrassegnare l'inizio e la fine della sequenza di token continui.

3. Modulo di Diffusione Dispersa

Processo di Diffusione Condizionata:

Ldiff = E(yᵢ,cᵢ,t) ||ε - εθ(y^t_i, cᵢ, t)||₂²

Perdita Dispersa:

Ldisp = log E_{i,j}[exp(-D(hᵢ, hⱼ)/τ)]

Questa è una "perdita contrastiva senza coppie di campioni positivi", che incoraggia la dispersione delle rappresentazioni all'interno del batch.

Punti di Innovazione Tecnica

  1. Tokenizzazione Continua: Evita completamente le operazioni di quantizzazione, mantenendo l'integrità dell'informazione
  2. Meccanismo di Recupero Ibrido: Combina il ragionamento testuale dell'LLM e le rappresentazioni implicite generate dalla diffusione
  3. Ottimizzazione End-to-End: Unifica l'ottimizzazione dei tre obiettivi di perdita
  4. Guida Libera da Classificatore: Controlla l'intensità della personalizzazione durante l'inferenza

Configurazione Sperimentale

Dataset

Utilizza quattro dataset di riferimento:

DatasetUtentiElementiInterazioniLunghezza MediaDensità(%)
LastFM1.0913.68552.67048,31,31
ML1M6.0403.416447.294165,52,17
Beauty22.36312.101278.6418,90,07
Games47.56816.834266.1399,50,03

Metriche di Valutazione

  • HR@K (Hit Ratio): Tasso di successo nei Top-K
  • NDCG@K (Normalized Discounted Cumulative Gain): Guadagno Cumulativo Scontato Normalizzato
  • Valori di K impostati a 10 e 20

Metodi di Confronto

Raccomandazione Sequenziale Tradizionale: GRU4Rec, SASRec, SSD4Rec, DreamRec Sistemi di Raccomandazione LLM: P5, CoLLM, TIGER, TokenRec, LLaRA

Dettagli di Implementazione

  • Modello di Base: Llama-3.2-1B-Instruct
  • Ottimizzatore: AdamW (tasso di apprendimento 1e-5/1e-4)
  • Dimensione del Batch: 24
  • Lunghezza Massima della Sequenza: 20
  • Passi di Diffusione: 1000 durante l'addestramento, 100 durante l'inferenza

Risultati Sperimentali

Risultati Principali

ContRec raggiunge le migliori prestazioni su tutti i dataset:

DatasetMetricaBaseline MiglioreContRecMiglioramento
BeautyHR@100,04420,0473±0,00177,74%
GamesHR@100,10180,1041±0,00368,66%
LastFMHR@100,05250,0539±0,003415,42%
ML1MHR@100,10760,1099±0,006615,20%

Rispetto a TIGER (metodo discreto tipico), miglioramento medio dell'11,76% in HR@10 e del 10,11% in NDCG@10.

Esperimenti di Ablazione

Analisi del contributo dei componenti chiave:

ComponenteBeauty HR@10ML1M HR@10Impatto
Modello Completo0,04730,1099-
senza Diffusione0,04310,1007Calo Significativo
senza Perdita Dispersa0,04480,1042Calo Evidente
senza σ0,04570,1051Calo Prestazioni
con VQ-VAE0,04260,0974Calo Sostanziale

Valutazione della Ricostruzione

Nel compito di ricostruzione dell'embedding degli elementi, il metodo continuo supera significativamente il metodo discreto:

  • Il modello di diffusione ha l'errore di ricostruzione più basso
  • VAE supera vari metodi di quantizzazione (VQ-VAE, RQ-VAE, MQ-VAE)
  • La convergenza della perdita è più fluida

Sensibilità degli Iperparametri

  • Rapporto di Mascheramento ρ: 0,2 è il valore ottimale
  • Numero di Token K: 3-4 token forniscono le migliori prestazioni
  • Intensità della Guida ω: Piccoli valori (ω=2) portano miglioramenti
  • Parametri di Peso: Prestazioni ottimali con γ₁=1, γ₂=0,5

Lavori Correlati

Sistemi di Raccomandazione LLM

  1. Tokenizzazione Discreta: P5 unifica i multi-compiti in generazione testuale, TIGER/TokenRec utilizzano quantizzazione vettoriale
  2. Proiezione Continua: CoLLM/LlaRA proiettano direttamente le rappresentazioni collaborative, con discrepanza discreto-continua

Modelli di Diffusione e Token Continui

  1. Generazione di Immagini: VAE-MAR, Next-Token Diffusion dimostrano il potenziale dei token continui
  2. Modellazione Multimodale: DEEM e altri utilizzano la diffusione come "occhio" dell'LLM
  3. Modellazione Proteica: DPLM e altri hanno successo negli embedding di strutture continue

Conclusioni e Discussione

Conclusioni Principali

  1. Vantaggi dei Token Continui Verificati: Evitano la perdita di quantizzazione, realizzando un apprendimento di rappresentazione più preciso
  2. Modelli di Diffusione Applicabili alla Raccomandazione: Dimostrano forti capacità nella modellazione delle preferenze utente
  3. Meccanismo di Recupero Ibrido Efficace: Combina i vantaggi del ragionamento esplicito e delle rappresentazioni implicite
  4. Ottimizzazione End-to-End Fattibile: Il framework unificato realizza l'ottimizzazione coordinata dei componenti

Limitazioni

  1. Costi Computazionali: Il tempo di inferenza è principalmente occupato dall'inferenza LLM (circa 88,6%)
  2. Cambiamento delle Preferenze Utente: Adattabilità limitata ai cambiamenti improvvisi delle preferenze
  3. Scenari di Applicazione: Più adatto alla raccomandazione conversazionale personalizzata che ai sistemi online su larga scala
  4. Dipendenza dai Dati: Richiede informazioni testuali ricche degli elementi

Direzioni Future

  1. Ottimizzazione dell'Efficienza: Esplorare metodi di generazione di token continui più efficienti
  2. Modellazione Dinamica: Migliorare la capacità di modellazione dell'evoluzione delle preferenze utente
  3. Estensione Multimodale: Integrare informazioni multimodali come immagini e video
  4. Analisi Teorica: Approfondire la comprensione delle basi teoriche dei token continui nella raccomandazione

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Primo lavoro a introdurre sistematicamente token continui nei sistemi di raccomandazione LLM
  2. Tecnica Rigorosa: Il design σ-VAE è ingegnoso, prevenendo efficacemente il collasso della rappresentazione
  3. Esperimenti Completi: Verifica su più dataset, analisi di ablazione e sensibilità dettagliate
  4. Supporto Teorico: La derivazione matematica della perdita dispersa è chiara e il design è razionale

Insufficienze

  1. Efficienza Computazionale: Latenza di inferenza relativamente alta, limitando gli scenari di applicazione pratica
  2. Capacità di Generalizzazione: Prestazioni limitate negli scenari di mutamento improvviso delle preferenze utente
  3. Confronto Non Sufficientemente Completo: Mancano confronti con più metodi LLM di raccomandazione recenti
  4. Analisi Teorica Insufficiente: La spiegazione teorica dei vantaggi dei token continui necessita di approfondimento

Impatto

  1. Contributo Accademico: Fornisce un nuovo percorso tecnico per i sistemi di raccomandazione LLM
  2. Valore Pratico: Ha buone prospettive di applicazione in scenari come la raccomandazione conversazionale
  3. Riproducibilità: Fornisce dettagli di implementazione dettagliati e impostazioni degli iperparametri
  4. Significato Ispiratore: Fornisce nuove idee per la combinazione di sistemi di raccomandazione e IA generativa

Scenari Applicabili

  1. Raccomandazione Conversazionale Personalizzata: Scenari che richiedono interpretabilità e interattività
  2. Raccomandazione Cold-Start: Sfruttare le informazioni testuali per gestire utenti/elementi nuovi
  3. Raccomandazione Cross-Domain: Sfruttare la capacità di generalizzazione dell'LLM per il trasferimento tra domini
  4. Prototipo di Ricerca: Come framework di base per esplorare la raccomandazione con token continui

Bibliografia

Questo articolo cita lavori importanti nei campi dei sistemi di raccomandazione, modelli di linguaggio di grandi dimensioni, modelli di diffusione e altri, inclusi:

  • Algoritmi di Raccomandazione Classici: LightGCN, SASRec e altri
  • Sistemi di Raccomandazione LLM: P5, TIGER, TokenRec e altri
  • Modelli di Diffusione: DDPM, Classifier-free Guidance e altri
  • Tokenizzazione Continua: VAE-MAR, Next-Token Diffusion e altri

Valutazione Complessiva: Questo è un lavoro di importante significato innovativo nel campo dei sistemi di raccomandazione LLM. Introducendo tokenizzazione continua e modelli di diffusione, affronta efficacemente le limitazioni dei metodi esistenti. Sebbene ci sia ancora spazio per miglioramenti in termini di efficienza computazionale e applicabilità in determinati scenari, l'innovazione tecnica e la verifica sperimentale sono sufficientemente complete, fornendo contributi preziosi allo sviluppo del settore.