2025-11-20T21:55:15.461429

Diffusion Generative Recommendation with Continuous Tokens

Qu, Lin, Ding et al.

Recent advances in generative artificial intelligence, particularly large language models (LLMs), have opened new opportunities for enhancing recommender systems (RecSys). Most existing LLM-based RecSys approaches operate in a discrete space, using vector-quantized tokenizers to align with the inherent discrete nature of language models. However, these quantization methods often result in lossy tokenization and suboptimal learning, primarily due to inaccurate gradient propagation caused by the non-differentiable argmin operation in standard vector quantization. Inspired by the emerging trend of embracing continuous tokens in language models, we propose ContRec, a novel framework that seamlessly integrates continuous tokens into LLM-based RecSys. Specifically, ContRec consists of two key modules: a sigma-VAE Tokenizer, which encodes users/items with continuous tokens; and a Dispersive Diffusion module, which captures implicit user preference. The tokenizer is trained with a continuous Variational Auto-Encoder (VAE) objective, where three effective techniques are adopted to avoid representation collapse. By conditioning on the previously generated tokens of the LLM backbone during user modeling, the Dispersive Diffusion module performs a conditional diffusion process with a novel Dispersive Loss, enabling high-quality user preference generation through next-token diffusion. Finally, ContRec leverages both the textual reasoning output from the LLM and the latent representations produced by the diffusion model for Top-K item retrieval, thereby delivering comprehensive recommendation results. Extensive experiments on four datasets demonstrate that \ourname{} consistently outperforms both traditional and SOTA LLM-based recommender systems. Our results highlight the potential of continuous tokenization and generative modeling for advancing the next generation of recommender systems.

academic

Raccomandazione Generativa con Diffusione e Token Continui

Informazioni Fondamentali

ID Articolo: 2504.12007
Titolo: Diffusion Generative Recommendation with Continuous Tokens
Autori: Haohao Qu, Shanru Lin, Yujuan Ding, Yiqi Wang, Wenqi Fan
Classificazione: cs.IR cs.AI
Data di Pubblicazione/Conferenza: Preprint arXiv (versione rivista 10 ottobre 2025)
Link Articolo: https://arxiv.org/abs/2504.12007

Riassunto

Questo articolo affronta le limitazioni dei metodi di tokenizzazione discreta nei sistemi di raccomandazione basati su modelli di linguaggio di grandi dimensioni (LLM), proponendo il framework ContRec, che integra perfettamente token continui nei sistemi di raccomandazione LLM. ContRec contiene due moduli principali: il tokenizzatore σ-VAE (per codificare utenti/elementi con token continui) e il modulo di diffusione dispersa (per catturare le preferenze implicite degli utenti). Combinando l'output di ragionamento testuale dell'LLM e le rappresentazioni latenti generate dal modello di diffusione per il recupero dei Top-K elementi, gli esperimenti su quattro dataset dimostrano che ContRec supera significativamente i sistemi di raccomandazione LLM tradizionali e all'avanguardia.

Contesto di Ricerca e Motivazione

Definizione del Problema

I sistemi di raccomandazione basati su LLM attuali affrontano principalmente due problemi critici:

Tokenizzazione con Perdita di Informazioni: I metodi di quantizzazione vettoriale inevitabilmente perdono informazioni durante la compressione
Propagazione Imprecisa dei Gradienti: L'operazione argmin non differenziabile nella quantizzazione vettoriale standard porta all'uso del trucco "straight-through", generando gradienti imprecisi

Importanza della Ricerca

Gli LLM dimostrano forti capacità di generalizzazione e apprendimento contestuale nei sistemi di raccomandazione
Gli insiemi di utenti e elementi raggiungono tipicamente scale di milioni, rendendo i metodi di indicizzazione tradizionali inefficienti
Sebbene i metodi di quantizzazione siano pratici, presentano limitazioni nella qualità della ricostruzione e nelle prestazioni generative

Limitazioni dei Metodi Esistenti

Metodi Discreti: Come TIGER e UTGRec utilizzano VQ-VAE per costruire vocabolari discreti, con perdita di informazioni nella compressione
Metodi di Proiezione Continua: Come CoLLM e LlaRA utilizzano token continui solo nella parte di input, mentre l'output dipende ancora da generatori discreti, creando una discrepanza discreto-continua

Motivazione della Ricerca

Ispirato dalla tendenza verso token continui nei modelli di linguaggio, questo lavoro esplora il potenziale dell'uso di token continui e modelli di diffusione negli scenari di raccomandazione, realizzando una modellazione di preferenze utente di qualità superiore.

Contributi Principali

Propone il Framework ContRec: Il primo framework che integra perfettamente token continui nei sistemi di raccomandazione LLM, superando i limiti della quantizzazione
Progetta Due Moduli Chiave:
- Tokenizzatore σ-VAE: Un tokenizzatore continuo robusto che impiega tre tecniche per prevenire il collasso della rappresentazione
- Modulo di Diffusione Dispersa: Genera rappresentazioni implicite delle preferenze utente attraverso l'apprendimento auto-supervisionato contrastivo
Introduce la Perdita Dispersa: Un meccanismo di apprendimento contrastivo che non richiede coppie esplicite di campioni positivi e negativi
Verifica Sperimentale: Miglioramenti medi del 11,76% in HR@10 e del 10,11% in NDCG@10 su quattro dataset

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un insieme di utenti U = {u₁, u₂, ..., uₙ} e un insieme di elementi V = {v₁, v₂, ..., vₘ}, l'obiettivo è prevedere le preferenze future degli utenti analizzando le interazioni storiche, riformulando la raccomandazione sequenziale come paradigma di modello di linguaggio:

Yᵢ = LLM(P(Tᵢ, {Tⱼ|vⱼ ∈ V(uᵢ)}))

Architettura del Modello

1. Tokenizzatore σ-VAE

Adotta il framework VAE per la tokenizzazione non quantizzata, includendo tre tecniche chiave:

Operazione di Mascheramento: Strategia di mascheramento a livello di elemento basata su distribuzione di Bernoulli

μₖ = Encₖ(Mask(x, ρ))

Encoder K-vie: Canali di codifica paralleli per realizzare la codifica implicita

zₖ = μₖ + σₖ ⊙ ε, dove ε ~ N(0,1), σₖ ~ N(0,Σ)

Kernel Gaussiano: Previene il collasso della varianza

x̂ = Dec(Concat{zₖ}ᴷ)

Funzione di Perdita:

Lvae = ||x̂ - x||₂² + (β/K)∑ᵏ₌₁ᴷ ||μₖ||₂²

2. Modellazione Utente LLM

Combina informazioni semantiche discrete e conoscenze collaborative continue:

Xᵢ := P(Tᵢ, {Tⱼ|vⱼ ∈ V(uᵢ)})

Utilizza token speciali ⟨z_start⟩ e ⟨z_end⟩ per contrassegnare l'inizio e la fine della sequenza di token continui.

3. Modulo di Diffusione Dispersa

Processo di Diffusione Condizionata:

Ldiff = E(yᵢ,cᵢ,t) ||ε - εθ(y^t_i, cᵢ, t)||₂²

Perdita Dispersa:

Ldisp = log E_{i,j}[exp(-D(hᵢ, hⱼ)/τ)]

Questa è una "perdita contrastiva senza coppie di campioni positivi", che incoraggia la dispersione delle rappresentazioni all'interno del batch.

Punti di Innovazione Tecnica

Tokenizzazione Continua: Evita completamente le operazioni di quantizzazione, mantenendo l'integrità dell'informazione
Meccanismo di Recupero Ibrido: Combina il ragionamento testuale dell'LLM e le rappresentazioni implicite generate dalla diffusione
Ottimizzazione End-to-End: Unifica l'ottimizzazione dei tre obiettivi di perdita
Guida Libera da Classificatore: Controlla l'intensità della personalizzazione durante l'inferenza

Configurazione Sperimentale

Dataset

Utilizza quattro dataset di riferimento:

Dataset	Utenti	Elementi	Interazioni	Lunghezza Media	Densità(%)
LastFM	1.091	3.685	52.670	48,3	1,31
ML1M	6.040	3.416	447.294	165,5	2,17
Beauty	22.363	12.101	278.641	8,9	0,07
Games	47.568	16.834	266.139	9,5	0,03

Metriche di Valutazione

HR@K (Hit Ratio): Tasso di successo nei Top-K
NDCG@K (Normalized Discounted Cumulative Gain): Guadagno Cumulativo Scontato Normalizzato
Valori di K impostati a 10 e 20

Metodi di Confronto

Raccomandazione Sequenziale Tradizionale: GRU4Rec, SASRec, SSD4Rec, DreamRec Sistemi di Raccomandazione LLM: P5, CoLLM, TIGER, TokenRec, LLaRA

Dettagli di Implementazione

Modello di Base: Llama-3.2-1B-Instruct
Ottimizzatore: AdamW (tasso di apprendimento 1e-5/1e-4)
Dimensione del Batch: 24
Lunghezza Massima della Sequenza: 20
Passi di Diffusione: 1000 durante l'addestramento, 100 durante l'inferenza

Risultati Sperimentali

Risultati Principali

ContRec raggiunge le migliori prestazioni su tutti i dataset:

Dataset	Metrica	Baseline Migliore	ContRec	Miglioramento
Beauty	HR@10	0,0442	0,0473±0,0017	7,74%
Games	HR@10	0,1018	0,1041±0,0036	8,66%
LastFM	HR@10	0,0525	0,0539±0,0034	15,42%
ML1M	HR@10	0,1076	0,1099±0,0066	15,20%

Rispetto a TIGER (metodo discreto tipico), miglioramento medio dell'11,76% in HR@10 e del 10,11% in NDCG@10.

Esperimenti di Ablazione

Analisi del contributo dei componenti chiave:

Componente	Beauty HR@10	ML1M HR@10	Impatto
Modello Completo	0,0473	0,1099	-
senza Diffusione	0,0431	0,1007	Calo Significativo
senza Perdita Dispersa	0,0448	0,1042	Calo Evidente
senza σ	0,0457	0,1051	Calo Prestazioni
con VQ-VAE	0,0426	0,0974	Calo Sostanziale

Valutazione della Ricostruzione

Nel compito di ricostruzione dell'embedding degli elementi, il metodo continuo supera significativamente il metodo discreto:

Il modello di diffusione ha l'errore di ricostruzione più basso
VAE supera vari metodi di quantizzazione (VQ-VAE, RQ-VAE, MQ-VAE)
La convergenza della perdita è più fluida

Sensibilità degli Iperparametri

Rapporto di Mascheramento ρ: 0,2 è il valore ottimale
Numero di Token K: 3-4 token forniscono le migliori prestazioni
Intensità della Guida ω: Piccoli valori (ω=2) portano miglioramenti
Parametri di Peso: Prestazioni ottimali con γ₁=1, γ₂=0,5

Lavori Correlati

Sistemi di Raccomandazione LLM

Tokenizzazione Discreta: P5 unifica i multi-compiti in generazione testuale, TIGER/TokenRec utilizzano quantizzazione vettoriale
Proiezione Continua: CoLLM/LlaRA proiettano direttamente le rappresentazioni collaborative, con discrepanza discreto-continua

Modelli di Diffusione e Token Continui

Generazione di Immagini: VAE-MAR, Next-Token Diffusion dimostrano il potenziale dei token continui
Modellazione Multimodale: DEEM e altri utilizzano la diffusione come "occhio" dell'LLM
Modellazione Proteica: DPLM e altri hanno successo negli embedding di strutture continue

Conclusioni e Discussione

Conclusioni Principali

Vantaggi dei Token Continui Verificati: Evitano la perdita di quantizzazione, realizzando un apprendimento di rappresentazione più preciso
Modelli di Diffusione Applicabili alla Raccomandazione: Dimostrano forti capacità nella modellazione delle preferenze utente
Meccanismo di Recupero Ibrido Efficace: Combina i vantaggi del ragionamento esplicito e delle rappresentazioni implicite
Ottimizzazione End-to-End Fattibile: Il framework unificato realizza l'ottimizzazione coordinata dei componenti

Limitazioni

Costi Computazionali: Il tempo di inferenza è principalmente occupato dall'inferenza LLM (circa 88,6%)
Cambiamento delle Preferenze Utente: Adattabilità limitata ai cambiamenti improvvisi delle preferenze
Scenari di Applicazione: Più adatto alla raccomandazione conversazionale personalizzata che ai sistemi online su larga scala
Dipendenza dai Dati: Richiede informazioni testuali ricche degli elementi

Direzioni Future

Ottimizzazione dell'Efficienza: Esplorare metodi di generazione di token continui più efficienti
Modellazione Dinamica: Migliorare la capacità di modellazione dell'evoluzione delle preferenze utente
Estensione Multimodale: Integrare informazioni multimodali come immagini e video
Analisi Teorica: Approfondire la comprensione delle basi teoriche dei token continui nella raccomandazione

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Primo lavoro a introdurre sistematicamente token continui nei sistemi di raccomandazione LLM
Tecnica Rigorosa: Il design σ-VAE è ingegnoso, prevenendo efficacemente il collasso della rappresentazione
Esperimenti Completi: Verifica su più dataset, analisi di ablazione e sensibilità dettagliate
Supporto Teorico: La derivazione matematica della perdita dispersa è chiara e il design è razionale

Insufficienze

Efficienza Computazionale: Latenza di inferenza relativamente alta, limitando gli scenari di applicazione pratica
Capacità di Generalizzazione: Prestazioni limitate negli scenari di mutamento improvviso delle preferenze utente
Confronto Non Sufficientemente Completo: Mancano confronti con più metodi LLM di raccomandazione recenti
Analisi Teorica Insufficiente: La spiegazione teorica dei vantaggi dei token continui necessita di approfondimento

Impatto

Contributo Accademico: Fornisce un nuovo percorso tecnico per i sistemi di raccomandazione LLM
Valore Pratico: Ha buone prospettive di applicazione in scenari come la raccomandazione conversazionale
Riproducibilità: Fornisce dettagli di implementazione dettagliati e impostazioni degli iperparametri
Significato Ispiratore: Fornisce nuove idee per la combinazione di sistemi di raccomandazione e IA generativa

Scenari Applicabili

Raccomandazione Conversazionale Personalizzata: Scenari che richiedono interpretabilità e interattività
Raccomandazione Cold-Start: Sfruttare le informazioni testuali per gestire utenti/elementi nuovi
Raccomandazione Cross-Domain: Sfruttare la capacità di generalizzazione dell'LLM per il trasferimento tra domini
Prototipo di Ricerca: Come framework di base per esplorare la raccomandazione con token continui

Bibliografia

Questo articolo cita lavori importanti nei campi dei sistemi di raccomandazione, modelli di linguaggio di grandi dimensioni, modelli di diffusione e altri, inclusi:

Algoritmi di Raccomandazione Classici: LightGCN, SASRec e altri
Sistemi di Raccomandazione LLM: P5, TIGER, TokenRec e altri
Modelli di Diffusione: DDPM, Classifier-free Guidance e altri
Tokenizzazione Continua: VAE-MAR, Next-Token Diffusion e altri

Valutazione Complessiva: Questo è un lavoro di importante significato innovativo nel campo dei sistemi di raccomandazione LLM. Introducendo tokenizzazione continua e modelli di diffusione, affronta efficacemente le limitazioni dei metodi esistenti. Sebbene ci sia ancora spazio per miglioramenti in termini di efficienza computazionale e applicabilità in determinati scenari, l'innovazione tecnica e la verifica sperimentale sono sufficientemente complete, fornendo contributi preziosi allo sviluppo del settore.