2025-11-20T21:55:15.461429

Diffusion Generative Recommendation with Continuous Tokens

Qu, Lin, Ding et al.

Recent advances in generative artificial intelligence, particularly large language models (LLMs), have opened new opportunities for enhancing recommender systems (RecSys). Most existing LLM-based RecSys approaches operate in a discrete space, using vector-quantized tokenizers to align with the inherent discrete nature of language models. However, these quantization methods often result in lossy tokenization and suboptimal learning, primarily due to inaccurate gradient propagation caused by the non-differentiable argmin operation in standard vector quantization. Inspired by the emerging trend of embracing continuous tokens in language models, we propose ContRec, a novel framework that seamlessly integrates continuous tokens into LLM-based RecSys. Specifically, ContRec consists of two key modules: a sigma-VAE Tokenizer, which encodes users/items with continuous tokens; and a Dispersive Diffusion module, which captures implicit user preference. The tokenizer is trained with a continuous Variational Auto-Encoder (VAE) objective, where three effective techniques are adopted to avoid representation collapse. By conditioning on the previously generated tokens of the LLM backbone during user modeling, the Dispersive Diffusion module performs a conditional diffusion process with a novel Dispersive Loss, enabling high-quality user preference generation through next-token diffusion. Finally, ContRec leverages both the textual reasoning output from the LLM and the latent representations produced by the diffusion model for Top-K item retrieval, thereby delivering comprehensive recommendation results. Extensive experiments on four datasets demonstrate that \ourname{} consistently outperforms both traditional and SOTA LLM-based recommender systems. Our results highlight the potential of continuous tokenization and generative modeling for advancing the next generation of recommender systems.

academic

Diffusion Generative Recommendation with Continuous Tokens

Grundinformationen

Papier-ID: 2504.12007
Titel: Diffusion Generative Recommendation with Continuous Tokens
Autoren: Haohao Qu, Shanru Lin, Yujuan Ding, Yiqi Wang, Wenqi Fan
Klassifizierung: cs.IR cs.AI
Veröffentlichungsdatum/Konferenz: arXiv-Preprint (überarbeitete Fassung vom 10. Oktober 2025)
Papierlink: https://arxiv.org/abs/2504.12007

Zusammenfassung

Das vorliegende Papier adressiert die Limitierungen diskreter Tokenisierungsmethoden in auf großen Sprachmodellen (LLM) basierenden Empfehlungssystemen und schlägt das ContRec-Framework vor. Dieses Framework integriert kontinuierliche Token nahtlos in LLM-Empfehlungssysteme. ContRec umfasst zwei Kernmodule: einen σ-VAE-Tokenizer (zur Kodierung von Benutzern/Objekten mit kontinuierlichen Token) und ein Dispersions-Diffusionsmodul (zur Erfassung impliziter Benutzerpräferenzen). Durch die Kombination von Textausgaben aus LLM-Reasoning und latenten Darstellungen aus Diffusionsmodellen für die Top-K-Objektabruf zeigen Experimente auf vier Datensätzen, dass ContRec traditionelle und hochmoderne LLM-Empfehlungssysteme erheblich übertrifft.

Forschungshintergrund und Motivation

Problemdefinition

Bestehende LLM-basierte Empfehlungssysteme stehen zwei kritischen Herausforderungen gegenüber:

Verlustbehaftete Tokenisierung: Vektorquantisierungsmethoden verlieren während der Kompression unweigerlich Informationen
Ungenaue Gradientenausbreitung: Die nicht-differenzierbare Argmin-Operation in der Standard-Vektorquantisierung führt zur Verwendung des "Straight-Through"-Tricks, was zu ungenauen Gradienten führt

Forschungsrelevanz

LLM zeigen starke Verallgemeinerungsfähigkeiten und kontextabhängiges Lernvermögen in Empfehlungssystemen
Benutzer- und Objektmengen erreichen typischerweise Millionengröße, was traditionelle Indexierungsmethoden ineffizient macht
Quantisierungsmethoden sind zwar praktisch, weisen aber Einschränkungen bei Rekonstruktionsqualität und Generierungsleistung auf

Limitierungen bestehender Methoden

Diskrete Methoden: Wie TIGER, UTGRec verwenden VQ-VAE zur Erstellung diskreter Vokabulare, leiden aber unter Informationskomprimierungsverlusten
Kontinuierliche Projektionsmethoden: Wie CoLLM, LlaRA verwenden kontinuierliche Token nur in der Eingabephase, während die Ausgabe weiterhin auf diskrete Generatoren angewiesen ist, was zu Diskret-Kontinuierlich-Diskrepanzen führt

Forschungsmotivation

Inspiriert durch den Trend kontinuierlicher Token in Sprachmodellen wird das Potenzial kontinuierlicher Token und Diffusionsmodelle in Empfehlungsszenarien erforscht, um eine hochwertigere Modellierung von Benutzerpräferenzen zu erreichen.

Kernbeiträge

Vorschlag des ContRec-Frameworks: Das erste Framework, das kontinuierliche Token nahtlos in LLM-Empfehlungssysteme integriert und Quantisierungsbeschränkungen überwindet
Entwurf zweier Schlüsselmodule:
- σ-VAE-Tokenizer: Ein robuster kontinuierlicher Tokenizer mit drei Techniken zur Vermeidung von Darstellungskollaps
- Dispersions-Diffusionsmodul: Generiert implizite Benutzerpräferenzdarstellungen durch kontrastives selbstüberwachtes Lernen
Einführung der Dispersionsverlustfunktion: Ein kontrastiver Lernmechanismus ohne explizite positive/negative Stichprobenpaare
Experimentelle Validierung: Durchschnittliche Verbesserungen von 11,76% HR@10 und 10,11% NDCG@10 über vier Datensätze

Methodische Details

Aufgabendefinition

Gegeben eine Benutzermenge U = {u₁, u₂, ..., uₙ} und eine Objektmenge V = {v₁, v₂, ..., vₘ} besteht das Ziel darin, zukünftige Benutzerpräferenzen durch Analyse historischer Interaktionen vorherzusagen, indem die Sequenzempfehlung als Sprachmodell-Paradigma reformuliert wird:

Yᵢ = LLM(P(Tᵢ, {Tⱼ|vⱼ ∈ V(uᵢ)}))

Modellarchitektur

1. σ-VAE-Tokenizer

Verwendet ein VAE-Framework für nicht-quantisierte Tokenisierung mit drei Schlüsseltechniken:

Maskierungsoperation: Elementweise Maskierungsstrategie basierend auf Bernoulli-Verteilung

μₖ = Encₖ(Mask(x, ρ))

K-Wege-Encoder: Parallele Kodierungskanäle für implizite Kodierung

zₖ = μₖ + σₖ ⊙ ε, wobei ε ~ N(0,1), σₖ ~ N(0,Σ)

Gaußscher Kern: Verhindert Varianzenkollaps

x̂ = Dec(Concat{zₖ}ᴷ)

Verlustfunktion:

Lvae = ||x̂ - x||₂² + (β/K)∑ᵏ₌₁ᴷ ||μₖ||₂²

2. LLM-Benutzermodellierung

Kombiniert diskrete semantische Informationen und kontinuierliches Kollaborationswissen:

Xᵢ := P(Tᵢ, {Tⱼ|vⱼ ∈ V(uᵢ)})

Verwendet spezielle Token ⟨z_start⟩ und ⟨z_end⟩ zur Markierung des Anfangs und Endes kontinuierlicher Tokensequenzen.

3. Dispersions-Diffusionsmodul

Bedingter Diffusionsprozess:

Ldiff = E(yᵢ,cᵢ,t) ||ε - εθ(y^t_i, cᵢ, t)||₂²

Dispersionsverlust:

Ldisp = log E_{i,j}[exp(-D(hᵢ, hⱼ)/τ)]

Dies ist eine "kontrastive Verlustfunktion ohne positive Stichprobenpaare", die die Dispersion von Darstellungen innerhalb eines Batches fördert.

Technische Innovationen

Kontinuierliche Tokenisierung: Vermeidet vollständig Quantisierungsoperationen und bewahrt Informationsvollständigkeit
Hybrider Abrufmechanismus: Kombiniert LLM-Textreasoning und implizite Darstellungen aus Diffusionsgenerierung
End-to-End-Optimierung: Einheitliche Optimierungsziele integrieren drei Verlustfunktionen
Klassifizierer-freie Anleitung: Kontrolliert Personalisierungsintensität während der Inferenz

Experimentelle Einrichtung

Datensätze

Verwendet vier Benchmark-Datensätze:

Datensatz	Benutzer	Objekte	Interaktionen	Durchschn. Länge	Dichte(%)
LastFM	1.091	3.685	52.670	48,3	1,31
ML1M	6.040	3.416	447.294	165,5	2,17
Beauty	22.363	12.101	278.641	8,9	0,07
Games	47.568	16.834	266.139	9,5	0,03

Bewertungsmetriken

HR@K (Hit Ratio): Top-K-Trefferquote
NDCG@K (Normalized Discounted Cumulative Gain): Normalisierter diskontierter kumulativer Gewinn
K-Werte auf 10 und 20 gesetzt

Vergleichsmethoden

Traditionelle Sequenzempfehlung: GRU4Rec, SASRec, SSD4Rec, DreamRec LLM-Empfehlungssysteme: P5, CoLLM, TIGER, TokenRec, LLaRA

Implementierungsdetails

Basismodell: Llama-3.2-1B-Instruct
Optimierer: AdamW (Lernrate 1e-5/1e-4)
Batch-Größe: 24
Maximale Sequenzlänge: 20
Diffusionsschritte: 1000 beim Training, 100 bei der Inferenz

Experimentelle Ergebnisse

Hauptergebnisse

ContRec erreicht optimale Leistung auf allen Datensätzen:

Datensatz	Metrik	Beste Baseline	ContRec	Verbesserung
Beauty	HR@10	0,0442	0,0473±0,0017	7,74%
Games	HR@10	0,1018	0,1041±0,0036	8,66%
LastFM	HR@10	0,0525	0,0539±0,0034	15,42%
ML1M	HR@10	0,1076	0,1099±0,0066	15,20%

Im Vergleich zu TIGER (typische diskrete Methode) durchschnittliche Verbesserungen von 11,76% HR@10 und 10,11% NDCG@10.

Ablationsstudien

Analyse der Beiträge von Schlüsselkomponenten:

Komponente	Beauty HR@10	ML1M HR@10	Auswirkung
Vollständiges Modell	0,0473	0,1099	-
ohne Diffusion	0,0431	0,1007	Signifikanter Rückgang
ohne Dispersionsverlust	0,0448	0,1042	Deutlicher Rückgang
ohne σ	0,0457	0,1051	Leistungsrückgang
mit VQ-VAE	0,0426	0,0974	Großer Rückgang

Rekonstruktionsbewertung

Bei der Aufgabe der Objekteinbettungsrekonstruktion übertreffen kontinuierliche Methoden diskrete Methoden erheblich:

Diffusionsmodell zeigt niedrigsten Rekonstruktionsfehler
VAE übertrifft verschiedene Quantisierungsmethoden (VQ-VAE, RQ-VAE, MQ-VAE)
Verlustkonvergenz ist glatter

Hyperparameter-Sensitivität

Maskierungsverhältnis ρ: 0,2 ist optimal
Token-Anzahl K: 3-4 Token zeigen beste Leistung
Anleitungsintensität ω: Kleine Werte (ω=2) bringen Verbesserungen
Gewichtungsparameter: Optimale Leistung bei γ₁=1, γ₂=0,5

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Vorteile kontinuierlicher Token validiert: Vermeidet Quantisierungsverluste und ermöglicht präziseres Darstellungslernen
Diffusionsmodelle geeignet für Empfehlungen: Zeigen starke Fähigkeiten bei der Modellierung von Benutzerpräferenzen
Hybrider Abrufmechanismus effektiv: Kombiniert Vorteile expliziter Reasoning und impliziter Darstellungen
End-to-End-Optimierung machbar: Einheitliches Framework ermöglicht synergistische Optimierung aller Komponenten

Limitierungen

Rechenkomplexität: Inferenzzeit wird hauptsächlich durch LLM-Inferenz dominiert (ca. 88,6%)
Benutzerpräferenzwechsel: Begrenzte Anpassungsfähigkeit an plötzliche Präferenzänderungen
Anwendungsszenarien: Besser geeignet für personalisierte Konversationsempfehlungen als für großflächige Online-Systeme
Datenabhängigkeit: Erfordert umfangreiche Objekttextinformationen

Zukünftige Richtungen

Effizienzoptimierung: Erkundung effizienterer Methoden zur kontinuierlichen Tokengenerierung
Dynamische Modellierung: Verbesserung der Modellierungsfähigkeit für Benutzerpräferenzentwicklung
Multimodale Erweiterung: Integration von Bild-, Video- und anderen multimodalen Informationen
Theoretische Analyse: Tieferes Verständnis der theoretischen Grundlagen kontinuierlicher Token in Empfehlungen

Tiefgreifende Bewertung

Stärken

Starke Innovativität: Erste systematische Integration kontinuierlicher Token in LLM-Empfehlungssysteme
Technische Strenge: Ausgefeilter σ-VAE-Entwurf verhindert effektiv Darstellungskollaps
Umfangreiche Experimente: Validierung über mehrere Datensätze mit detaillierten Ablations- und Sensitivitätsanalysen
Theoretische Unterstützung: Klare mathematische Herleitung der Dispersionsverlustfunktion mit durchdachtem Design

Schwächen

Rechnerische Effizienz: Höhere Inferenzlatenz begrenzt praktische Anwendungsszenarien
Verallgemeinerungsfähigkeit: Begrenzte Leistung bei Szenarien mit plötzlichen Benutzerpräferenzänderungen
Unvollständige Vergleiche: Fehlende Vergleiche mit mehr aktuellen LLM-Empfehlungsmethoden
Unzureichende theoretische Analyse: Theoretische Erklärung der Vorteile kontinuierlicher Token bedarf Vertiefung

Auswirkungen

Akademischer Beitrag: Bietet neuen technischen Weg für LLM-Empfehlungssysteme
Praktischer Wert: Gute Anwendungsaussichten in Szenarien wie Konversationsempfehlungen
Reproduzierbarkeit: Detaillierte Implementierungsdetails und Hyperparameter-Einstellungen bereitgestellt
Inspirationswert: Bietet neue Perspektiven für die Kombination von Empfehlungssystemen und generativer KI

Anwendungsszenarien

Personalisierte Konversationsempfehlung: Szenarien, die Erklärbarkeit und Interaktivität erfordern
Kaltstart-Empfehlung: Nutzung von Textinformationen für neue Benutzer/Objekte
Cross-Domain-Empfehlung: Nutzung der Verallgemeinerungsfähigkeit von LLM für Domänentransfer
Forschungsprototyp: Als Grundlagen-Framework zur Erkundung kontinuierlicher Token-Empfehlungen

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten aus den Bereichen Empfehlungssysteme, große Sprachmodelle und Diffusionsmodelle, einschließlich:

Klassische Empfehlungsalgorithmen: LightGCN, SASRec etc.
LLM-Empfehlungssysteme: P5, TIGER, TokenRec etc.
Diffusionsmodelle: DDPM, Classifier-free Guidance etc.
Kontinuierliche Tokenisierung: VAE-MAR, Next-Token Diffusion etc.

Gesamtbewertung: Dies ist eine Arbeit mit bedeutender Innovationskraft im Bereich LLM-Empfehlungssysteme. Durch die Einführung kontinuierlicher Tokenisierung und Diffusionsmodelle werden die Limitierungen bestehender Methoden effektiv gelöst. Obwohl es noch Verbesserungspotenzial bei Rechnerischer Effizienz und Anwendbarkeit in bestimmten Szenarien gibt, sind sowohl die technischen Innovationen als auch die experimentelle Validierung umfassend und liefern wertvolle Beiträge zur Entwicklung dieses Forschungsbereichs.

Diffusion Generative Recommendation with Continuous Tokens

Diffusion Generative Recommendation with Continuous Tokens

Grundinformationen

Zusammenfassung

Forschungshintergrund und Motivation

Problemdefinition

Forschungsrelevanz

Limitierungen bestehender Methoden

Forschungsmotivation

Kernbeiträge

Methodische Details

Aufgabendefinition

Modellarchitektur

1. σ-VAE-Tokenizer

2. LLM-Benutzermodellierung

3. Dispersions-Diffusionsmodul

Technische Innovationen

Experimentelle Einrichtung

Datensätze

Bewertungsmetriken

Vergleichsmethoden

Implementierungsdetails

Experimentelle Ergebnisse

Hauptergebnisse

Ablationsstudien

Rekonstruktionsbewertung

Hyperparameter-Sensitivität

Verwandte Arbeiten

LLM-Empfehlungssysteme

Diffusionsmodelle und kontinuierliche Token

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Limitierungen

Zukünftige Richtungen

Tiefgreifende Bewertung

Stärken

Schwächen

Auswirkungen

Anwendungsszenarien

Literaturverzeichnis