Diffusion Generative Recommendation with Continuous Tokens
Qu, Lin, Ding et al.
Recent advances in generative artificial intelligence, particularly large language models (LLMs), have opened new opportunities for enhancing recommender systems (RecSys). Most existing LLM-based RecSys approaches operate in a discrete space, using vector-quantized tokenizers to align with the inherent discrete nature of language models. However, these quantization methods often result in lossy tokenization and suboptimal learning, primarily due to inaccurate gradient propagation caused by the non-differentiable argmin operation in standard vector quantization. Inspired by the emerging trend of embracing continuous tokens in language models, we propose ContRec, a novel framework that seamlessly integrates continuous tokens into LLM-based RecSys. Specifically, ContRec consists of two key modules: a sigma-VAE Tokenizer, which encodes users/items with continuous tokens; and a Dispersive Diffusion module, which captures implicit user preference. The tokenizer is trained with a continuous Variational Auto-Encoder (VAE) objective, where three effective techniques are adopted to avoid representation collapse. By conditioning on the previously generated tokens of the LLM backbone during user modeling, the Dispersive Diffusion module performs a conditional diffusion process with a novel Dispersive Loss, enabling high-quality user preference generation through next-token diffusion. Finally, ContRec leverages both the textual reasoning output from the LLM and the latent representations produced by the diffusion model for Top-K item retrieval, thereby delivering comprehensive recommendation results. Extensive experiments on four datasets demonstrate that \ourname{} consistently outperforms both traditional and SOTA LLM-based recommender systems. Our results highlight the potential of continuous tokenization and generative modeling for advancing the next generation of recommender systems.
academic
Diffusion Generative Recommendation with Continuous Tokens
Das vorliegende Papier adressiert die Limitierungen diskreter Tokenisierungsmethoden in auf großen Sprachmodellen (LLM) basierenden Empfehlungssystemen und schlägt das ContRec-Framework vor. Dieses Framework integriert kontinuierliche Token nahtlos in LLM-Empfehlungssysteme. ContRec umfasst zwei Kernmodule: einen σ-VAE-Tokenizer (zur Kodierung von Benutzern/Objekten mit kontinuierlichen Token) und ein Dispersions-Diffusionsmodul (zur Erfassung impliziter Benutzerpräferenzen). Durch die Kombination von Textausgaben aus LLM-Reasoning und latenten Darstellungen aus Diffusionsmodellen für die Top-K-Objektabruf zeigen Experimente auf vier Datensätzen, dass ContRec traditionelle und hochmoderne LLM-Empfehlungssysteme erheblich übertrifft.
Bestehende LLM-basierte Empfehlungssysteme stehen zwei kritischen Herausforderungen gegenüber:
Verlustbehaftete Tokenisierung: Vektorquantisierungsmethoden verlieren während der Kompression unweigerlich Informationen
Ungenaue Gradientenausbreitung: Die nicht-differenzierbare Argmin-Operation in der Standard-Vektorquantisierung führt zur Verwendung des "Straight-Through"-Tricks, was zu ungenauen Gradienten führt
Diskrete Methoden: Wie TIGER, UTGRec verwenden VQ-VAE zur Erstellung diskreter Vokabulare, leiden aber unter Informationskomprimierungsverlusten
Kontinuierliche Projektionsmethoden: Wie CoLLM, LlaRA verwenden kontinuierliche Token nur in der Eingabephase, während die Ausgabe weiterhin auf diskrete Generatoren angewiesen ist, was zu Diskret-Kontinuierlich-Diskrepanzen führt
Inspiriert durch den Trend kontinuierlicher Token in Sprachmodellen wird das Potenzial kontinuierlicher Token und Diffusionsmodelle in Empfehlungsszenarien erforscht, um eine hochwertigere Modellierung von Benutzerpräferenzen zu erreichen.
Vorschlag des ContRec-Frameworks: Das erste Framework, das kontinuierliche Token nahtlos in LLM-Empfehlungssysteme integriert und Quantisierungsbeschränkungen überwindet
Entwurf zweier Schlüsselmodule:
σ-VAE-Tokenizer: Ein robuster kontinuierlicher Tokenizer mit drei Techniken zur Vermeidung von Darstellungskollaps
Dispersions-Diffusionsmodul: Generiert implizite Benutzerpräferenzdarstellungen durch kontrastives selbstüberwachtes Lernen
Einführung der Dispersionsverlustfunktion: Ein kontrastiver Lernmechanismus ohne explizite positive/negative Stichprobenpaare
Experimentelle Validierung: Durchschnittliche Verbesserungen von 11,76% HR@10 und 10,11% NDCG@10 über vier Datensätze
Gegeben eine Benutzermenge U = {u₁, u₂, ..., uₙ} und eine Objektmenge V = {v₁, v₂, ..., vₘ} besteht das Ziel darin, zukünftige Benutzerpräferenzen durch Analyse historischer Interaktionen vorherzusagen, indem die Sequenzempfehlung als Sprachmodell-Paradigma reformuliert wird:
Das Papier zitiert wichtige Arbeiten aus den Bereichen Empfehlungssysteme, große Sprachmodelle und Diffusionsmodelle, einschließlich:
Klassische Empfehlungsalgorithmen: LightGCN, SASRec etc.
LLM-Empfehlungssysteme: P5, TIGER, TokenRec etc.
Diffusionsmodelle: DDPM, Classifier-free Guidance etc.
Kontinuierliche Tokenisierung: VAE-MAR, Next-Token Diffusion etc.
Gesamtbewertung: Dies ist eine Arbeit mit bedeutender Innovationskraft im Bereich LLM-Empfehlungssysteme. Durch die Einführung kontinuierlicher Tokenisierung und Diffusionsmodelle werden die Limitierungen bestehender Methoden effektiv gelöst. Obwohl es noch Verbesserungspotenzial bei Rechnerischer Effizienz und Anwendbarkeit in bestimmten Szenarien gibt, sind sowohl die technischen Innovationen als auch die experimentelle Validierung umfassend und liefern wertvolle Beiträge zur Entwicklung dieses Forschungsbereichs.