Diffusion Generative Recommendation with Continuous Tokens
Qu, Lin, Ding et al.
Recent advances in generative artificial intelligence, particularly large language models (LLMs), have opened new opportunities for enhancing recommender systems (RecSys). Most existing LLM-based RecSys approaches operate in a discrete space, using vector-quantized tokenizers to align with the inherent discrete nature of language models. However, these quantization methods often result in lossy tokenization and suboptimal learning, primarily due to inaccurate gradient propagation caused by the non-differentiable argmin operation in standard vector quantization. Inspired by the emerging trend of embracing continuous tokens in language models, we propose ContRec, a novel framework that seamlessly integrates continuous tokens into LLM-based RecSys. Specifically, ContRec consists of two key modules: a sigma-VAE Tokenizer, which encodes users/items with continuous tokens; and a Dispersive Diffusion module, which captures implicit user preference. The tokenizer is trained with a continuous Variational Auto-Encoder (VAE) objective, where three effective techniques are adopted to avoid representation collapse. By conditioning on the previously generated tokens of the LLM backbone during user modeling, the Dispersive Diffusion module performs a conditional diffusion process with a novel Dispersive Loss, enabling high-quality user preference generation through next-token diffusion. Finally, ContRec leverages both the textual reasoning output from the LLM and the latent representations produced by the diffusion model for Top-K item retrieval, thereby delivering comprehensive recommendation results. Extensive experiments on four datasets demonstrate that \ourname{} consistently outperforms both traditional and SOTA LLM-based recommender systems. Our results highlight the potential of continuous tokenization and generative modeling for advancing the next generation of recommender systems.
academic
Recomendación Generativa por Difusión con Tokens Continuos
Este artículo aborda las limitaciones de los métodos de tokenización discreta en sistemas de recomendación basados en modelos de lenguaje grande (LLM), proponiendo el marco ContRec que integra sin problemas tokens continuos en sistemas de recomendación LLM. ContRec contiene dos módulos centrales: el tokenizador σ-VAE (que codifica usuarios/elementos con tokens continuos) y el módulo de difusión dispersa (que captura preferencias implícitas del usuario). Al combinar la salida de razonamiento textual del LLM y las representaciones latentes generadas por el modelo de difusión para la recuperación de elementos Top-K, los experimentos en cuatro conjuntos de datos demuestran que ContRec supera significativamente a los sistemas de recomendación LLM tradicionales y de última generación.
Los sistemas de recomendación basados en LLM existentes enfrentan principalmente dos problemas clave:
Tokenización con Pérdida: Los métodos de cuantificación vectorial inevitablemente pierden información durante la compresión
Propagación Imprecisa de Gradientes: La operación argmin no diferenciable en la cuantificación vectorial estándar conduce al uso del truco de "paso directo", generando gradientes inexactos
Métodos Discretos: Como TIGER, UTGRec que utilizan VQ-VAE para construir vocabularios discretos, sufriendo pérdida de compresión de información
Métodos de Proyección Continua: Como CoLLM, LlaRA que solo utilizan tokens continuos en la parte de entrada, con salidas que aún dependen de generadores discretos, presentando discrepancia discreta-continua
Inspirado por la tendencia de adoptar tokens continuos en modelos de lenguaje, explorar el potencial de usar tokens continuos y modelos de difusión en escenarios de recomendación, logrando un modelado de preferencias de usuario de mayor calidad.
Propone el Marco ContRec: El primer marco que integra sin problemas tokens continuos en sistemas de recomendación LLM, superando limitaciones de cuantificación
Diseña Dos Módulos Clave:
Tokenizador σ-VAE: Tokenizador continuo robusto que emplea tres técnicas para prevenir colapso de representación
Módulo de Difusión Dispersa: Genera representaciones implícitas de preferencias de usuario mediante aprendizaje autosupervisado contrastivo
Introduce Pérdida Dispersa: Mecanismo de aprendizaje contrastivo sin necesidad de pares explícitos de muestras positivas y negativas
Validación Experimental: Mejora promedio de 11.76% en HR@10 y 10.11% en NDCG@10 en cuatro conjuntos de datos
Dado un conjunto de usuarios U = {u₁, u₂, ..., uₙ} y un conjunto de elementos V = {v₁, v₂, ..., vₘ}, el objetivo es predecir preferencias futuras del usuario analizando interacciones históricas, reformulando la recomendación secuencial como paradigma de modelo de lenguaje:
Este artículo cita trabajos importantes en campos de sistemas de recomendación, modelos de lenguaje grande, modelos de difusión, incluyendo:
Algoritmos de Recomendación Clásicos: LightGCN, SASRec, etc.
Sistemas de Recomendación LLM: P5, TIGER, TokenRec, etc.
Modelos de Difusión: DDPM, Classifier-free Guidance, etc.
Tokenización Continua: VAE-MAR, Next-Token Diffusion, etc.
Evaluación General: Este es un trabajo con significado innovador importante en el campo de sistemas de recomendación LLM. Al introducir tokenización continua y modelos de difusión, resuelve efectivamente limitaciones de métodos existentes. Aunque hay espacio para mejora en eficiencia computacional y aplicabilidad en ciertos escenarios, su innovación técnica y validación experimental son suficientemente completas, proporcionando contribución valiosa al desarrollo del campo.