2025-11-20T21:55:15.461429

Diffusion Generative Recommendation with Continuous Tokens

Qu, Lin, Ding et al.
Recent advances in generative artificial intelligence, particularly large language models (LLMs), have opened new opportunities for enhancing recommender systems (RecSys). Most existing LLM-based RecSys approaches operate in a discrete space, using vector-quantized tokenizers to align with the inherent discrete nature of language models. However, these quantization methods often result in lossy tokenization and suboptimal learning, primarily due to inaccurate gradient propagation caused by the non-differentiable argmin operation in standard vector quantization. Inspired by the emerging trend of embracing continuous tokens in language models, we propose ContRec, a novel framework that seamlessly integrates continuous tokens into LLM-based RecSys. Specifically, ContRec consists of two key modules: a sigma-VAE Tokenizer, which encodes users/items with continuous tokens; and a Dispersive Diffusion module, which captures implicit user preference. The tokenizer is trained with a continuous Variational Auto-Encoder (VAE) objective, where three effective techniques are adopted to avoid representation collapse. By conditioning on the previously generated tokens of the LLM backbone during user modeling, the Dispersive Diffusion module performs a conditional diffusion process with a novel Dispersive Loss, enabling high-quality user preference generation through next-token diffusion. Finally, ContRec leverages both the textual reasoning output from the LLM and the latent representations produced by the diffusion model for Top-K item retrieval, thereby delivering comprehensive recommendation results. Extensive experiments on four datasets demonstrate that \ourname{} consistently outperforms both traditional and SOTA LLM-based recommender systems. Our results highlight the potential of continuous tokenization and generative modeling for advancing the next generation of recommender systems.
academic

Recomendación Generativa por Difusión con Tokens Continuos

Información Básica

  • ID del Artículo: 2504.12007
  • Título: Diffusion Generative Recommendation with Continuous Tokens
  • Autores: Haohao Qu, Shanru Lin, Yujuan Ding, Yiqi Wang, Wenqi Fan
  • Clasificación: cs.IR cs.AI
  • Fecha de Publicación/Conferencia: Preimpresión arXiv (versión revisada 10 de octubre de 2025)
  • Enlace del Artículo: https://arxiv.org/abs/2504.12007

Resumen

Este artículo aborda las limitaciones de los métodos de tokenización discreta en sistemas de recomendación basados en modelos de lenguaje grande (LLM), proponiendo el marco ContRec que integra sin problemas tokens continuos en sistemas de recomendación LLM. ContRec contiene dos módulos centrales: el tokenizador σ-VAE (que codifica usuarios/elementos con tokens continuos) y el módulo de difusión dispersa (que captura preferencias implícitas del usuario). Al combinar la salida de razonamiento textual del LLM y las representaciones latentes generadas por el modelo de difusión para la recuperación de elementos Top-K, los experimentos en cuatro conjuntos de datos demuestran que ContRec supera significativamente a los sistemas de recomendación LLM tradicionales y de última generación.

Antecedentes de Investigación y Motivación

Definición del Problema

Los sistemas de recomendación basados en LLM existentes enfrentan principalmente dos problemas clave:

  1. Tokenización con Pérdida: Los métodos de cuantificación vectorial inevitablemente pierden información durante la compresión
  2. Propagación Imprecisa de Gradientes: La operación argmin no diferenciable en la cuantificación vectorial estándar conduce al uso del truco de "paso directo", generando gradientes inexactos

Importancia de la Investigación

  • Los LLM demuestran una fuerte capacidad de generalización y aprendizaje en contexto en sistemas de recomendación
  • Los conjuntos de usuarios y elementos típicamente alcanzan escala de millones, haciendo que los métodos de indexación tradicionales sean ineficientes
  • Aunque los métodos de cuantificación son prácticos, presentan limitaciones en la calidad de reconstrucción y el rendimiento generativo

Limitaciones de Métodos Existentes

  1. Métodos Discretos: Como TIGER, UTGRec que utilizan VQ-VAE para construir vocabularios discretos, sufriendo pérdida de compresión de información
  2. Métodos de Proyección Continua: Como CoLLM, LlaRA que solo utilizan tokens continuos en la parte de entrada, con salidas que aún dependen de generadores discretos, presentando discrepancia discreta-continua

Motivación de la Investigación

Inspirado por la tendencia de adoptar tokens continuos en modelos de lenguaje, explorar el potencial de usar tokens continuos y modelos de difusión en escenarios de recomendación, logrando un modelado de preferencias de usuario de mayor calidad.

Contribuciones Principales

  1. Propone el Marco ContRec: El primer marco que integra sin problemas tokens continuos en sistemas de recomendación LLM, superando limitaciones de cuantificación
  2. Diseña Dos Módulos Clave:
    • Tokenizador σ-VAE: Tokenizador continuo robusto que emplea tres técnicas para prevenir colapso de representación
    • Módulo de Difusión Dispersa: Genera representaciones implícitas de preferencias de usuario mediante aprendizaje autosupervisado contrastivo
  3. Introduce Pérdida Dispersa: Mecanismo de aprendizaje contrastivo sin necesidad de pares explícitos de muestras positivas y negativas
  4. Validación Experimental: Mejora promedio de 11.76% en HR@10 y 10.11% en NDCG@10 en cuatro conjuntos de datos

Explicación Detallada del Método

Definición de Tarea

Dado un conjunto de usuarios U = {u₁, u₂, ..., uₙ} y un conjunto de elementos V = {v₁, v₂, ..., vₘ}, el objetivo es predecir preferencias futuras del usuario analizando interacciones históricas, reformulando la recomendación secuencial como paradigma de modelo de lenguaje:

Yᵢ = LLM(P(Tᵢ, {Tⱼ|vⱼ ∈ V(uᵢ)}))

Arquitectura del Modelo

1. Tokenizador σ-VAE

Adopta el marco VAE para tokenización sin cuantificación, incluyendo tres técnicas clave:

Operación de Enmascaramiento: Estrategia de enmascaramiento a nivel de elemento basada en distribución de Bernoulli

μₖ = Encₖ(Mask(x, ρ))

Codificador K-vías: Canales de codificación paralela para codificación implícita

zₖ = μₖ + σₖ ⊙ ε, donde ε ~ N(0,1), σₖ ~ N(0,Σ)

Núcleo Gaussiano: Previene colapso de varianza

x̂ = Dec(Concat{zₖ}ᴷ)

Función de Pérdida:

Lvae = ||x̂ - x||₂² + (β/K)∑ᵏ₌₁ᴷ ||μₖ||₂²

2. Modelado de Usuario LLM

Combina información semántica discreta y conocimiento colaborativo continuo:

Xᵢ := P(Tᵢ, {Tⱼ|vⱼ ∈ V(uᵢ)})

Utiliza tokens especiales ⟨z_start⟩ y ⟨z_end⟩ para marcar el inicio y fin de secuencias de tokens continuos.

3. Módulo de Difusión Dispersa

Proceso de Difusión Condicional:

Ldiff = E(yᵢ,cᵢ,t) ||ε - εθ(y^t_i, cᵢ, t)||₂²

Pérdida Dispersa:

Ldisp = log E_{i,j}[exp(-D(hᵢ, hⱼ)/τ)]

Esta es una "pérdida contrastiva sin pares positivos", que fomenta la dispersión de representaciones dentro del lote.

Puntos de Innovación Técnica

  1. Tokenización Continua: Evita completamente operaciones de cuantificación, manteniendo integridad de información
  2. Mecanismo de Recuperación Híbrida: Combina razonamiento textual LLM y representaciones implícitas generadas por difusión
  3. Optimización Extremo a Extremo: Unifica objetivos de optimización integrando tres funciones de pérdida
  4. Guía Libre de Clasificador: Controla la intensidad de personalización durante la inferencia

Configuración Experimental

Conjuntos de Datos

Se utilizan cuatro conjuntos de datos de referencia:

Conjunto de DatosUsuariosElementosInteraccionesLongitud PromedioDensidad(%)
LastFM1,0913,68552,67048.31.31
ML1M6,0403,416447,294165.52.17
Beauty22,36312,101278,6418.90.07
Games47,56816,834266,1399.50.03

Métricas de Evaluación

  • HR@K (Tasa de Acierto): Tasa de acierto en Top-K
  • NDCG@K (Ganancia Acumulativa Descontada Normalizada): Ganancia acumulativa descontada normalizada
  • Valores de K establecidos en 10 y 20

Métodos de Comparación

Recomendación Secuencial Tradicional: GRU4Rec, SASRec, SSD4Rec, DreamRec Sistemas de Recomendación LLM: P5, CoLLM, TIGER, TokenRec, LLaRA

Detalles de Implementación

  • Modelo Base: Llama-3.2-1B-Instruct
  • Optimizador: AdamW (tasa de aprendizaje 1e-5/1e-4)
  • Tamaño de Lote: 24
  • Longitud Máxima de Secuencia: 20
  • Pasos de Difusión: 1000 pasos en entrenamiento, 100 pasos en inferencia

Resultados Experimentales

Resultados Principales

ContRec logra el mejor rendimiento en todos los conjuntos de datos:

Conjunto de DatosMétricaLínea Base MejorContRecMejora
BeautyHR@100.04420.0473±0.00177.74%
GamesHR@100.10180.1041±0.00368.66%
LastFMHR@100.05250.0539±0.003415.42%
ML1MHR@100.10760.1099±0.006615.20%

Mejora promedio de 11.76% en HR@10 y 10.11% en NDCG@10 en comparación con TIGER (método discreto típico).

Experimentos de Ablación

Análisis de contribución de componentes clave:

ComponenteBeauty HR@10ML1M HR@10Impacto
Modelo Completo0.04730.1099-
sin Difusión0.04310.1007Disminución Significativa
sin Pérdida Dispersa0.04480.1042Disminución Evidente
sin σ0.04570.1051Disminución de Rendimiento
con VQ-VAE0.04260.0974Disminución Sustancial

Evaluación de Reconstrucción

En la tarea de reconstrucción de incrustaciones de elementos, los métodos continuos superan significativamente a los métodos discretos:

  • El modelo de difusión presenta el error de reconstrucción más bajo
  • VAE supera varios métodos de cuantificación (VQ-VAE, RQ-VAE, MQ-VAE)
  • La convergencia de pérdida es más suave

Sensibilidad de Hiperparámetros

  • Proporción de Enmascaramiento ρ: Valor óptimo de 0.2
  • Cantidad de Tokens K: 3-4 tokens muestran mejor rendimiento
  • Intensidad de Guía ω: Valores pequeños (ω=2) aportan mejora
  • Parámetros de Peso: Rendimiento óptimo con γ₁=1, γ₂=0.5

Trabajo Relacionado

Sistemas de Recomendación LLM

  1. Tokenización Discreta: P5 unifica múltiples tareas como generación de texto, TIGER/TokenRec utilizan cuantificación vectorial
  2. Proyección Continua: CoLLM/LlaRA proyectan directamente representaciones colaborativas, presentando discrepancia discreta-continua

Modelos de Difusión y Tokens Continuos

  1. Generación de Imágenes: VAE-MAR, Next-Token Diffusion demuestran potencial de tokens continuos
  2. Modelado Multimodal: DEEM y otros utilizan difusión como "ojo" del LLM
  3. Modelado de Proteínas: DPLM y otros muestran aplicaciones exitosas en incrustaciones de estructura continua

Conclusiones y Discusión

Conclusiones Principales

  1. Ventajas de Tokens Continuos Verificadas: Evita pérdida de cuantificación, logrando aprendizaje de representación más preciso
  2. Modelos de Difusión Aplicables a Recomendación: Demuestran capacidad fuerte en modelado de preferencias de usuario
  3. Mecanismo de Recuperación Híbrida Efectivo: Combina ventajas de razonamiento explícito y representaciones implícitas
  4. Optimización Extremo a Extremo Viable: Marco unificado logra optimización colaborativa de componentes

Limitaciones

  1. Gastos Computacionales: El tiempo de inferencia es principalmente ocupado por inferencia LLM (aproximadamente 88.6%)
  2. Cambio de Preferencias de Usuario: Capacidad limitada de adaptación a cambios súbitos de preferencias
  3. Escenarios de Aplicación: Más adecuado para recomendación conversacional personalizada que para sistemas en línea a gran escala
  4. Dependencia de Datos: Requiere información textual rica de elementos para soporte

Direcciones Futuras

  1. Optimización de Eficiencia: Explorar métodos más eficientes de generación de tokens continuos
  2. Modelado Dinámico: Mejorar capacidad de modelado de evolución de preferencias de usuario
  3. Extensión Multimodal: Integrar información multimodal como imágenes y videos
  4. Análisis Teórico: Profundizar en la comprensión de fundamentos teóricos de tokens continuos en recomendación

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera integración sistemática de tokens continuos en sistemas de recomendación LLM
  2. Rigor Técnico: Diseño σ-VAE ingenioso, previene efectivamente colapso de representación
  3. Experimentación Completa: Validación en múltiples conjuntos de datos, análisis exhaustivo de ablación y sensibilidad
  4. Apoyo Teórico: Derivación matemática clara de pérdida dispersa, diseño razonable

Insuficiencias

  1. Eficiencia Computacional: Latencia de inferencia relativamente alta, limitando escenarios de aplicación práctica
  2. Capacidad de Generalización: Rendimiento limitado en escenarios de cambio súbito de preferencias de usuario
  3. Comparación Incompleta: Falta comparación con más métodos LLM de recomendación recientes
  4. Análisis Teórico Insuficiente: Explicación teórica de ventajas de tokens continuos requiere profundización

Impacto

  1. Contribución Académica: Proporciona nueva ruta técnica para sistemas de recomendación LLM
  2. Valor Práctico: Perspectivas de aplicación prometedoras en escenarios como recomendación conversacional
  3. Reproducibilidad: Proporciona detalles de implementación detallados y configuración de hiperparámetros
  4. Significado Inspirador: Ofrece nuevas perspectivas para la combinación de sistemas de recomendación e IA generativa

Escenarios Aplicables

  1. Recomendación Conversacional Personalizada: Escenarios que requieren explicabilidad e interactividad
  2. Recomendación de Arranque en Frío: Aprovecha información textual para manejar usuarios/elementos nuevos
  3. Recomendación Multidominio: Utiliza capacidad de generalización del LLM para transferencia de dominio
  4. Prototipo de Investigación: Como marco base para explorar recomendación con tokens continuos

Referencias

Este artículo cita trabajos importantes en campos de sistemas de recomendación, modelos de lenguaje grande, modelos de difusión, incluyendo:

  • Algoritmos de Recomendación Clásicos: LightGCN, SASRec, etc.
  • Sistemas de Recomendación LLM: P5, TIGER, TokenRec, etc.
  • Modelos de Difusión: DDPM, Classifier-free Guidance, etc.
  • Tokenización Continua: VAE-MAR, Next-Token Diffusion, etc.

Evaluación General: Este es un trabajo con significado innovador importante en el campo de sistemas de recomendación LLM. Al introducir tokenización continua y modelos de difusión, resuelve efectivamente limitaciones de métodos existentes. Aunque hay espacio para mejora en eficiencia computacional y aplicabilidad en ciertos escenarios, su innovación técnica y validación experimental son suficientemente completas, proporcionando contribución valiosa al desarrollo del campo.