2025-11-20T21:55:15.461429

Diffusion Generative Recommendation with Continuous Tokens

Qu, Lin, Ding et al.
Recent advances in generative artificial intelligence, particularly large language models (LLMs), have opened new opportunities for enhancing recommender systems (RecSys). Most existing LLM-based RecSys approaches operate in a discrete space, using vector-quantized tokenizers to align with the inherent discrete nature of language models. However, these quantization methods often result in lossy tokenization and suboptimal learning, primarily due to inaccurate gradient propagation caused by the non-differentiable argmin operation in standard vector quantization. Inspired by the emerging trend of embracing continuous tokens in language models, we propose ContRec, a novel framework that seamlessly integrates continuous tokens into LLM-based RecSys. Specifically, ContRec consists of two key modules: a sigma-VAE Tokenizer, which encodes users/items with continuous tokens; and a Dispersive Diffusion module, which captures implicit user preference. The tokenizer is trained with a continuous Variational Auto-Encoder (VAE) objective, where three effective techniques are adopted to avoid representation collapse. By conditioning on the previously generated tokens of the LLM backbone during user modeling, the Dispersive Diffusion module performs a conditional diffusion process with a novel Dispersive Loss, enabling high-quality user preference generation through next-token diffusion. Finally, ContRec leverages both the textual reasoning output from the LLM and the latent representations produced by the diffusion model for Top-K item retrieval, thereby delivering comprehensive recommendation results. Extensive experiments on four datasets demonstrate that \ourname{} consistently outperforms both traditional and SOTA LLM-based recommender systems. Our results highlight the potential of continuous tokenization and generative modeling for advancing the next generation of recommender systems.
academic

Diffusion Generative Recommendation with Continuous Tokens

基本信息

  • 论文ID: 2504.12007
  • 标题: Diffusion Generative Recommendation with Continuous Tokens
  • 作者: Haohao Qu, Shanru Lin, Yujuan Ding, Yiqi Wang, Wenqi Fan
  • 分类: cs.IR cs.AI
  • 发表时间/会议: arXiv预印本 (2025年10月10日修订版)
  • 论文链接: https://arxiv.org/abs/2504.12007

摘要

本文针对基于大语言模型(LLM)的推荐系统中离散标记化方法的局限性,提出了ContRec框架,该框架将连续标记无缝集成到LLM推荐系统中。ContRec包含两个核心模块:σ-VAE标记器(用连续标记编码用户/物品)和分散扩散模块(捕获隐式用户偏好)。通过结合LLM的文本推理输出和扩散模型生成的潜在表示进行Top-K物品检索,在四个数据集上的实验表明ContRec显著优于传统和最先进的LLM推荐系统。

研究背景与动机

问题定义

现有基于LLM的推荐系统主要面临两个关键问题:

  1. 有损标记化:向量量化方法在压缩过程中不可避免地丢失信息
  2. 梯度传播不准确:标准向量量化中的不可微argmin操作导致"直通"技巧的使用,产生不准确的梯度

研究重要性

  • LLM在推荐系统中展现出强大的泛化能力和上下文学习能力
  • 用户和物品集合通常达到百万级别,传统索引方法效率低下
  • 量化方法虽然实用,但存在重构质量和生成性能的限制

现有方法局限性

  1. 离散方法:如TIGER、UTGRec等使用VQ-VAE构建离散词汇表,存在信息压缩损失
  2. 连续投影方法:如CoLLM、LlaRA仅在输入部分使用连续标记,输出仍依赖离散生成器,存在离散-连续差异

研究动机

受语言模型中拥抱连续标记趋势的启发,探索在推荐场景中使用连续标记和扩散模型的潜力,实现更高质量的用户偏好建模。

核心贡献

  1. 提出ContRec框架:首个将连续标记无缝集成到LLM推荐系统的框架,突破量化限制
  2. 设计两个关键模块
    • σ-VAE标记器:采用三种技术防止表示坍塌的鲁棒连续标记器
    • 分散扩散模块:通过对比自监督学习生成隐式用户偏好表示
  3. 引入分散损失:无需显式负正样本对的对比学习机制
  4. 实验验证:在四个数据集上平均提升11.76% HR@10和10.11% NDCG@10

方法详解

任务定义

给定用户集合U = {u₁, u₂, ..., uₙ}和物品集合V = {v₁, v₂, ..., vₘ},目标是通过分析历史交互预测用户未来偏好,将序列推荐重新表述为语言模型范式:

Yᵢ = LLM(P(Tᵢ, {Tⱼ|vⱼ ∈ V(uᵢ)}))

模型架构

1. σ-VAE标记器

采用VAE框架进行非量化标记化,包含三个关键技术:

掩码操作:基于伯努利分布的元素级掩码策略

μₖ = Encₖ(Mask(x, ρ))

K路编码器:并行编码通道实现隐式编码

zₖ = μₖ + σₖ ⊙ ε, where ε ~ N(0,1), σₖ ~ N(0,Σ)

高斯核:防止方差坍塌

x̂ = Dec(Concat{zₖ}ᴷ)

损失函数

Lvae = ||x̂ - x||₂² + (β/K)∑ᵏ₌₁ᴷ ||μₖ||₂²

2. LLM用户建模

结合离散语义信息和连续协作知识:

Xᵢ := P(Tᵢ, {Tⱼ|vⱼ ∈ V(uᵢ)})

使用特殊标记⟨z_start⟩和⟨z_end⟩标记连续标记序列的开始和结束。

3. 分散扩散模块

条件扩散过程

Ldiff = E(yᵢ,cᵢ,t) ||ε - εθ(y^t_i, cᵢ, t)||₂²

分散损失

Ldisp = log E_{i,j}[exp(-D(hᵢ, hⱼ)/τ)]

这是一种"无正样本对的对比损失",鼓励批次内表示的分散性。

技术创新点

  1. 连续标记化:完全避免量化操作,保持信息完整性
  2. 混合检索机制:结合LLM文本推理和扩散生成的隐式表示
  3. 端到端优化:统一优化目标整合三个损失函数
  4. 分类器自由引导:在推理时控制个性化强度

实验设置

数据集

使用四个基准数据集:

数据集用户数物品数交互数平均长度密度(%)
LastFM1,0913,68552,67048.31.31
ML1M6,0403,416447,294165.52.17
Beauty22,36312,101278,6418.90.07
Games47,56816,834266,1399.50.03

评价指标

  • HR@K (Hit Ratio):Top-K命中率
  • NDCG@K (Normalized Discounted Cumulative Gain):归一化折扣累积增益
  • K值设置为10和20

对比方法

传统序列推荐:GRU4Rec, SASRec, SSD4Rec, DreamRec LLM推荐系统:P5, CoLLM, TIGER, TokenRec, LLaRA

实现细节

  • 基础模型:Llama-3.2-1B-Instruct
  • 优化器:AdamW (学习率 1e-5/1e-4)
  • 批次大小:24
  • 最大序列长度:20
  • 扩散步数:训练1000步,推理100步

实验结果

主要结果

ContRec在所有数据集上均达到最佳性能:

数据集指标最佳基线ContRec提升
BeautyHR@100.04420.0473±0.00177.74%
GamesHR@100.10180.1041±0.00368.66%
LastFMHR@100.05250.0539±0.003415.42%
ML1MHR@100.10760.1099±0.006615.20%

相比TIGER(典型离散方法)平均提升11.76% HR@10和10.11% NDCG@10。

消融实验

关键组件贡献分析:

组件Beauty HR@10ML1M HR@10影响
完整模型0.04730.1099-
w/o 扩散0.04310.1007显著下降
w/o 分散损失0.04480.1042明显下降
w/o σ0.04570.1051性能下降
w/ VQ-VAE0.04260.0974大幅下降

重构评估

在物品嵌入重构任务上,连续方法显著优于离散方法:

  • 扩散模型重构误差最低
  • VAE优于各种量化方法(VQ-VAE, RQ-VAE, MQ-VAE)
  • 损失收敛更平滑

超参数敏感性

  • 掩码比例ρ:0.2为最优值
  • 标记数量K:3-4个标记效果最佳
  • 引导强度ω:小值(ω=2)带来改善
  • 权重参数:γ₁=1, γ₂=0.5时性能最优

相关工作

LLM推荐系统

  1. 离散标记化:P5统一多任务为文本生成,TIGER/TokenRec使用向量量化
  2. 连续投影:CoLLM/LlaRA直接投影协作表示,存在离散-连续差异

扩散模型与连续标记

  1. 图像生成:VAE-MAR, Next-Token Diffusion展示连续标记潜力
  2. 多模态建模:DEEM等将扩散作为LLM的"眼睛"
  3. 蛋白质建模:DPLM等在连续结构嵌入中的成功应用

结论与讨论

主要结论

  1. 连续标记优势得到验证:避免量化损失,实现更精确的表示学习
  2. 扩散模型适用于推荐:在用户偏好建模中展现强大能力
  3. 混合检索机制有效:结合显式推理和隐式表示的优势
  4. 端到端优化可行:统一框架实现各组件协同优化

局限性

  1. 计算开销:推理时间主要由LLM推理占据(约88.6%)
  2. 用户偏好转变:对突然的偏好变化适应性有限
  3. 应用场景:更适合个性化对话推荐而非大规模在线系统
  4. 数据依赖:需要丰富的物品文本信息支持

未来方向

  1. 效率优化:探索更高效的连续标记生成方法
  2. 动态建模:增强对用户偏好演化的建模能力
  3. 多模态扩展:集成图像、视频等多模态信息
  4. 理论分析:深入理解连续标记在推荐中的理论基础

深度评价

优点

  1. 创新性强:首次系统性地将连续标记引入LLM推荐系统
  2. 技术严谨:σ-VAE设计巧妙,有效防止表示坍塌
  3. 实验充分:多数据集验证,详尽的消融和敏感性分析
  4. 理论支撑:分散损失的数学推导清晰,设计合理

不足

  1. 计算效率:推理延迟较高,限制了实际应用场景
  2. 泛化能力:在用户偏好突变场景下表现有限
  3. 对比不够全面:缺少与更多最新LLM推荐方法的对比
  4. 理论分析不足:对连续标记优势的理论解释有待深入

影响力

  1. 学术贡献:为LLM推荐系统提供了新的技术路径
  2. 实用价值:在对话推荐等场景有较好的应用前景
  3. 可复现性:提供了详细的实现细节和超参数设置
  4. 启发意义:为推荐系统与生成式AI的结合提供了新思路

适用场景

  1. 个性化对话推荐:需要解释性和交互性的场景
  2. 冷启动推荐:利用文本信息处理新用户/物品
  3. 跨域推荐:利用LLM的泛化能力进行领域迁移
  4. 研究原型:作为探索连续标记推荐的基础框架

参考文献

本文引用了推荐系统、大语言模型、扩散模型等领域的重要工作,包括:

  • 经典推荐算法:LightGCN, SASRec等
  • LLM推荐系统:P5, TIGER, TokenRec等
  • 扩散模型:DDPM, Classifier-free Guidance等
  • 连续标记化:VAE-MAR, Next-Token Diffusion等

总体评价:这是一篇在LLM推荐系统领域具有重要创新意义的工作,通过引入连续标记化和扩散模型,有效解决了现有方法的局限性。虽然在计算效率和某些场景的适用性方面还有改进空间,但其技术创新和实验验证都较为充分,为该领域的发展提供了有价值的贡献。