2025-11-22T10:40:16.215584

What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context

Ouyang, Wen, Zhang et al.
Sequential recommendation systems aspire to profile users by interpreting their interaction histories, echoing how humans make decisions by weighing experience, relative preference strength, and situational relevance. Yet, existing large language model (LLM)-based recommenders often fall short of mimicking the flexible, context-aware decision strategies humans exhibit, neglecting the structured, dynamic, and context-aware mechanisms fundamental to human behaviors. To bridge this gap, we propose RecPO, a preference optimization framework that models structured feedback and contextual delay to emulate human-like prioritization in sequential recommendation. RecPO exploits adaptive reward margins based on inferred preference hierarchies and temporal signals, enabling the model to favor immediately relevant items and to distinguish between varying degrees of preference and aversion. Extensive experiments across five real-world datasets demonstrate that RecPO not only yields performance gains over state-of-the-art baselines, but also mirrors key characteristics of human decision-making: favoring timely satisfaction, maintaining coherent preferences, and exercising discernment under shifting contexts.
academic

What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context

基本信息

  • 论文ID: 2506.02261
  • 标题: What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context
  • 作者: Zhongyu Ouyang, Qianlong Wen, Chunhui Zhang, Yanfang Ye, Soroush Vosoughi
  • 机构: Dartmouth College, University of Notre Dame
  • 分类: cs.IR, cs.LG
  • 发表时间: 2025年10月10日 (arXiv v2)
  • 论文链接: https://arxiv.org/abs/2506.02261v2

摘要

Sequential recommendation systems aspire to profile users by interpreting their interaction histories, echoing how humans make decisions by weighing experience, relative preference strength, and situational relevance. Yet, existing large language model (LLM)-based recommenders often fall short of mimicking the flexible, context-aware decision strategies humans exhibit, neglecting the structured, dynamic, and context-aware mechanisms fundamental to human behaviors. To bridge this gap, we propose RecPO, a preference optimization framework that models structured feedback and contextual delay to emulate human-like prioritization in sequential recommendation. RecPO exploits adaptive reward margins based on inferred preference hierarchies and temporal signals, enabling the model to favor immediately relevant items and to distinguish between varying degrees of preference and aversion. Extensive experiments across five real-world datasets demonstrate that RecPO not only yields performance gains over state-of-the-art baselines, but also mirrors key characteristics of human decision-making: favoring timely satisfaction, maintaining coherent preferences, and exercising discernment under shifting contexts.

研究背景与动机

问题定义

现有的基于大语言模型(LLM)的序列推荐系统主要存在以下问题:

  1. 二元化偏好建模:现有方法如DPO及其变体通过二元成对比较来处理所有偏好,忽略了偏好强度的差异
  2. 时间上下文缺失:缺乏对时间敏感性的建模,无法区分即时满足与延迟满足的差异
  3. 人类决策机制的忽视:未能模拟人类在决策过程中权衡经验、相对偏好强度和情境相关性的复杂机制

研究动机

人类的决策行为体现出分级偏好(强烈喜爱 vs 轻微喜欢)和时间敏感性(即时 vs 延迟满足),这些特征在行为经济学和认知科学中得到充分证实,但在当前LLM推荐系统的偏好对齐中被大量忽视。本文通过系统性实证研究发现,整合全面反馈(包括负面交互)和结构化偏好信号(如评分)能显著提升性能。

核心洞察

通过概念验证实验,作者识别出两个关键因素:

  • 偏好强度:用户亲和或厌恶的分级强度
  • 时间上下文:满足的即时性

核心贡献

  1. 理论贡献:系统性证明了偏好强度和时间上下文是LLM推荐系统中细粒度偏好建模的关键因素,挑战了现有的二元偏好范式
  2. 方法贡献:提出RecPO框架,通过基于偏好强度和时间上下文的自适应奖励边际来整合这些因素
  3. 实证贡献:在五个数据集上的实验表明,RecPO不仅提升了准确性,还表现出与人类偏好一致的行为特征:优先考虑及时满足,在变化的上下文中保持偏好一致性

方法详解

任务定义

给定用户u在时刻t的交互历史HutH_u^t和候选物品集合C={i(j)}j=1KC = \{i^{(j)}\}_{j=1}^K,其中HutC=H_u^t \cap C = \emptysetipt+1Ci_p^{t+1} \in C,模型πθ\pi_\theta需要预测用户最可能喜欢的物品ipt+1i_p^{t+1}

核心方法:RecPO框架

1. 自适应奖励边际

RecPO的核心创新在于定义自适应目标奖励边际γr\gamma_r,该边际由结构化偏好和相对时新性动态决定:

γr=λϕ(sp,Δtp)ϕ(sd,Δtd)\gamma_r = \lambda \frac{\phi(s_p, \Delta t_p)}{\phi(s_d, \Delta t_d)}

其中:

  • sp,sds_p, s_d分别为偏好和非偏好物品的结构化偏好分数
  • Δtp=tp+t\Delta t_p = t_p^+ - t表示交互的时间延迟
  • ϕ(s,Δt)=s/(Δt)0.5\phi(s, \Delta t) = s/(\Delta t)^{0.5}为效用函数
  • λ\lambda控制边际的幅度

2. 偏好分布建模

基于Bradley-Terry模型,RecPO将偏好概率建模为:

P(ypydxu)=σ(r(xu,yp)r(xu,yd)γr)P^*(y_p \succ y_d | x_u) = \sigma(r(x_u, y_p) - r(x_u, y_d) - \gamma_r)

3. 目标函数

采用Plackett-Luce模型将成对比较泛化为列表级排序框架,最终目标函数为:

L(πθ;πref)=E(xu,yp,Td)D[logσ(logydTdexp(βlogπθ(ydxu)πref(ydxu)βlogπθ(ypxu)πref(ypxu)λϕ(sp,Δtp)ϕ(sd,Δtd)))]L(\pi_\theta; \pi_{ref}) = -E_{(x_u,y_p,T_d)\sim D}\left[\log \sigma\left(-\log \sum_{y_d \in T_d} \exp\left(\beta \log \frac{\pi_\theta(y_d|x_u)}{\pi_{ref}(y_d|x_u)} - \beta \log \frac{\pi_\theta(y_p|x_u)}{\pi_{ref}(y_p|x_u)} - \lambda \frac{\phi(s_p,\Delta t_p)}{\phi(s_d,\Delta t_d)}\right)\right)\right]

技术创新点

  1. 非均匀边际设计:不同于先前工作使用统一边际,RecPO根据偏好强度和时间距离动态调整边际
  2. 全面反馈利用:保留完整交互序列,包括负面反馈,并结合显式评分
  3. 人类认知对齐:基于认知科学原理设计的偏好建模机制

实验设置

数据集

使用五个真实世界序列推荐数据集:

  • 显式反馈数据集:MovieLens-1M、Amazon-Books、BeerAdvocate
  • 隐式反馈数据集:Steam、LastFM
数据集序列数物品数交互数
MovieLens6,0403,952994,169
Amazon-Books5,10338,20362,290
Steam3,1714,25182,072
BeerAdvocate4,7246,10591,207
LastFM982107,296307,829

评价指标

  • Hit Ratio@1:测量模型准确推荐正确物品的比例
  • Valid Ratio:评估指令遵循能力,量化符合格式要求的输出比例

对比方法

  • 传统方法:GRU4Rec、Caser、SASRec
  • LLM方法:DPO、SimPO、S-DPO
  • 基础模型:LLaMA3-8B、Qwen2.5-7B

实现细节

  • 学习率:1e-5,优化器:AdamW
  • 批次大小:128,序列长度:根据数据集调整
  • 负样本数量:3,边际参数λ:2
  • 硬件:8×NVIDIA RTX A100 (80GB)

实验结果

主要结果

在所有五个数据集上,RecPO均取得了最佳性能:

模型MovieLens HR@1Amazon-Books HR@1BeerAdvocate HR@1Steam HR@1LastFM HR@1
SASRec0.26710.15590.38000.45870.6659
S-DPO0.29020.50650.46980.35880.5719
RecPO0.34510.58020.57710.46720.6830

关键发现

  1. 全面反馈的重要性:保留负面交互比仅使用正面反馨能提升性能
  2. 结构化信号的价值:添加评分信息显著提升性能
  3. 因素互补性:最佳性能来自于全面反馈与结构化信号的结合

消融实验

对边际函数的消融研究显示:

数据集Log DiffLog RatioRecPO (Ratio)
MovieLens0.31600.32470.3451
Amazon-Books0.53700.54550.5802

比值基础的边际函数在所有数据集上均取得最佳性能。

人类对齐行为分析

RecPO在四个关键维度上表现出人类对齐的行为:

  1. 时间上下文敏感性:在包含未来高评分物品的候选集中,RecPO能更好地优先推荐时间上合适的物品
  2. 偏好强度感知:能够避免推荐最终被低评分的诱惑性物品
  3. 隐式厌恶建模:无需显式厌恶标签即可识别用户不喜欢的物品
  4. 跨上下文鲁棒性:在不同交互历史长度下保持稳定性能

相关工作

序列推荐

早期方法如GRU4Rec使用循环神经网络,SASRec引入自注意力机制。近期方法整合图结构、对比学习等技术。

LLM推荐系统

LLaRA、TALLRec等方法将LLM整合到推荐系统中,但主要关注语义理解而非偏好建模的细粒度因素。

LLM对齐技术

从RLHF到DPO及其变体(IPO、CPO、KTO、SimPO),这些方法主要针对通用NLP任务,S-DPO首次将对齐技术适配到推荐任务。

结论与讨论

主要结论

  1. 偏好强度和时间上下文是LLM推荐系统中被忽视但关键的因素
  2. RecPO通过自适应奖励边际有效整合这些因素,实现了性能提升和人类行为对齐
  3. 该方法在显式和隐式反馈数据集上均表现出一致的改进

局限性

  1. 简化的偏好结构:采用了简化的序列偏好结构
  2. 单一上下文因素:仅考虑满足延迟作为上下文因素
  3. 评估指标局限:主要依赖单一指标,未能捕获更全面的行为模式

未来方向

  1. 复杂偏好层次建模:探索更复杂的认知可信偏好结构
  2. 丰富上下文因素:整合更多上下文影响因素
  3. 全面评估框架:开发更全面的行为导向评估指标

深度评价

优点

  1. 问题识别精准:清晰识别出现有方法的核心问题(二元偏好建模)
  2. 方法设计合理:基于认知科学原理设计的自适应边际机制具有理论基础
  3. 实验设计充分:包含概念验证、主实验、消融实验和行为分析的完整实验框架
  4. 结果说服力强:在多个数据集上的一致改进和人类行为对齐分析增强了说服力

不足

  1. 理论分析不足:缺乏对为什么这种边际设计有效的深入理论分析
  2. 计算复杂度未讨论:未分析相比baseline方法的计算开销
  3. 超参数敏感性:对关键参数λ的敏感性分析相对简单
  4. 泛化能力有限:主要在特定类型的推荐任务上验证,泛化性有待验证

影响力

  1. 学术贡献:为LLM推荐系统研究提供了新的研究方向和理论框架
  2. 实用价值:提供了可直接应用的改进方法,代码开源增强了可复现性
  3. 启发意义:强调了认知科学原理在AI系统设计中的重要性

适用场景

  1. 序列推荐系统:特别适用于有明确时间序列和评分信息的推荐场景
  2. 个性化应用:适合需要精细偏好建模的个性化服务
  3. 多模态推荐:框架设计具有扩展性,可适配多模态推荐任务

参考文献

本文引用了推荐系统、LLM对齐、认知科学等多个领域的重要工作,包括:

  • 经典推荐方法:GRU4Rec, SASRec, Caser
  • LLM对齐技术:DPO, RLHF, SimPO
  • 认知科学基础:Astington & Jenkins (1995) 关于人类决策机制的研究

总体评价:这是一篇高质量的研究论文,在理论贡献、方法创新和实验验证方面都表现出色。论文成功识别并解决了LLM推荐系统中的关键问题,提出的RecPO框架具有良好的理论基础和实践价值。尽管存在一些局限性,但其对推荐系统和LLM对齐研究领域的贡献是显著的。