Sequential recommendation systems aspire to profile users by interpreting their interaction histories, echoing how humans make decisions by weighing experience, relative preference strength, and situational relevance. Yet, existing large language model (LLM)-based recommenders often fall short of mimicking the flexible, context-aware decision strategies humans exhibit, neglecting the structured, dynamic, and context-aware mechanisms fundamental to human behaviors. To bridge this gap, we propose RecPO, a preference optimization framework that models structured feedback and contextual delay to emulate human-like prioritization in sequential recommendation. RecPO exploits adaptive reward margins based on inferred preference hierarchies and temporal signals, enabling the model to favor immediately relevant items and to distinguish between varying degrees of preference and aversion. Extensive experiments across five real-world datasets demonstrate that RecPO not only yields performance gains over state-of-the-art baselines, but also mirrors key characteristics of human decision-making: favoring timely satisfaction, maintaining coherent preferences, and exercising discernment under shifting contexts.
What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context
- 论文ID: 2506.02261
- 标题: What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context
- 作者: Zhongyu Ouyang, Qianlong Wen, Chunhui Zhang, Yanfang Ye, Soroush Vosoughi
- 机构: Dartmouth College, University of Notre Dame
- 分类: cs.IR, cs.LG
- 发表时间: 2025年10月10日 (arXiv v2)
- 论文链接: https://arxiv.org/abs/2506.02261v2
Sequential recommendation systems aspire to profile users by interpreting their interaction histories, echoing how humans make decisions by weighing experience, relative preference strength, and situational relevance. Yet, existing large language model (LLM)-based recommenders often fall short of mimicking the flexible, context-aware decision strategies humans exhibit, neglecting the structured, dynamic, and context-aware mechanisms fundamental to human behaviors. To bridge this gap, we propose RecPO, a preference optimization framework that models structured feedback and contextual delay to emulate human-like prioritization in sequential recommendation. RecPO exploits adaptive reward margins based on inferred preference hierarchies and temporal signals, enabling the model to favor immediately relevant items and to distinguish between varying degrees of preference and aversion. Extensive experiments across five real-world datasets demonstrate that RecPO not only yields performance gains over state-of-the-art baselines, but also mirrors key characteristics of human decision-making: favoring timely satisfaction, maintaining coherent preferences, and exercising discernment under shifting contexts.
现有的基于大语言模型(LLM)的序列推荐系统主要存在以下问题:
- 二元化偏好建模:现有方法如DPO及其变体通过二元成对比较来处理所有偏好,忽略了偏好强度的差异
- 时间上下文缺失:缺乏对时间敏感性的建模,无法区分即时满足与延迟满足的差异
- 人类决策机制的忽视:未能模拟人类在决策过程中权衡经验、相对偏好强度和情境相关性的复杂机制
人类的决策行为体现出分级偏好(强烈喜爱 vs 轻微喜欢)和时间敏感性(即时 vs 延迟满足),这些特征在行为经济学和认知科学中得到充分证实,但在当前LLM推荐系统的偏好对齐中被大量忽视。本文通过系统性实证研究发现,整合全面反馈(包括负面交互)和结构化偏好信号(如评分)能显著提升性能。
通过概念验证实验,作者识别出两个关键因素:
- 偏好强度:用户亲和或厌恶的分级强度
- 时间上下文:满足的即时性
- 理论贡献:系统性证明了偏好强度和时间上下文是LLM推荐系统中细粒度偏好建模的关键因素,挑战了现有的二元偏好范式
- 方法贡献:提出RecPO框架,通过基于偏好强度和时间上下文的自适应奖励边际来整合这些因素
- 实证贡献:在五个数据集上的实验表明,RecPO不仅提升了准确性,还表现出与人类偏好一致的行为特征:优先考虑及时满足,在变化的上下文中保持偏好一致性
给定用户u在时刻t的交互历史Hut和候选物品集合C={i(j)}j=1K,其中Hut∩C=∅且ipt+1∈C,模型πθ需要预测用户最可能喜欢的物品ipt+1。
RecPO的核心创新在于定义自适应目标奖励边际γr,该边际由结构化偏好和相对时新性动态决定:
γr=λϕ(sd,Δtd)ϕ(sp,Δtp)
其中:
- sp,sd分别为偏好和非偏好物品的结构化偏好分数
- Δtp=tp+−t表示交互的时间延迟
- ϕ(s,Δt)=s/(Δt)0.5为效用函数
- λ控制边际的幅度
基于Bradley-Terry模型,RecPO将偏好概率建模为:
P∗(yp≻yd∣xu)=σ(r(xu,yp)−r(xu,yd)−γr)
采用Plackett-Luce模型将成对比较泛化为列表级排序框架,最终目标函数为:
L(πθ;πref)=−E(xu,yp,Td)∼D[logσ(−log∑yd∈Tdexp(βlogπref(yd∣xu)πθ(yd∣xu)−βlogπref(yp∣xu)πθ(yp∣xu)−λϕ(sd,Δtd)ϕ(sp,Δtp)))]
- 非均匀边际设计:不同于先前工作使用统一边际,RecPO根据偏好强度和时间距离动态调整边际
- 全面反馈利用:保留完整交互序列,包括负面反馈,并结合显式评分
- 人类认知对齐:基于认知科学原理设计的偏好建模机制
使用五个真实世界序列推荐数据集:
- 显式反馈数据集:MovieLens-1M、Amazon-Books、BeerAdvocate
- 隐式反馈数据集:Steam、LastFM
| 数据集 | 序列数 | 物品数 | 交互数 |
|---|
| MovieLens | 6,040 | 3,952 | 994,169 |
| Amazon-Books | 5,103 | 38,203 | 62,290 |
| Steam | 3,171 | 4,251 | 82,072 |
| BeerAdvocate | 4,724 | 6,105 | 91,207 |
| LastFM | 982 | 107,296 | 307,829 |
- Hit Ratio@1:测量模型准确推荐正确物品的比例
- Valid Ratio:评估指令遵循能力,量化符合格式要求的输出比例
- 传统方法:GRU4Rec、Caser、SASRec
- LLM方法:DPO、SimPO、S-DPO
- 基础模型:LLaMA3-8B、Qwen2.5-7B
- 学习率:1e-5,优化器:AdamW
- 批次大小:128,序列长度:根据数据集调整
- 负样本数量:3,边际参数λ:2
- 硬件:8×NVIDIA RTX A100 (80GB)
在所有五个数据集上,RecPO均取得了最佳性能:
| 模型 | MovieLens HR@1 | Amazon-Books HR@1 | BeerAdvocate HR@1 | Steam HR@1 | LastFM HR@1 |
|---|
| SASRec | 0.2671 | 0.1559 | 0.3800 | 0.4587 | 0.6659 |
| S-DPO | 0.2902 | 0.5065 | 0.4698 | 0.3588 | 0.5719 |
| RecPO | 0.3451 | 0.5802 | 0.5771 | 0.4672 | 0.6830 |
- 全面反馈的重要性:保留负面交互比仅使用正面反馨能提升性能
- 结构化信号的价值:添加评分信息显著提升性能
- 因素互补性:最佳性能来自于全面反馈与结构化信号的结合
对边际函数的消融研究显示:
| 数据集 | Log Diff | Log Ratio | RecPO (Ratio) |
|---|
| MovieLens | 0.3160 | 0.3247 | 0.3451 |
| Amazon-Books | 0.5370 | 0.5455 | 0.5802 |
比值基础的边际函数在所有数据集上均取得最佳性能。
RecPO在四个关键维度上表现出人类对齐的行为:
- 时间上下文敏感性:在包含未来高评分物品的候选集中,RecPO能更好地优先推荐时间上合适的物品
- 偏好强度感知:能够避免推荐最终被低评分的诱惑性物品
- 隐式厌恶建模:无需显式厌恶标签即可识别用户不喜欢的物品
- 跨上下文鲁棒性:在不同交互历史长度下保持稳定性能
早期方法如GRU4Rec使用循环神经网络,SASRec引入自注意力机制。近期方法整合图结构、对比学习等技术。
LLaRA、TALLRec等方法将LLM整合到推荐系统中,但主要关注语义理解而非偏好建模的细粒度因素。
从RLHF到DPO及其变体(IPO、CPO、KTO、SimPO),这些方法主要针对通用NLP任务,S-DPO首次将对齐技术适配到推荐任务。
- 偏好强度和时间上下文是LLM推荐系统中被忽视但关键的因素
- RecPO通过自适应奖励边际有效整合这些因素,实现了性能提升和人类行为对齐
- 该方法在显式和隐式反馈数据集上均表现出一致的改进
- 简化的偏好结构:采用了简化的序列偏好结构
- 单一上下文因素:仅考虑满足延迟作为上下文因素
- 评估指标局限:主要依赖单一指标,未能捕获更全面的行为模式
- 复杂偏好层次建模:探索更复杂的认知可信偏好结构
- 丰富上下文因素:整合更多上下文影响因素
- 全面评估框架:开发更全面的行为导向评估指标
- 问题识别精准:清晰识别出现有方法的核心问题(二元偏好建模)
- 方法设计合理:基于认知科学原理设计的自适应边际机制具有理论基础
- 实验设计充分:包含概念验证、主实验、消融实验和行为分析的完整实验框架
- 结果说服力强:在多个数据集上的一致改进和人类行为对齐分析增强了说服力
- 理论分析不足:缺乏对为什么这种边际设计有效的深入理论分析
- 计算复杂度未讨论:未分析相比baseline方法的计算开销
- 超参数敏感性:对关键参数λ的敏感性分析相对简单
- 泛化能力有限:主要在特定类型的推荐任务上验证,泛化性有待验证
- 学术贡献:为LLM推荐系统研究提供了新的研究方向和理论框架
- 实用价值:提供了可直接应用的改进方法,代码开源增强了可复现性
- 启发意义:强调了认知科学原理在AI系统设计中的重要性
- 序列推荐系统:特别适用于有明确时间序列和评分信息的推荐场景
- 个性化应用:适合需要精细偏好建模的个性化服务
- 多模态推荐:框架设计具有扩展性,可适配多模态推荐任务
本文引用了推荐系统、LLM对齐、认知科学等多个领域的重要工作,包括:
- 经典推荐方法:GRU4Rec, SASRec, Caser
- LLM对齐技术:DPO, RLHF, SimPO
- 认知科学基础:Astington & Jenkins (1995) 关于人类决策机制的研究
总体评价:这是一篇高质量的研究论文,在理论贡献、方法创新和实验验证方面都表现出色。论文成功识别并解决了LLM推荐系统中的关键问题,提出的RecPO框架具有良好的理论基础和实践价值。尽管存在一些局限性,但其对推荐系统和LLM对齐研究领域的贡献是显著的。