Sequential recommendation systems aspire to profile users by interpreting their interaction histories, echoing how humans make decisions by weighing experience, relative preference strength, and situational relevance. Yet, existing large language model (LLM)-based recommenders often fall short of mimicking the flexible, context-aware decision strategies humans exhibit, neglecting the structured, dynamic, and context-aware mechanisms fundamental to human behaviors. To bridge this gap, we propose RecPO, a preference optimization framework that models structured feedback and contextual delay to emulate human-like prioritization in sequential recommendation. RecPO exploits adaptive reward margins based on inferred preference hierarchies and temporal signals, enabling the model to favor immediately relevant items and to distinguish between varying degrees of preference and aversion. Extensive experiments across five real-world datasets demonstrate that RecPO not only yields performance gains over state-of-the-art baselines, but also mirrors key characteristics of human decision-making: favoring timely satisfaction, maintaining coherent preferences, and exercising discernment under shifting contexts.
- ID del Artículo: 2506.02261
- Título: What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context
- Autores: Zhongyu Ouyang, Qianlong Wen, Chunhui Zhang, Yanfang Ye, Soroush Vosoughi
- Instituciones: Dartmouth College, University of Notre Dame
- Clasificación: cs.IR, cs.LG
- Fecha de Publicación: 10 de octubre de 2025 (arXiv v2)
- Enlace del Artículo: https://arxiv.org/abs/2506.02261v2
Los sistemas de recomendación secuencial aspiran a perfilar usuarios interpretando sus historiales de interacción, reflejando cómo los humanos toman decisiones ponderando la experiencia, la intensidad de preferencia relativa y la relevancia situacional. Sin embargo, los recomendadores basados en modelos de lenguaje grande (LLM) existentes frecuentemente no logran emular las estrategias de decisión flexibles y conscientes del contexto que exhiben los humanos, descuidando los mecanismos estructurados, dinámicos y conscientes del contexto fundamentales para los comportamientos humanos. Para cerrar esta brecha, proponemos RecPO, un marco de optimización de preferencias que modela retroalimentación estructurada y retraso contextual para emular la priorización similar a la humana en recomendación secuencial. RecPO explota márgenes de recompensa adaptativos basados en jerarquías de preferencia inferidas y señales temporales, permitiendo al modelo favorecer elementos inmediatamente relevantes y distinguir entre grados variables de preferencia y aversión. Experimentos extensivos en cinco conjuntos de datos del mundo real demuestran que RecPO no solo produce ganancias de rendimiento sobre líneas base de última generación, sino que también refleja características clave de la toma de decisiones humana: favorecer la satisfacción oportuna, mantener preferencias coherentes y ejercer discernimiento bajo contextos cambiantes.
Los sistemas de recomendación secuencial basados en modelos de lenguaje grande (LLM) existentes presentan principalmente los siguientes problemas:
- Modelado de Preferencias Binario: Los métodos existentes como DPO y sus variantes manejan todas las preferencias mediante comparaciones pareadas binarias, ignorando las diferencias en la intensidad de preferencia
- Ausencia de Contexto Temporal: Carencia de modelado sensible al tiempo, incapacidad para distinguir entre satisfacción inmediata y satisfacción retrasada
- Negligencia de Mecanismos de Decisión Humana: Falta de emulación de cómo los humanos ponderan la experiencia, la intensidad de preferencia relativa y la relevancia situacional en el proceso de decisión
El comportamiento de decisión humano exhibe preferencias jerárquicas (fuerte agrado vs. ligero agrado) y sensibilidad temporal (satisfacción inmediata vs. retrasada), características ampliamente confirmadas en economía del comportamiento y ciencias cognitivas, pero ampliamente descuidadas en la alineación de preferencias de los sistemas de recomendación LLM actuales. Este artículo, a través de un estudio empírico sistemático, descubre que la integración de retroalimentación completa (incluyendo interacciones negativas) y señales de preferencia estructuradas (como calificaciones) mejora significativamente el rendimiento.
A través de experimentos de prueba de concepto, los autores identifican dos factores clave:
- Intensidad de Preferencia: La intensidad jerárquica de afinidad o aversión del usuario
- Contexto Temporal: La inmediatez de la satisfacción
- Contribución Teórica: Demostración sistemática de que la intensidad de preferencia y el contexto temporal son factores clave para el modelado de preferencias de grano fino en sistemas de recomendación LLM, desafiando el paradigma de preferencia binaria existente
- Contribución Metodológica: Propuesta del marco RecPO, que integra estos factores mediante márgenes de recompensa adaptativos basados en intensidad de preferencia y contexto temporal
- Contribución Empírica: Experimentos en cinco conjuntos de datos que demuestran que RecPO no solo mejora la precisión, sino que también exhibe características de comportamiento consistentes con preferencias humanas: priorizar satisfacción oportuna, mantener coherencia de preferencias bajo contextos cambiantes
Dado el historial de interacción del usuario u en el tiempo t, Hut, y el conjunto de elementos candidatos C={i(j)}j=1K, donde Hut∩C=∅ e ipt+1∈C, el modelo πθ necesita predecir el elemento ipt+1 que el usuario probablemente preferirá.
La innovación central de RecPO radica en definir un margen de recompensa objetivo adaptativo γr, determinado dinámicamente por preferencia estructurada y novedad relativa temporal:
γr=λϕ(sd,Δtd)ϕ(sp,Δtp)
Donde:
- sp,sd son respectivamente las puntuaciones de preferencia estructurada de elementos preferidos y no preferidos
- Δtp=tp+−t representa el retraso temporal de la interacción
- ϕ(s,Δt)=s/(Δt)0.5 es la función de utilidad
- λ controla la magnitud del margen
Basado en el modelo Bradley-Terry, RecPO modela la probabilidad de preferencia como:
P∗(yp≻yd∣xu)=σ(r(xu,yp)−r(xu,yd)−γr)
Adoptando el modelo Plackett-Luce para generalizar comparaciones pareadas a un marco de clasificación a nivel de lista, la función objetivo final es:
L(πθ;πref)=−E(xu,yp,Td)∼D[logσ(−log∑yd∈Tdexp(βlogπref(yd∣xu)πθ(yd∣xu)−βlogπref(yp∣xu)πθ(yp∣xu)−λϕ(sd,Δtd)ϕ(sp,Δtp)))]
- Diseño de Margen No Uniforme: A diferencia de trabajos anteriores que utilizan márgenes uniformes, RecPO ajusta dinámicamente el margen según intensidad de preferencia y distancia temporal
- Utilización de Retroalimentación Completa: Retención de la secuencia de interacción completa, incluyendo retroalimentación negativa, combinada con calificaciones explícitas
- Alineación con Cognición Humana: Mecanismo de modelado de preferencias diseñado basado en principios de ciencias cognitivas
Se utilizan cinco conjuntos de datos de recomendación secuencial del mundo real:
- Conjuntos de Retroalimentación Explícita: MovieLens-1M, Amazon-Books, BeerAdvocate
- Conjuntos de Retroalimentación Implícita: Steam, LastFM
| Conjunto de Datos | Secuencias | Elementos | Interacciones |
|---|
| MovieLens | 6,040 | 3,952 | 994,169 |
| Amazon-Books | 5,103 | 38,203 | 62,290 |
| Steam | 3,171 | 4,251 | 82,072 |
| BeerAdvocate | 4,724 | 6,105 | 91,207 |
| LastFM | 982 | 107,296 | 307,829 |
- Hit Ratio@1: Mide la proporción de elementos recomendados correctamente por el modelo
- Valid Ratio: Evalúa la capacidad de seguimiento de instrucciones, cuantificando la proporción de salidas que cumplen con los requisitos de formato
- Métodos Tradicionales: GRU4Rec, Caser, SASRec
- Métodos LLM: DPO, SimPO, S-DPO
- Modelos Base: LLaMA3-8B, Qwen2.5-7B
- Tasa de aprendizaje: 1e-5, Optimizador: AdamW
- Tamaño de lote: 128, Longitud de secuencia: Ajustada según conjunto de datos
- Cantidad de muestras negativas: 3, Parámetro de margen λ: 2
- Hardware: 8×NVIDIA RTX A100 (80GB)
RecPO logra el mejor rendimiento en los cinco conjuntos de datos:
| Modelo | MovieLens HR@1 | Amazon-Books HR@1 | BeerAdvocate HR@1 | Steam HR@1 | LastFM HR@1 |
|---|
| SASRec | 0.2671 | 0.1559 | 0.3800 | 0.4587 | 0.6659 |
| S-DPO | 0.2902 | 0.5065 | 0.4698 | 0.3588 | 0.5719 |
| RecPO | 0.3451 | 0.5802 | 0.5771 | 0.4672 | 0.6830 |
- Importancia de Retroalimentación Completa: Retener interacciones negativas mejora el rendimiento en comparación con usar solo retroalimentación positiva
- Valor de Señales Estructuradas: Agregar información de calificación mejora significativamente el rendimiento
- Complementariedad de Factores: El mejor rendimiento proviene de la combinación de retroalimentación completa y señales estructuradas
El estudio de ablación de la función de margen muestra:
| Conjunto de Datos | Log Diff | Log Ratio | RecPO (Ratio) |
|---|
| MovieLens | 0.3160 | 0.3247 | 0.3451 |
| Amazon-Books | 0.5370 | 0.5455 | 0.5802 |
La función de margen basada en razón logra el mejor rendimiento en todos los conjuntos de datos.
RecPO exhibe comportamiento alineado con humanos en cuatro dimensiones clave:
- Sensibilidad al Contexto Temporal: En conjuntos de candidatos que contienen elementos de alto valor futuro, RecPO prioriza mejor elementos temporalmente apropiados
- Percepción de Intensidad de Preferencia: Puede evitar recomendar elementos tentadores que finalmente reciben calificaciones bajas
- Modelado de Aversión Implícita: Identifica elementos que los usuarios no prefieren sin etiquetas de aversión explícita
- Robustez Entre Contextos: Mantiene rendimiento estable bajo diferentes longitudes de historial de interacción
Los métodos tempranos como GRU4Rec utilizan redes neuronales recurrentes, SASRec introduce mecanismos de autoatención. Los métodos recientes integran estructuras gráficas, aprendizaje contrastivo y otras técnicas.
Métodos como LLaRA y TALLRec integran LLM en sistemas de recomendación, pero se enfocan principalmente en comprensión semántica en lugar de factores de grano fino en modelado de preferencias.
Desde RLHF hasta DPO y sus variantes (IPO, CPO, KTO, SimPO), estos métodos se enfocan principalmente en tareas genéricas de PNL, siendo S-DPO el primero en adaptar técnicas de alineación a tareas de recomendación.
- La intensidad de preferencia y el contexto temporal son factores descuidados pero críticos en sistemas de recomendación LLM
- RecPO integra efectivamente estos factores mediante márgenes de recompensa adaptativos, logrando mejora de rendimiento y alineación con comportamiento humano
- El método exhibe mejoras consistentes tanto en conjuntos de retroalimentación explícita como implícita
- Estructura de Preferencia Simplificada: Adopta una estructura de preferencia secuencial simplificada
- Factor de Contexto Único: Considera solo retraso de satisfacción como factor contextual
- Limitaciones de Métricas de Evaluación: Depende principalmente de una métrica única, sin capturar patrones de comportamiento más completos
- Modelado de Jerarquías de Preferencia Complejas: Exploración de estructuras de preferencia cognitivamente creíbles más complejas
- Enriquecimiento de Factores Contextuales: Integración de más factores de influencia contextual
- Marco de Evaluación Integral: Desarrollo de métricas de evaluación más integrales orientadas al comportamiento
- Identificación Precisa del Problema: Identificación clara de los problemas centrales de métodos existentes (modelado de preferencias binario)
- Diseño de Método Razonable: Mecanismo de margen adaptativo diseñado basado en principios de ciencias cognitivas con base teórica sólida
- Diseño Experimental Completo: Marco experimental completo que incluye prueba de concepto, experimentos principales, experimentos de ablación y análisis de comportamiento
- Resultados Convincentes: Mejoras consistentes en múltiples conjuntos de datos y análisis de alineación con comportamiento humano fortalecen la persuasión
- Análisis Teórico Limitado: Falta análisis teórico profundo sobre por qué este diseño de margen es efectivo
- Complejidad Computacional No Discutida: No analiza el costo computacional en comparación con métodos base
- Análisis de Sensibilidad de Hiperparámetros: Análisis relativamente simple de sensibilidad al parámetro clave λ
- Capacidad de Generalización Limitada: Validación principalmente en tipos específicos de tareas de recomendación, generalización pendiente de verificación
- Contribución Académica: Proporciona nueva dirección de investigación y marco teórico para investigación de sistemas de recomendación LLM
- Valor Práctico: Proporciona método de mejora directamente aplicable, código de código abierto mejora reproducibilidad
- Significado Inspirador: Enfatiza la importancia de principios de ciencias cognitivas en diseño de sistemas de IA
- Sistemas de Recomendación Secuencial: Particularmente aplicable a escenarios de recomendación con secuencia temporal clara e información de calificación
- Aplicaciones Personalizadas: Adecuado para servicios personalizados que requieren modelado de preferencias refinado
- Recomendación Multimodal: Diseño de marco con extensibilidad, adaptable a tareas de recomendación multimodal
Este artículo cita trabajos importantes de múltiples disciplinas incluyendo sistemas de recomendación, alineación LLM y ciencias cognitivas, incluyendo:
- Métodos de recomendación clásicos: GRU4Rec, SASRec, Caser
- Técnicas de alineación LLM: DPO, RLHF, SimPO
- Fundamentos de ciencias cognitivas: Investigación de Astington & Jenkins (1995) sobre mecanismos de decisión humana
Evaluación General: Este es un artículo de investigación de alta calidad que demuestra excelencia en contribuciones teóricas, innovación metodológica y verificación experimental. El artículo identifica y resuelve exitosamente problemas clave en sistemas de recomendación LLM, y el marco RecPO propuesto posee sólida base teórica y valor práctico significativo. Aunque existen algunas limitaciones, sus contribuciones al campo de investigación de sistemas de recomendación y alineación LLM son notables.