2025-11-22T10:40:16.215584

What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context

Ouyang, Wen, Zhang et al.

Sequential recommendation systems aspire to profile users by interpreting their interaction histories, echoing how humans make decisions by weighing experience, relative preference strength, and situational relevance. Yet, existing large language model (LLM)-based recommenders often fall short of mimicking the flexible, context-aware decision strategies humans exhibit, neglecting the structured, dynamic, and context-aware mechanisms fundamental to human behaviors. To bridge this gap, we propose RecPO, a preference optimization framework that models structured feedback and contextual delay to emulate human-like prioritization in sequential recommendation. RecPO exploits adaptive reward margins based on inferred preference hierarchies and temporal signals, enabling the model to favor immediately relevant items and to distinguish between varying degrees of preference and aversion. Extensive experiments across five real-world datasets demonstrate that RecPO not only yields performance gains over state-of-the-art baselines, but also mirrors key characteristics of human decision-making: favoring timely satisfaction, maintaining coherent preferences, and exercising discernment under shifting contexts.

academic

¿Qué Hace que los LLMs sean Recomendadores Secuenciales Efectivos? Un Estudio sobre Intensidad de Preferencia y Contexto Temporal

Información Básica

ID del Artículo: 2506.02261
Título: What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context
Autores: Zhongyu Ouyang, Qianlong Wen, Chunhui Zhang, Yanfang Ye, Soroush Vosoughi
Instituciones: Dartmouth College, University of Notre Dame
Clasificación: cs.IR, cs.LG
Fecha de Publicación: 10 de octubre de 2025 (arXiv v2)
Enlace del Artículo: https://arxiv.org/abs/2506.02261v2

Resumen

Los sistemas de recomendación secuencial aspiran a perfilar usuarios interpretando sus historiales de interacción, reflejando cómo los humanos toman decisiones ponderando la experiencia, la intensidad de preferencia relativa y la relevancia situacional. Sin embargo, los recomendadores basados en modelos de lenguaje grande (LLM) existentes frecuentemente no logran emular las estrategias de decisión flexibles y conscientes del contexto que exhiben los humanos, descuidando los mecanismos estructurados, dinámicos y conscientes del contexto fundamentales para los comportamientos humanos. Para cerrar esta brecha, proponemos RecPO, un marco de optimización de preferencias que modela retroalimentación estructurada y retraso contextual para emular la priorización similar a la humana en recomendación secuencial. RecPO explota márgenes de recompensa adaptativos basados en jerarquías de preferencia inferidas y señales temporales, permitiendo al modelo favorecer elementos inmediatamente relevantes y distinguir entre grados variables de preferencia y aversión. Experimentos extensivos en cinco conjuntos de datos del mundo real demuestran que RecPO no solo produce ganancias de rendimiento sobre líneas base de última generación, sino que también refleja características clave de la toma de decisiones humana: favorecer la satisfacción oportuna, mantener preferencias coherentes y ejercer discernimiento bajo contextos cambiantes.

Antecedentes de Investigación y Motivación

Definición del Problema

Los sistemas de recomendación secuencial basados en modelos de lenguaje grande (LLM) existentes presentan principalmente los siguientes problemas:

Modelado de Preferencias Binario: Los métodos existentes como DPO y sus variantes manejan todas las preferencias mediante comparaciones pareadas binarias, ignorando las diferencias en la intensidad de preferencia
Ausencia de Contexto Temporal: Carencia de modelado sensible al tiempo, incapacidad para distinguir entre satisfacción inmediata y satisfacción retrasada
Negligencia de Mecanismos de Decisión Humana: Falta de emulación de cómo los humanos ponderan la experiencia, la intensidad de preferencia relativa y la relevancia situacional en el proceso de decisión

Motivación de la Investigación

El comportamiento de decisión humano exhibe preferencias jerárquicas (fuerte agrado vs. ligero agrado) y sensibilidad temporal (satisfacción inmediata vs. retrasada), características ampliamente confirmadas en economía del comportamiento y ciencias cognitivas, pero ampliamente descuidadas en la alineación de preferencias de los sistemas de recomendación LLM actuales. Este artículo, a través de un estudio empírico sistemático, descubre que la integración de retroalimentación completa (incluyendo interacciones negativas) y señales de preferencia estructuradas (como calificaciones) mejora significativamente el rendimiento.

Perspectivas Centrales

A través de experimentos de prueba de concepto, los autores identifican dos factores clave:

Intensidad de Preferencia: La intensidad jerárquica de afinidad o aversión del usuario
Contexto Temporal: La inmediatez de la satisfacción

Contribuciones Principales

Contribución Teórica: Demostración sistemática de que la intensidad de preferencia y el contexto temporal son factores clave para el modelado de preferencias de grano fino en sistemas de recomendación LLM, desafiando el paradigma de preferencia binaria existente
Contribución Metodológica: Propuesta del marco RecPO, que integra estos factores mediante márgenes de recompensa adaptativos basados en intensidad de preferencia y contexto temporal
Contribución Empírica: Experimentos en cinco conjuntos de datos que demuestran que RecPO no solo mejora la precisión, sino que también exhibe características de comportamiento consistentes con preferencias humanas: priorizar satisfacción oportuna, mantener coherencia de preferencias bajo contextos cambiantes

Explicación Detallada del Método

Definición de la Tarea

Dado el historial de interacción del usuario u en el tiempo t, $H_u^t$ , y el conjunto de elementos candidatos $C = \{i^{(j)}\}_{j=1}^K$ , donde $H_u^t \cap C = \emptyset$ e $i_p^{t+1} \in C$ , el modelo $\pi_\theta$ necesita predecir el elemento $i_p^{t+1}$ que el usuario probablemente preferirá.

Método Principal: Marco RecPO

1. Margen de Recompensa Adaptativo

La innovación central de RecPO radica en definir un margen de recompensa objetivo adaptativo $\gamma_r$ , determinado dinámicamente por preferencia estructurada y novedad relativa temporal:

$\gamma_r = \lambda \frac{\phi(s_p, \Delta t_p)}{\phi(s_d, \Delta t_d)}$

Donde:

$s_p, s_d$ son respectivamente las puntuaciones de preferencia estructurada de elementos preferidos y no preferidos
$\Delta t_p = t_p^+ - t$ representa el retraso temporal de la interacción
$\phi(s, \Delta t) = s/(\Delta t)^{0.5}$ es la función de utilidad
$\lambda$ controla la magnitud del margen

2. Modelado de Distribución de Preferencias

Basado en el modelo Bradley-Terry, RecPO modela la probabilidad de preferencia como:

$P^*(y_p \succ y_d | x_u) = \sigma(r(x_u, y_p) - r(x_u, y_d) - \gamma_r)$

3. Función Objetivo

Adoptando el modelo Plackett-Luce para generalizar comparaciones pareadas a un marco de clasificación a nivel de lista, la función objetivo final es:

$L(\pi_\theta; \pi_{ref}) = -E_{(x_u,y_p,T_d)\sim D}\left[\log \sigma\left(-\log \sum_{y_d \in T_d} \exp\left(\beta \log \frac{\pi_\theta(y_d|x_u)}{\pi_{ref}(y_d|x_u)} - \beta \log \frac{\pi_\theta(y_p|x_u)}{\pi_{ref}(y_p|x_u)} - \lambda \frac{\phi(s_p,\Delta t_p)}{\phi(s_d,\Delta t_d)}\right)\right)\right]$

Puntos de Innovación Técnica

Diseño de Margen No Uniforme: A diferencia de trabajos anteriores que utilizan márgenes uniformes, RecPO ajusta dinámicamente el margen según intensidad de preferencia y distancia temporal
Utilización de Retroalimentación Completa: Retención de la secuencia de interacción completa, incluyendo retroalimentación negativa, combinada con calificaciones explícitas
Alineación con Cognición Humana: Mecanismo de modelado de preferencias diseñado basado en principios de ciencias cognitivas

Configuración Experimental

Conjuntos de Datos

Se utilizan cinco conjuntos de datos de recomendación secuencial del mundo real:

Conjuntos de Retroalimentación Explícita: MovieLens-1M, Amazon-Books, BeerAdvocate
Conjuntos de Retroalimentación Implícita: Steam, LastFM

Conjunto de Datos	Secuencias	Elementos	Interacciones
MovieLens	6,040	3,952	994,169
Amazon-Books	5,103	38,203	62,290
Steam	3,171	4,251	82,072
BeerAdvocate	4,724	6,105	91,207
LastFM	982	107,296	307,829

Métricas de Evaluación

Hit Ratio@1: Mide la proporción de elementos recomendados correctamente por el modelo
Valid Ratio: Evalúa la capacidad de seguimiento de instrucciones, cuantificando la proporción de salidas que cumplen con los requisitos de formato

Métodos de Comparación

Métodos Tradicionales: GRU4Rec, Caser, SASRec
Métodos LLM: DPO, SimPO, S-DPO
Modelos Base: LLaMA3-8B, Qwen2.5-7B

Detalles de Implementación

Tasa de aprendizaje: 1e-5, Optimizador: AdamW
Tamaño de lote: 128, Longitud de secuencia: Ajustada según conjunto de datos
Cantidad de muestras negativas: 3, Parámetro de margen λ: 2
Hardware: 8×NVIDIA RTX A100 (80GB)

Resultados Experimentales

Resultados Principales

RecPO logra el mejor rendimiento en los cinco conjuntos de datos:

Modelo	MovieLens HR@1	Amazon-Books HR@1	BeerAdvocate HR@1	Steam HR@1	LastFM HR@1
SASRec	0.2671	0.1559	0.3800	0.4587	0.6659
S-DPO	0.2902	0.5065	0.4698	0.3588	0.5719
RecPO	0.3451	0.5802	0.5771	0.4672	0.6830

Hallazgos Clave

Importancia de Retroalimentación Completa: Retener interacciones negativas mejora el rendimiento en comparación con usar solo retroalimentación positiva
Valor de Señales Estructuradas: Agregar información de calificación mejora significativamente el rendimiento
Complementariedad de Factores: El mejor rendimiento proviene de la combinación de retroalimentación completa y señales estructuradas

Experimentos de Ablación

El estudio de ablación de la función de margen muestra:

Conjunto de Datos	Log Diff	Log Ratio	RecPO (Ratio)
MovieLens	0.3160	0.3247	0.3451
Amazon-Books	0.5370	0.5455	0.5802

La función de margen basada en razón logra el mejor rendimiento en todos los conjuntos de datos.

Análisis de Comportamiento Alineado con Humanos

RecPO exhibe comportamiento alineado con humanos en cuatro dimensiones clave:

Sensibilidad al Contexto Temporal: En conjuntos de candidatos que contienen elementos de alto valor futuro, RecPO prioriza mejor elementos temporalmente apropiados
Percepción de Intensidad de Preferencia: Puede evitar recomendar elementos tentadores que finalmente reciben calificaciones bajas
Modelado de Aversión Implícita: Identifica elementos que los usuarios no prefieren sin etiquetas de aversión explícita
Robustez Entre Contextos: Mantiene rendimiento estable bajo diferentes longitudes de historial de interacción

Trabajo Relacionado

Recomendación Secuencial

Los métodos tempranos como GRU4Rec utilizan redes neuronales recurrentes, SASRec introduce mecanismos de autoatención. Los métodos recientes integran estructuras gráficas, aprendizaje contrastivo y otras técnicas.

Sistemas de Recomendación LLM

Métodos como LLaRA y TALLRec integran LLM en sistemas de recomendación, pero se enfocan principalmente en comprensión semántica en lugar de factores de grano fino en modelado de preferencias.

Técnicas de Alineación LLM

Desde RLHF hasta DPO y sus variantes (IPO, CPO, KTO, SimPO), estos métodos se enfocan principalmente en tareas genéricas de PNL, siendo S-DPO el primero en adaptar técnicas de alineación a tareas de recomendación.

Conclusiones y Discusión

Conclusiones Principales

La intensidad de preferencia y el contexto temporal son factores descuidados pero críticos en sistemas de recomendación LLM
RecPO integra efectivamente estos factores mediante márgenes de recompensa adaptativos, logrando mejora de rendimiento y alineación con comportamiento humano
El método exhibe mejoras consistentes tanto en conjuntos de retroalimentación explícita como implícita

Limitaciones

Estructura de Preferencia Simplificada: Adopta una estructura de preferencia secuencial simplificada
Factor de Contexto Único: Considera solo retraso de satisfacción como factor contextual
Limitaciones de Métricas de Evaluación: Depende principalmente de una métrica única, sin capturar patrones de comportamiento más completos

Direcciones Futuras

Modelado de Jerarquías de Preferencia Complejas: Exploración de estructuras de preferencia cognitivamente creíbles más complejas
Enriquecimiento de Factores Contextuales: Integración de más factores de influencia contextual
Marco de Evaluación Integral: Desarrollo de métricas de evaluación más integrales orientadas al comportamiento

Evaluación Profunda

Fortalezas

Identificación Precisa del Problema: Identificación clara de los problemas centrales de métodos existentes (modelado de preferencias binario)
Diseño de Método Razonable: Mecanismo de margen adaptativo diseñado basado en principios de ciencias cognitivas con base teórica sólida
Diseño Experimental Completo: Marco experimental completo que incluye prueba de concepto, experimentos principales, experimentos de ablación y análisis de comportamiento
Resultados Convincentes: Mejoras consistentes en múltiples conjuntos de datos y análisis de alineación con comportamiento humano fortalecen la persuasión

Insuficiencias

Análisis Teórico Limitado: Falta análisis teórico profundo sobre por qué este diseño de margen es efectivo
Complejidad Computacional No Discutida: No analiza el costo computacional en comparación con métodos base
Análisis de Sensibilidad de Hiperparámetros: Análisis relativamente simple de sensibilidad al parámetro clave λ
Capacidad de Generalización Limitada: Validación principalmente en tipos específicos de tareas de recomendación, generalización pendiente de verificación

Impacto

Contribución Académica: Proporciona nueva dirección de investigación y marco teórico para investigación de sistemas de recomendación LLM
Valor Práctico: Proporciona método de mejora directamente aplicable, código de código abierto mejora reproducibilidad
Significado Inspirador: Enfatiza la importancia de principios de ciencias cognitivas en diseño de sistemas de IA

Escenarios Aplicables

Sistemas de Recomendación Secuencial: Particularmente aplicable a escenarios de recomendación con secuencia temporal clara e información de calificación
Aplicaciones Personalizadas: Adecuado para servicios personalizados que requieren modelado de preferencias refinado
Recomendación Multimodal: Diseño de marco con extensibilidad, adaptable a tareas de recomendación multimodal

Referencias

Este artículo cita trabajos importantes de múltiples disciplinas incluyendo sistemas de recomendación, alineación LLM y ciencias cognitivas, incluyendo:

Métodos de recomendación clásicos: GRU4Rec, SASRec, Caser
Técnicas de alineación LLM: DPO, RLHF, SimPO
Fundamentos de ciencias cognitivas: Investigación de Astington & Jenkins (1995) sobre mecanismos de decisión humana

Evaluación General: Este es un artículo de investigación de alta calidad que demuestra excelencia en contribuciones teóricas, innovación metodológica y verificación experimental. El artículo identifica y resuelve exitosamente problemas clave en sistemas de recomendación LLM, y el marco RecPO propuesto posee sólida base teórica y valor práctico significativo. Aunque existen algunas limitaciones, sus contribuciones al campo de investigación de sistemas de recomendación y alineación LLM son notables.