2025-11-22T10:40:16.215584

What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context

Ouyang, Wen, Zhang et al.

Sequential recommendation systems aspire to profile users by interpreting their interaction histories, echoing how humans make decisions by weighing experience, relative preference strength, and situational relevance. Yet, existing large language model (LLM)-based recommenders often fall short of mimicking the flexible, context-aware decision strategies humans exhibit, neglecting the structured, dynamic, and context-aware mechanisms fundamental to human behaviors. To bridge this gap, we propose RecPO, a preference optimization framework that models structured feedback and contextual delay to emulate human-like prioritization in sequential recommendation. RecPO exploits adaptive reward margins based on inferred preference hierarchies and temporal signals, enabling the model to favor immediately relevant items and to distinguish between varying degrees of preference and aversion. Extensive experiments across five real-world datasets demonstrate that RecPO not only yields performance gains over state-of-the-art baselines, but also mirrors key characteristics of human decision-making: favoring timely satisfaction, maintaining coherent preferences, and exercising discernment under shifting contexts.

academic

Qu'est-ce qui rend les LLM efficaces en tant que recommandeurs séquentiels ? Une étude sur l'intensité des préférences et le contexte temporel

Informations de base

ID de l'article : 2506.02261
Titre : What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context
Auteurs : Zhongyu Ouyang, Qianlong Wen, Chunhui Zhang, Yanfang Ye, Soroush Vosoughi
Institutions : Dartmouth College, University of Notre Dame
Classification : cs.IR, cs.LG
Date de publication : 10 octobre 2025 (arXiv v2)
Lien de l'article : https://arxiv.org/abs/2506.02261v2

Résumé

Les systèmes de recommandation séquentielle visent à profiler les utilisateurs en interprétant leurs historiques d'interaction, reflétant la manière dont les humains prennent des décisions en pesant l'expérience, la force relative des préférences et la pertinence situationnelle. Cependant, les recommandeurs existants basés sur les grands modèles de langage (LLM) échouent souvent à imiter les stratégies de décision flexibles et conscientes du contexte que les humains exhibent, négligeant les mécanismes structurés, dynamiques et conscients du contexte fondamentaux aux comportements humains. Pour combler cette lacune, nous proposons RecPO, un cadre d'optimisation des préférences qui modélise les retours structurés et les délais contextuels pour émuler la priorisation semblable à celle des humains dans la recommandation séquentielle. RecPO exploite des marges de récompense adaptatives basées sur les hiérarchies de préférences déduites et les signaux temporels, permettant au modèle de favoriser les éléments immédiatement pertinents et de distinguer entre différents degrés de préférence et d'aversion. Des expériences approfondies sur cinq ensembles de données du monde réel démontrent que RecPO non seulement produit des gains de performance par rapport aux méthodes de pointe, mais reflète également les caractéristiques clés de la prise de décision humaine : favoriser la satisfaction immédiate, maintenir des préférences cohérentes et exercer le discernement dans des contextes changeants.

Contexte et motivation de la recherche

Définition du problème

Les systèmes de recommandation séquentielle existants basés sur les grands modèles de langage (LLM) présentent principalement les problèmes suivants :

Modélisation binaire des préférences : Les méthodes existantes telles que DPO et ses variantes traitent toutes les préférences par comparaison par paires binaires, ignorant les variations d'intensité des préférences
Absence de contexte temporel : Manque de modélisation de la sensibilité temporelle, incapacité à distinguer la satisfaction immédiate de la satisfaction différée
Négligence des mécanismes de décision humains : Incapacité à émuler la manière dont les humains pèsent l'expérience, la force relative des préférences et la pertinence situationnelle dans le processus décisionnel

Motivation de la recherche

Le comportement décisionnel humain exhibe des préférences hiérarchisées (forte préférence vs légère préférence) et une sensibilité temporelle (satisfaction immédiate vs différée), caractéristiques bien établies en économie comportementale et en sciences cognitives, mais largement négligées dans l'alignement des préférences des systèmes de recommandation LLM actuels. Cet article, par une étude empirique systématique, découvre que l'intégration de retours complets (incluant les interactions négatives) et de signaux de préférences structurés (tels que les évaluations) améliore significativement les performances.

Intuitions fondamentales

Par des expériences de preuve de concept, les auteurs identifient deux facteurs clés :

Intensité des préférences : Force graduée de l'affinité ou de l'aversion de l'utilisateur
Contexte temporel : Immédiateté de la satisfaction

Contributions fondamentales

Contribution théorique : Démonstration systématique que l'intensité des préférences et le contexte temporel sont des facteurs clés pour la modélisation fine des préférences dans les systèmes de recommandation LLM, remettant en question le paradigme binaire des préférences existant
Contribution méthodologique : Proposition du cadre RecPO, intégrant ces facteurs par des marges de récompense adaptatives basées sur l'intensité des préférences et le contexte temporel
Contribution empirique : Les expériences sur cinq ensembles de données démontrent que RecPO non seulement améliore la précision, mais exhibe également des caractéristiques comportementales alignées avec les préférences humaines : priorisation de la satisfaction immédiate, maintien de la cohérence des préférences dans des contextes changeants

Détails de la méthode

Définition de la tâche

Étant donné l'historique d'interaction d'un utilisateur u au moment t, $H_u^t$ , et un ensemble d'éléments candidats $C = \{i^{(j)}\}_{j=1}^K$ , où $H_u^t \cap C = \emptyset$ et $i_p^{t+1} \in C$ , le modèle $\pi_\theta$ doit prédire l'élément $i_p^{t+1}$ que l'utilisateur est le plus susceptible d'aimer.

Méthode fondamentale : Cadre RecPO

1. Marges de récompense adaptatives

L'innovation fondamentale de RecPO réside dans la définition d'une marge de récompense cible adaptative $\gamma_r$ , déterminée dynamiquement par les préférences structurées et la nouveauté relative :

$\gamma_r = \lambda \frac{\phi(s_p, \Delta t_p)}{\phi(s_d, \Delta t_d)}$

où :

$s_p, s_d$ sont respectivement les scores de préférences structurées des éléments préférés et non préférés
$\Delta t_p = t_p^+ - t$ représente le délai temporel de l'interaction
$\phi(s, \Delta t) = s/(\Delta t)^{0.5}$ est la fonction d'utilité
$\lambda$ contrôle l'amplitude de la marge

2. Modélisation de la distribution des préférences

Basée sur le modèle Bradley-Terry, RecPO modélise la probabilité de préférence comme :

$P^*(y_p \succ y_d | x_u) = \sigma(r(x_u, y_p) - r(x_u, y_d) - \gamma_r)$

3. Fonction objectif

Adoptant le modèle Plackett-Luce pour généraliser les comparaisons par paires en un cadre de classement au niveau de la liste, la fonction objectif finale est :

$L(\pi_\theta; \pi_{ref}) = -E_{(x_u,y_p,T_d)\sim D}\left[\log \sigma\left(-\log \sum_{y_d \in T_d} \exp\left(\beta \log \frac{\pi_\theta(y_d|x_u)}{\pi_{ref}(y_d|x_u)} - \beta \log \frac{\pi_\theta(y_p|x_u)}{\pi_{ref}(y_p|x_u)} - \lambda \frac{\phi(s_p,\Delta t_p)}{\phi(s_d,\Delta t_d)}\right)\right)\right]$

Points d'innovation technique

Conception de marges non uniformes : Contrairement aux travaux antérieurs utilisant des marges uniformes, RecPO ajuste dynamiquement les marges selon l'intensité des préférences et la distance temporelle
Utilisation de retours complets : Conservation de la séquence d'interaction complète, incluant les retours négatifs, combinée avec les évaluations explicites
Alignement avec la cognition humaine : Mécanisme de modélisation des préférences conçu selon les principes des sciences cognitives

Configuration expérimentale

Ensembles de données

Utilisation de cinq ensembles de données de recommandation séquentielle du monde réel :

Ensembles de données avec retours explicites : MovieLens-1M, Amazon-Books, BeerAdvocate
Ensembles de données avec retours implicites : Steam, LastFM

Ensemble de données	Nombre de séquences	Nombre d'éléments	Nombre d'interactions
MovieLens	6 040	3 952	994 169
Amazon-Books	5 103	38 203	62 290
Steam	3 171	4 251	82 072
BeerAdvocate	4 724	6 105	91 207
LastFM	982	107 296	307 829

Métriques d'évaluation

Taux de succès@1 : Mesure la proportion d'éléments correctement recommandés par le modèle
Ratio valide : Évalue la capacité de suivi des instructions, quantifiant les sorties conformes aux exigences de format

Méthodes de comparaison

Méthodes traditionnelles : GRU4Rec, Caser, SASRec
Méthodes LLM : DPO, SimPO, S-DPO
Modèles de base : LLaMA3-8B, Qwen2.5-7B

Détails d'implémentation

Taux d'apprentissage : 1e-5, Optimiseur : AdamW
Taille de lot : 128, Longueur de séquence : ajustée selon l'ensemble de données
Nombre d'échantillons négatifs : 3, Paramètre de marge λ : 2
Matériel : 8×NVIDIA RTX A100 (80 Go)

Résultats expérimentaux

Résultats principaux

RecPO atteint les meilleures performances sur les cinq ensembles de données :

Modèle	MovieLens HR@1	Amazon-Books HR@1	BeerAdvocate HR@1	Steam HR@1	LastFM HR@1
SASRec	0,2671	0,1559	0,3800	0,4587	0,6659
S-DPO	0,2902	0,5065	0,4698	0,3588	0,5719
RecPO	0,3451	0,5802	0,5771	0,4672	0,6830

Découvertes clés

Importance des retours complets : La conservation des interactions négatives améliore les performances par rapport à l'utilisation exclusive de retours positifs
Valeur des signaux structurés : L'ajout d'informations d'évaluation améliore significativement les performances
Complémentarité des facteurs : Les meilleures performances proviennent de la combinaison de retours complets et de signaux structurés

Étude d'ablation

L'étude d'ablation de la fonction de marge montre :

Ensemble de données	Log Diff	Log Ratio	RecPO (Ratio)
MovieLens	0,3160	0,3247	0,3451
Amazon-Books	0,5370	0,5455	0,5802

La fonction de marge basée sur le ratio atteint les meilleures performances sur tous les ensembles de données.

Analyse du comportement aligné avec l'humain

RecPO exhibe un comportement aligné avec l'humain selon quatre dimensions clés :

Sensibilité au contexte temporel : Dans les ensembles de candidats contenant des éléments hautement évalués dans le futur, RecPO recommande mieux les éléments temporellement appropriés
Perception de l'intensité des préférences : Capable d'éviter de recommander des éléments séduisants finalement peu évalués
Modélisation implicite de l'aversion : Identification des éléments que l'utilisateur n'aime pas sans étiquettes d'aversion explicites
Robustesse inter-contextes : Maintien de performances stables selon différentes longueurs d'historique d'interaction

Travaux connexes

Recommandation séquentielle

Les méthodes précoces comme GRU4Rec utilisent des réseaux de neurones récurrents, SASRec introduit les mécanismes d'auto-attention. Les méthodes récentes intègrent les structures graphiques, l'apprentissage contrastif et autres techniques.

Systèmes de recommandation LLM

Les méthodes LLaRA, TALLRec et autres intègrent les LLM aux systèmes de recommandation, mais se concentrent principalement sur la compréhension sémantique plutôt que sur les facteurs fins de la modélisation des préférences.

Techniques d'alignement LLM

De RLHF à DPO et ses variantes (IPO, CPO, KTO, SimPO), ces méthodes ciblent principalement les tâches NLP générales, S-DPO étant la première à adapter les techniques d'alignement aux tâches de recommandation.

Conclusion et discussion

Conclusions principales

L'intensité des préférences et le contexte temporel sont des facteurs négligés mais critiques dans les systèmes de recommandation LLM
RecPO intègre efficacement ces facteurs par des marges de récompense adaptatives, réalisant à la fois l'amélioration des performances et l'alignement avec le comportement humain
La méthode exhibe des améliorations cohérentes sur les ensembles de données avec retours explicites et implicites

Limitations

Structure de préférences simplifiée : Adoption d'une structure de préférences séquentielles simplifiée
Facteur contextuel unique : Considération exclusive du délai de satisfaction comme facteur contextuel
Limitations des métriques d'évaluation : Dépendance principale d'une métrique unique, incapacité à capturer des modèles comportementaux plus complets

Directions futures

Modélisation de hiérarchies de préférences complexes : Exploration de structures de préférences cognitives plus complexes et crédibles
Enrichissement des facteurs contextuels : Intégration de davantage de facteurs d'influence contextuelle
Cadre d'évaluation complet : Développement de métriques d'évaluation plus complètes orientées vers le comportement

Évaluation approfondie

Points forts

Identification précise du problème : Identification claire des problèmes fondamentaux des méthodes existantes (modélisation binaire des préférences)
Conception méthodologique rationnelle : Mécanisme de marge adaptative conçu selon les principes des sciences cognitives possédant une base théorique solide
Conception expérimentale complète : Cadre expérimental complet incluant preuve de concept, expériences principales, études d'ablation et analyses comportementales
Résultats convaincants : Améliorations cohérentes sur plusieurs ensembles de données et analyses d'alignement comportemental humain renforçant la persuasion

Insuffisances

Analyse théorique insuffisante : Manque d'analyse théorique approfondie expliquant pourquoi cette conception de marge est efficace
Complexité computationnelle non discutée : Absence d'analyse de la surcharge computationnelle par rapport aux méthodes de base
Analyse de sensibilité aux hyperparamètres : Analyse relativement simple de la sensibilité au paramètre clé λ
Capacité de généralisation limitée : Validation principalement sur des types spécifiques de tâches de recommandation, généralisation à vérifier

Impact

Contribution académique : Fournit une nouvelle direction de recherche et un cadre théorique pour la recherche sur les systèmes de recommandation LLM
Valeur pratique : Fournit une méthode d'amélioration directement applicable, l'open-source du code renforce la reproductibilité
Signification inspirante : Souligne l'importance des principes des sciences cognitives dans la conception des systèmes IA

Scénarios d'application

Systèmes de recommandation séquentielle : Particulièrement adapté aux scénarios de recommandation avec séquences temporelles claires et informations d'évaluation
Applications personnalisées : Approprié pour les services personnalisés nécessitant une modélisation fine des préférences
Recommandation multimodale : La conception du cadre possède une extensibilité, adaptable aux tâches de recommandation multimodale

Références

Cet article cite des travaux importants de multiples domaines incluant les systèmes de recommandation, l'alignement LLM et les sciences cognitives, notamment :

Méthodes de recommandation classiques : GRU4Rec, SASRec, Caser
Techniques d'alignement LLM : DPO, RLHF, SimPO
Fondations des sciences cognitives : Recherche d'Astington & Jenkins (1995) sur les mécanismes de décision humains

Évaluation générale : Ceci est un article de recherche de haute qualité, excellant dans les contributions théoriques, l'innovation méthodologique et la validation expérimentale. L'article identifie et résout avec succès les problèmes clés des systèmes de recommandation LLM, et le cadre RecPO proposé possède une base théorique solide et une valeur pratique significative. Bien que certaines limitations existent, ses contributions au domaine de la recherche sur les systèmes de recommandation et l'alignement LLM sont remarquables.