Sequential recommendation systems aspire to profile users by interpreting their interaction histories, echoing how humans make decisions by weighing experience, relative preference strength, and situational relevance. Yet, existing large language model (LLM)-based recommenders often fall short of mimicking the flexible, context-aware decision strategies humans exhibit, neglecting the structured, dynamic, and context-aware mechanisms fundamental to human behaviors. To bridge this gap, we propose RecPO, a preference optimization framework that models structured feedback and contextual delay to emulate human-like prioritization in sequential recommendation. RecPO exploits adaptive reward margins based on inferred preference hierarchies and temporal signals, enabling the model to favor immediately relevant items and to distinguish between varying degrees of preference and aversion. Extensive experiments across five real-world datasets demonstrate that RecPO not only yields performance gains over state-of-the-art baselines, but also mirrors key characteristics of human decision-making: favoring timely satisfaction, maintaining coherent preferences, and exercising discernment under shifting contexts.
Qu'est-ce qui rend les LLM efficaces en tant que recommandeurs séquentiels ? Une étude sur l'intensité des préférences et le contexte temporel
- ID de l'article : 2506.02261
- Titre : What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context
- Auteurs : Zhongyu Ouyang, Qianlong Wen, Chunhui Zhang, Yanfang Ye, Soroush Vosoughi
- Institutions : Dartmouth College, University of Notre Dame
- Classification : cs.IR, cs.LG
- Date de publication : 10 octobre 2025 (arXiv v2)
- Lien de l'article : https://arxiv.org/abs/2506.02261v2
Les systèmes de recommandation séquentielle visent à profiler les utilisateurs en interprétant leurs historiques d'interaction, reflétant la manière dont les humains prennent des décisions en pesant l'expérience, la force relative des préférences et la pertinence situationnelle. Cependant, les recommandeurs existants basés sur les grands modèles de langage (LLM) échouent souvent à imiter les stratégies de décision flexibles et conscientes du contexte que les humains exhibent, négligeant les mécanismes structurés, dynamiques et conscients du contexte fondamentaux aux comportements humains. Pour combler cette lacune, nous proposons RecPO, un cadre d'optimisation des préférences qui modélise les retours structurés et les délais contextuels pour émuler la priorisation semblable à celle des humains dans la recommandation séquentielle. RecPO exploite des marges de récompense adaptatives basées sur les hiérarchies de préférences déduites et les signaux temporels, permettant au modèle de favoriser les éléments immédiatement pertinents et de distinguer entre différents degrés de préférence et d'aversion. Des expériences approfondies sur cinq ensembles de données du monde réel démontrent que RecPO non seulement produit des gains de performance par rapport aux méthodes de pointe, mais reflète également les caractéristiques clés de la prise de décision humaine : favoriser la satisfaction immédiate, maintenir des préférences cohérentes et exercer le discernement dans des contextes changeants.
Les systèmes de recommandation séquentielle existants basés sur les grands modèles de langage (LLM) présentent principalement les problèmes suivants :
- Modélisation binaire des préférences : Les méthodes existantes telles que DPO et ses variantes traitent toutes les préférences par comparaison par paires binaires, ignorant les variations d'intensité des préférences
- Absence de contexte temporel : Manque de modélisation de la sensibilité temporelle, incapacité à distinguer la satisfaction immédiate de la satisfaction différée
- Négligence des mécanismes de décision humains : Incapacité à émuler la manière dont les humains pèsent l'expérience, la force relative des préférences et la pertinence situationnelle dans le processus décisionnel
Le comportement décisionnel humain exhibe des préférences hiérarchisées (forte préférence vs légère préférence) et une sensibilité temporelle (satisfaction immédiate vs différée), caractéristiques bien établies en économie comportementale et en sciences cognitives, mais largement négligées dans l'alignement des préférences des systèmes de recommandation LLM actuels. Cet article, par une étude empirique systématique, découvre que l'intégration de retours complets (incluant les interactions négatives) et de signaux de préférences structurés (tels que les évaluations) améliore significativement les performances.
Par des expériences de preuve de concept, les auteurs identifient deux facteurs clés :
- Intensité des préférences : Force graduée de l'affinité ou de l'aversion de l'utilisateur
- Contexte temporel : Immédiateté de la satisfaction
- Contribution théorique : Démonstration systématique que l'intensité des préférences et le contexte temporel sont des facteurs clés pour la modélisation fine des préférences dans les systèmes de recommandation LLM, remettant en question le paradigme binaire des préférences existant
- Contribution méthodologique : Proposition du cadre RecPO, intégrant ces facteurs par des marges de récompense adaptatives basées sur l'intensité des préférences et le contexte temporel
- Contribution empirique : Les expériences sur cinq ensembles de données démontrent que RecPO non seulement améliore la précision, mais exhibe également des caractéristiques comportementales alignées avec les préférences humaines : priorisation de la satisfaction immédiate, maintien de la cohérence des préférences dans des contextes changeants
Étant donné l'historique d'interaction d'un utilisateur u au moment t, Hut, et un ensemble d'éléments candidats C={i(j)}j=1K, où Hut∩C=∅ et ipt+1∈C, le modèle πθ doit prédire l'élément ipt+1 que l'utilisateur est le plus susceptible d'aimer.
L'innovation fondamentale de RecPO réside dans la définition d'une marge de récompense cible adaptative γr, déterminée dynamiquement par les préférences structurées et la nouveauté relative :
γr=λϕ(sd,Δtd)ϕ(sp,Δtp)
où :
- sp,sd sont respectivement les scores de préférences structurées des éléments préférés et non préférés
- Δtp=tp+−t représente le délai temporel de l'interaction
- ϕ(s,Δt)=s/(Δt)0.5 est la fonction d'utilité
- λ contrôle l'amplitude de la marge
Basée sur le modèle Bradley-Terry, RecPO modélise la probabilité de préférence comme :
P∗(yp≻yd∣xu)=σ(r(xu,yp)−r(xu,yd)−γr)
Adoptant le modèle Plackett-Luce pour généraliser les comparaisons par paires en un cadre de classement au niveau de la liste, la fonction objectif finale est :
L(πθ;πref)=−E(xu,yp,Td)∼D[logσ(−log∑yd∈Tdexp(βlogπref(yd∣xu)πθ(yd∣xu)−βlogπref(yp∣xu)πθ(yp∣xu)−λϕ(sd,Δtd)ϕ(sp,Δtp)))]
- Conception de marges non uniformes : Contrairement aux travaux antérieurs utilisant des marges uniformes, RecPO ajuste dynamiquement les marges selon l'intensité des préférences et la distance temporelle
- Utilisation de retours complets : Conservation de la séquence d'interaction complète, incluant les retours négatifs, combinée avec les évaluations explicites
- Alignement avec la cognition humaine : Mécanisme de modélisation des préférences conçu selon les principes des sciences cognitives
Utilisation de cinq ensembles de données de recommandation séquentielle du monde réel :
- Ensembles de données avec retours explicites : MovieLens-1M, Amazon-Books, BeerAdvocate
- Ensembles de données avec retours implicites : Steam, LastFM
| Ensemble de données | Nombre de séquences | Nombre d'éléments | Nombre d'interactions |
|---|
| MovieLens | 6 040 | 3 952 | 994 169 |
| Amazon-Books | 5 103 | 38 203 | 62 290 |
| Steam | 3 171 | 4 251 | 82 072 |
| BeerAdvocate | 4 724 | 6 105 | 91 207 |
| LastFM | 982 | 107 296 | 307 829 |
- Taux de succès@1 : Mesure la proportion d'éléments correctement recommandés par le modèle
- Ratio valide : Évalue la capacité de suivi des instructions, quantifiant les sorties conformes aux exigences de format
- Méthodes traditionnelles : GRU4Rec, Caser, SASRec
- Méthodes LLM : DPO, SimPO, S-DPO
- Modèles de base : LLaMA3-8B, Qwen2.5-7B
- Taux d'apprentissage : 1e-5, Optimiseur : AdamW
- Taille de lot : 128, Longueur de séquence : ajustée selon l'ensemble de données
- Nombre d'échantillons négatifs : 3, Paramètre de marge λ : 2
- Matériel : 8×NVIDIA RTX A100 (80 Go)
RecPO atteint les meilleures performances sur les cinq ensembles de données :
| Modèle | MovieLens HR@1 | Amazon-Books HR@1 | BeerAdvocate HR@1 | Steam HR@1 | LastFM HR@1 |
|---|
| SASRec | 0,2671 | 0,1559 | 0,3800 | 0,4587 | 0,6659 |
| S-DPO | 0,2902 | 0,5065 | 0,4698 | 0,3588 | 0,5719 |
| RecPO | 0,3451 | 0,5802 | 0,5771 | 0,4672 | 0,6830 |
- Importance des retours complets : La conservation des interactions négatives améliore les performances par rapport à l'utilisation exclusive de retours positifs
- Valeur des signaux structurés : L'ajout d'informations d'évaluation améliore significativement les performances
- Complémentarité des facteurs : Les meilleures performances proviennent de la combinaison de retours complets et de signaux structurés
L'étude d'ablation de la fonction de marge montre :
| Ensemble de données | Log Diff | Log Ratio | RecPO (Ratio) |
|---|
| MovieLens | 0,3160 | 0,3247 | 0,3451 |
| Amazon-Books | 0,5370 | 0,5455 | 0,5802 |
La fonction de marge basée sur le ratio atteint les meilleures performances sur tous les ensembles de données.
RecPO exhibe un comportement aligné avec l'humain selon quatre dimensions clés :
- Sensibilité au contexte temporel : Dans les ensembles de candidats contenant des éléments hautement évalués dans le futur, RecPO recommande mieux les éléments temporellement appropriés
- Perception de l'intensité des préférences : Capable d'éviter de recommander des éléments séduisants finalement peu évalués
- Modélisation implicite de l'aversion : Identification des éléments que l'utilisateur n'aime pas sans étiquettes d'aversion explicites
- Robustesse inter-contextes : Maintien de performances stables selon différentes longueurs d'historique d'interaction
Les méthodes précoces comme GRU4Rec utilisent des réseaux de neurones récurrents, SASRec introduit les mécanismes d'auto-attention. Les méthodes récentes intègrent les structures graphiques, l'apprentissage contrastif et autres techniques.
Les méthodes LLaRA, TALLRec et autres intègrent les LLM aux systèmes de recommandation, mais se concentrent principalement sur la compréhension sémantique plutôt que sur les facteurs fins de la modélisation des préférences.
De RLHF à DPO et ses variantes (IPO, CPO, KTO, SimPO), ces méthodes ciblent principalement les tâches NLP générales, S-DPO étant la première à adapter les techniques d'alignement aux tâches de recommandation.
- L'intensité des préférences et le contexte temporel sont des facteurs négligés mais critiques dans les systèmes de recommandation LLM
- RecPO intègre efficacement ces facteurs par des marges de récompense adaptatives, réalisant à la fois l'amélioration des performances et l'alignement avec le comportement humain
- La méthode exhibe des améliorations cohérentes sur les ensembles de données avec retours explicites et implicites
- Structure de préférences simplifiée : Adoption d'une structure de préférences séquentielles simplifiée
- Facteur contextuel unique : Considération exclusive du délai de satisfaction comme facteur contextuel
- Limitations des métriques d'évaluation : Dépendance principale d'une métrique unique, incapacité à capturer des modèles comportementaux plus complets
- Modélisation de hiérarchies de préférences complexes : Exploration de structures de préférences cognitives plus complexes et crédibles
- Enrichissement des facteurs contextuels : Intégration de davantage de facteurs d'influence contextuelle
- Cadre d'évaluation complet : Développement de métriques d'évaluation plus complètes orientées vers le comportement
- Identification précise du problème : Identification claire des problèmes fondamentaux des méthodes existantes (modélisation binaire des préférences)
- Conception méthodologique rationnelle : Mécanisme de marge adaptative conçu selon les principes des sciences cognitives possédant une base théorique solide
- Conception expérimentale complète : Cadre expérimental complet incluant preuve de concept, expériences principales, études d'ablation et analyses comportementales
- Résultats convaincants : Améliorations cohérentes sur plusieurs ensembles de données et analyses d'alignement comportemental humain renforçant la persuasion
- Analyse théorique insuffisante : Manque d'analyse théorique approfondie expliquant pourquoi cette conception de marge est efficace
- Complexité computationnelle non discutée : Absence d'analyse de la surcharge computationnelle par rapport aux méthodes de base
- Analyse de sensibilité aux hyperparamètres : Analyse relativement simple de la sensibilité au paramètre clé λ
- Capacité de généralisation limitée : Validation principalement sur des types spécifiques de tâches de recommandation, généralisation à vérifier
- Contribution académique : Fournit une nouvelle direction de recherche et un cadre théorique pour la recherche sur les systèmes de recommandation LLM
- Valeur pratique : Fournit une méthode d'amélioration directement applicable, l'open-source du code renforce la reproductibilité
- Signification inspirante : Souligne l'importance des principes des sciences cognitives dans la conception des systèmes IA
- Systèmes de recommandation séquentielle : Particulièrement adapté aux scénarios de recommandation avec séquences temporelles claires et informations d'évaluation
- Applications personnalisées : Approprié pour les services personnalisés nécessitant une modélisation fine des préférences
- Recommandation multimodale : La conception du cadre possède une extensibilité, adaptable aux tâches de recommandation multimodale
Cet article cite des travaux importants de multiples domaines incluant les systèmes de recommandation, l'alignement LLM et les sciences cognitives, notamment :
- Méthodes de recommandation classiques : GRU4Rec, SASRec, Caser
- Techniques d'alignement LLM : DPO, RLHF, SimPO
- Fondations des sciences cognitives : Recherche d'Astington & Jenkins (1995) sur les mécanismes de décision humains
Évaluation générale : Ceci est un article de recherche de haute qualité, excellant dans les contributions théoriques, l'innovation méthodologique et la validation expérimentale. L'article identifie et résout avec succès les problèmes clés des systèmes de recommandation LLM, et le cadre RecPO proposé possède une base théorique solide et une valeur pratique significative. Bien que certaines limitations existent, ses contributions au domaine de la recherche sur les systèmes de recommandation et l'alignement LLM sont remarquables.