Sequential recommendation systems aspire to profile users by interpreting their interaction histories, echoing how humans make decisions by weighing experience, relative preference strength, and situational relevance. Yet, existing large language model (LLM)-based recommenders often fall short of mimicking the flexible, context-aware decision strategies humans exhibit, neglecting the structured, dynamic, and context-aware mechanisms fundamental to human behaviors. To bridge this gap, we propose RecPO, a preference optimization framework that models structured feedback and contextual delay to emulate human-like prioritization in sequential recommendation. RecPO exploits adaptive reward margins based on inferred preference hierarchies and temporal signals, enabling the model to favor immediately relevant items and to distinguish between varying degrees of preference and aversion. Extensive experiments across five real-world datasets demonstrate that RecPO not only yields performance gains over state-of-the-art baselines, but also mirrors key characteristics of human decision-making: favoring timely satisfaction, maintaining coherent preferences, and exercising discernment under shifting contexts.
- Paper-ID: 2506.02261
- Titel: What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context
- Autoren: Zhongyu Ouyang, Qianlong Wen, Chunhui Zhang, Yanfang Ye, Soroush Vosoughi
- Institutionen: Dartmouth College, University of Notre Dame
- Klassifizierung: cs.IR, cs.LG
- Veröffentlichungsdatum: 10. Oktober 2025 (arXiv v2)
- Paper-Link: https://arxiv.org/abs/2506.02261v2
Sequenzielle Empfehlungssysteme streben danach, Benutzer zu profilieren, indem sie ihre Interaktionshistorien interpretieren, ähnlich wie Menschen Entscheidungen treffen, indem sie Erfahrung, relative Präferenzstärke und situative Relevanz abwägen. Allerdings fallen bestehende auf großen Sprachmodellen (LLMs) basierende Empfehlungssysteme oft kurz darin, die flexiblen, kontextbewussten Entscheidungsstrategien nachzuahmen, die Menschen zeigen, und vernachlässigen die strukturierten, dynamischen und kontextbewussten Mechanismen, die für menschliches Verhalten grundlegend sind. Um diese Lücke zu schließen, schlagen wir RecPO vor, ein Präferenzoptimierungsframework, das strukturiertes Feedback und zeitliche Verzögerung modelliert, um menschenähnliche Priorisierung in sequenziellen Empfehlungen nachzuahmen. RecPO nutzt adaptive Belohnungsspannen basierend auf abgeleiteten Präferenzhierarchien und zeitlichen Signalen, wodurch das Modell unmittelbar relevante Elemente bevorzugt und zwischen unterschiedlichen Graden von Vorliebe und Abneigung unterscheiden kann. Umfangreiche Experimente über fünf reale Datensätze zeigen, dass RecPO nicht nur Leistungsgewinne gegenüber modernen Baselines erzielt, sondern auch Schlüsselcharakteristiken menschlicher Entscheidungsfindung widerspiegelt: Bevorzugung zeitnaher Befriedigung, Aufrechterhaltung kohärenter Präferenzen und Urteilsvermögen unter wechselnden Kontexten.
Bestehende auf großen Sprachmodellen (LLMs) basierende sequenzielle Empfehlungssysteme weisen hauptsächlich folgende Probleme auf:
- Binäre Präferenzmodellierung: Bestehende Methoden wie DPO und ihre Varianten behandeln alle Präferenzen durch binäre paarweise Vergleiche und ignorieren Unterschiede in der Präferenzintensität
- Fehlender zeitlicher Kontext: Mangelnde Modellierung von Zeitsensitivität, unfähig, zwischen unmittelbarer und verzögerter Befriedigung zu unterscheiden
- Vernachlässigung menschlicher Entscheidungsmechanismen: Versäumnis, die komplexen Mechanismen nachzuahmen, durch die Menschen bei Entscheidungen Erfahrung, relative Präferenzstärke und situative Relevanz abwägen
Menschliches Entscheidungsverhalten zeigt gestaffelte Präferenzen (starke Vorliebe vs. leichte Zuneigung) und Zeitsensitivität (unmittelbar vs. verzögerte Befriedigung), Merkmale, die in Verhaltensökonomie und Kognitionswissenschaft ausreichend bestätigt sind, aber in der aktuellen Präferenzausrichtung von LLM-Empfehlungssystemen weitgehend vernachlässigt werden. Dieses Papier identifiziert durch systematische empirische Forschung zwei Schlüsselfaktoren, dass die Integration umfassenden Feedbacks (einschließlich negativer Interaktionen) und strukturierter Präferenzsignale (wie Bewertungen) die Leistung erheblich verbessert.
Durch Proof-of-Concept-Experimente identifizierten die Autoren zwei kritische Faktoren:
- Präferenzintensität: Gestaffelte Stärke der Zuneigung oder Abneigung eines Benutzers
- Zeitlicher Kontext: Unmittelbarkeit der Befriedigung
- Theoretischer Beitrag: Systematischer Nachweis, dass Präferenzintensität und zeitlicher Kontext Schlüsselfaktoren für feinkörnige Präferenzmodellierung in LLM-Empfehlungssystemen sind, was das bestehende binäre Präferenzparadigma in Frage stellt
- Methodischer Beitrag: Vorschlag des RecPO-Frameworks, das diese Faktoren durch adaptive Belohnungsspannen basierend auf Präferenzintensität und zeitlichem Kontext integriert
- Empirischer Beitrag: Experimente über fünf Datensätze zeigen, dass RecPO nicht nur die Genauigkeit verbessert, sondern auch Verhaltensmerkmale zeigt, die mit menschlichen Präferenzen übereinstimmen: Priorisierung zeitnaher Befriedigung, Aufrechterhaltung von Präferenzkohärenz unter wechselnden Kontexten
Gegeben die Interaktionshistorie Hut eines Benutzers u zum Zeitpunkt t und eine Kandidatenmenge C={i(j)}j=1K, wobei Hut∩C=∅ und ipt+1∈C, muss das Modell πθ das Element vorhersagen, das der Benutzer am wahrscheinlichsten bevorzugt: ipt+1.
Die Kernneuerung von RecPO liegt in der Definition adaptiver Zielbelohnungsspannen γr, die durch strukturierte Präferenzen und relative Aktualität dynamisch bestimmt werden:
γr=λϕ(sd,Δtd)ϕ(sp,Δtp)
wobei:
- sp,sd die strukturierten Präferenzwerte für bevorzugte bzw. nicht bevorzugte Elemente sind
- Δtp=tp+−t die zeitliche Verzögerung der Interaktion darstellt
- ϕ(s,Δt)=s/(Δt)0.5 die Nutzenfunktion ist
- λ die Amplitude der Spanne kontrolliert
Basierend auf dem Bradley-Terry-Modell modelliert RecPO die Präferenzwahrscheinlichkeit als:
P∗(yp≻yd∣xu)=σ(r(xu,yp)−r(xu,yd)−γr)
Unter Verwendung des Plackett-Luce-Modells werden paarweise Vergleiche auf ein listenebenes Ranking-Framework verallgemeinert, wobei die endgültige Zielfunktion lautet:
L(πθ;πref)=−E(xu,yp,Td)∼D[logσ(−log∑yd∈Tdexp(βlogπref(yd∣xu)πθ(yd∣xu)−βlogπref(yp∣xu)πθ(yp∣xu)−λϕ(sd,Δtd)ϕ(sp,Δtp)))]
- Nicht-uniforme Spannenentwurf: Im Gegensatz zu früheren Arbeiten, die einheitliche Spannen verwenden, passt RecPO die Spannen dynamisch basierend auf Präferenzintensität und zeitlicher Distanz an
- Umfassende Feedback-Nutzung: Beibehaltung der vollständigen Interaktionssequenz, einschließlich negativer Rückmeldungen, kombiniert mit expliziten Bewertungen
- Ausrichtung mit menschlicher Kognition: Auf Prinzipien der Kognitionswissenschaft basierende Präferenzmodellierungsmechanismen
Fünf reale sequenzielle Empfehlungsdatensätze werden verwendet:
- Datensätze mit explizitem Feedback: MovieLens-1M, Amazon-Books, BeerAdvocate
- Datensätze mit implizitem Feedback: Steam, LastFM
| Datensatz | Sequenzen | Elemente | Interaktionen |
|---|
| MovieLens | 6.040 | 3.952 | 994.169 |
| Amazon-Books | 5.103 | 38.203 | 62.290 |
| Steam | 3.171 | 4.251 | 82.072 |
| BeerAdvocate | 4.724 | 6.105 | 91.207 |
| LastFM | 982 | 107.296 | 307.829 |
- Hit Ratio@1: Misst den Anteil, in dem das Modell das richtige Element korrekt empfiehlt
- Valid Ratio: Bewertet die Fähigkeit zur Anweisungsbefolgung, quantifiziert den Anteil der formatkonformen Ausgaben
- Traditionelle Methoden: GRU4Rec, Caser, SASRec
- LLM-Methoden: DPO, SimPO, S-DPO
- Basismodelle: LLaMA3-8B, Qwen2.5-7B
- Lernrate: 1e-5, Optimierer: AdamW
- Batch-Größe: 128, Sequenzlänge: datensatzabhängig angepasst
- Anzahl negativer Stichproben: 3, Spannparameter λ: 2
- Hardware: 8×NVIDIA RTX A100 (80GB)
RecPO erreicht auf allen fünf Datensätzen die beste Leistung:
| Modell | MovieLens HR@1 | Amazon-Books HR@1 | BeerAdvocate HR@1 | Steam HR@1 | LastFM HR@1 |
|---|
| SASRec | 0,2671 | 0,1559 | 0,3800 | 0,4587 | 0,6659 |
| S-DPO | 0,2902 | 0,5065 | 0,4698 | 0,3588 | 0,5719 |
| RecPO | 0,3451 | 0,5802 | 0,5771 | 0,4672 | 0,6830 |
- Wichtigkeit umfassenden Feedbacks: Beibehaltung negativer Interaktionen verbessert die Leistung gegenüber der Verwendung nur positiven Feedbacks
- Wert strukturierter Signale: Das Hinzufügen von Bewertungsinformationen verbessert die Leistung erheblich
- Komplementarität der Faktoren: Beste Leistung ergibt sich aus der Kombination umfassenden Feedbacks und strukturierter Signale
Ablationsstudien zur Spannenfunktion zeigen:
| Datensatz | Log Diff | Log Ratio | RecPO (Ratio) |
|---|
| MovieLens | 0,3160 | 0,3247 | 0,3451 |
| Amazon-Books | 0,5370 | 0,5455 | 0,5802 |
Die verhältnisbasierte Spannenfunktion erreicht auf allen Datensätzen die beste Leistung.
RecPO zeigt in vier Schlüsseldimensionen menschenausgerichtete Verhaltensweisen:
- Zeitsensitivität: Bei Kandidatenmengen mit zukünftigen hochbewerteten Elementen bevorzugt RecPO zeitlich angemessene Elemente besser
- Präferenzintensitätswahrnehmung: Kann verlockende Elemente vermeiden, die letztendlich niedrig bewertet werden
- Implizite Abneigungsmodellierung: Kann Elemente identifizieren, die Benutzer nicht mögen, ohne explizite Ablehnungsetiketten
- Kontextübergreifende Robustheit: Behält stabile Leistung über unterschiedliche Interaktionshistorienlängen bei
Frühe Methoden wie GRU4Rec verwenden rekurrente neuronale Netze, SASRec führt Self-Attention-Mechanismen ein. Neuere Methoden integrieren Graphstrukturen, kontrastives Lernen und andere Techniken.
Methoden wie LLaRA und TALLRec integrieren LLMs in Empfehlungssysteme, konzentrieren sich aber hauptsächlich auf semantisches Verständnis statt auf feinkörnige Faktoren der Präferenzmodellierung.
Von RLHF bis DPO und seinen Varianten (IPO, CPO, KTO, SimPO) konzentrieren sich diese Methoden hauptsächlich auf allgemeine NLP-Aufgaben, während S-DPO erstmals Ausrichtungstechniken für Empfehlungsaufgaben anpasst.
- Präferenzintensität und zeitlicher Kontext sind übersehene, aber kritische Faktoren in LLM-Empfehlungssystemen
- RecPO integriert diese Faktoren durch adaptive Belohnungsspannen effektiv und erreicht Leistungsverbesserungen und Ausrichtung mit menschlichem Verhalten
- Die Methode zeigt konsistente Verbesserungen sowohl auf Datensätzen mit explizitem als auch implizitem Feedback
- Vereinfachte Präferenzstruktur: Verwendet eine vereinfachte sequenzielle Präferenzstruktur
- Einzelne Kontextfaktoren: Berücksichtigt nur Befriedungsverzögerung als Kontextfaktor
- Einschränkungen der Bewertungsmetriken: Stützt sich hauptsächlich auf einzelne Metriken, erfasst nicht umfassendere Verhaltensmuster
- Komplexe Präferenzhierarchie-Modellierung: Erforschung komplexerer kognitiv glaubwürdiger Präferenzstrukturen
- Bereichernde Kontextfaktoren: Integration zusätzlicher Kontexteinflussfaktoren
- Umfassendes Bewertungsframework: Entwicklung umfassenderer verhaltensorientierter Bewertungsmetriken
- Präzise Problemidentifikation: Klare Identifikation der Kernprobleme bestehender Methoden (binäre Präferenzmodellierung)
- Rationales Methodendesign: Das auf Prinzipien der Kognitionswissenschaft basierende adaptive Spannenmechanismus-Design hat theoretische Grundlagen
- Umfassende Experimentgestaltung: Vollständiges Experimentframework mit Proof-of-Concept, Hauptexperimenten, Ablationsstudien und Verhaltensanalyse
- Starke Ergebnisüberzeugungskraft: Konsistente Verbesserungen über mehrere Datensätze und Verhaltensausrichtungsanalyse erhöhen die Überzeugungskraft
- Unzureichende theoretische Analyse: Mangelnde tiefgehende theoretische Analyse, warum dieses Spannenentwurf-Design wirksam ist
- Nicht diskutierte Rechenkomplexität: Fehlende Analyse des Rechenaufwands im Vergleich zu Baseline-Methoden
- Hyperparameter-Sensitivität: Relativ einfache Sensitivitätsanalyse für den kritischen Parameter λ
- Begrenzte Generalisierungsfähigkeit: Hauptsächlich auf spezifische Arten von Empfehlungsaufgaben validiert, Generalisierungsfähigkeit bedarf weiterer Überprüfung
- Akademischer Beitrag: Bietet neue Forschungsrichtungen und theoretische Rahmen für LLM-Empfehlungssystemforschung
- Praktischer Wert: Bietet direkt anwendbare Verbesserungsmethoden, Open-Source-Code erhöht die Reproduzierbarkeit
- Inspirationswert: Betont die Wichtigkeit von Prinzipien der Kognitionswissenschaft im KI-Systemdesign
- Sequenzielle Empfehlungssysteme: Besonders geeignet für Empfehlungsszenarien mit klaren Zeitsequenzen und Bewertungsinformationen
- Personalisierte Anwendungen: Geeignet für Personalisierungsdienste, die feinkörnige Präferenzmodellierung erfordern
- Multimodale Empfehlungen: Das Framework-Design hat Erweiterbarkeit und kann sich an multimodale Empfehlungsaufgaben anpassen
Dieses Papier zitiert wichtige Arbeiten aus mehreren Bereichen wie Empfehlungssysteme, LLM-Ausrichtung und Kognitionswissenschaft, einschließlich:
- Klassische Empfehlungsmethoden: GRU4Rec, SASRec, Caser
- LLM-Ausrichtungstechniken: DPO, RLHF, SimPO
- Kognitionswissenschaftliche Grundlagen: Astington & Jenkins (1995) zur Forschung über menschliche Entscheidungsmechanismen
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das sich in theoretischen Beiträgen, methodischen Innovationen und experimenteller Validierung auszeichnet. Das Papier identifiziert und löst erfolgreich Schlüsselprobleme in LLM-Empfehlungssystemen und schlägt das RecPO-Framework vor, das eine gute theoretische Grundlage und praktischen Wert hat. Obwohl es einige Einschränkungen gibt, sind seine Beiträge zur Forschung in Empfehlungssystemen und LLM-Ausrichtung erheblich.