2025-11-22T10:40:16.215584

What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context

Ouyang, Wen, Zhang et al.

Sequential recommendation systems aspire to profile users by interpreting their interaction histories, echoing how humans make decisions by weighing experience, relative preference strength, and situational relevance. Yet, existing large language model (LLM)-based recommenders often fall short of mimicking the flexible, context-aware decision strategies humans exhibit, neglecting the structured, dynamic, and context-aware mechanisms fundamental to human behaviors. To bridge this gap, we propose RecPO, a preference optimization framework that models structured feedback and contextual delay to emulate human-like prioritization in sequential recommendation. RecPO exploits adaptive reward margins based on inferred preference hierarchies and temporal signals, enabling the model to favor immediately relevant items and to distinguish between varying degrees of preference and aversion. Extensive experiments across five real-world datasets demonstrate that RecPO not only yields performance gains over state-of-the-art baselines, but also mirrors key characteristics of human decision-making: favoring timely satisfaction, maintaining coherent preferences, and exercising discernment under shifting contexts.

academic

Was macht LLMs zu effektiven sequenziellen Empfehlungssystemen? Eine Studie zu Präferenzintensität und zeitlichem Kontext

Grundinformationen

Paper-ID: 2506.02261
Titel: What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context
Autoren: Zhongyu Ouyang, Qianlong Wen, Chunhui Zhang, Yanfang Ye, Soroush Vosoughi
Institutionen: Dartmouth College, University of Notre Dame
Klassifizierung: cs.IR, cs.LG
Veröffentlichungsdatum: 10. Oktober 2025 (arXiv v2)
Paper-Link: https://arxiv.org/abs/2506.02261v2

Zusammenfassung

Sequenzielle Empfehlungssysteme streben danach, Benutzer zu profilieren, indem sie ihre Interaktionshistorien interpretieren, ähnlich wie Menschen Entscheidungen treffen, indem sie Erfahrung, relative Präferenzstärke und situative Relevanz abwägen. Allerdings fallen bestehende auf großen Sprachmodellen (LLMs) basierende Empfehlungssysteme oft kurz darin, die flexiblen, kontextbewussten Entscheidungsstrategien nachzuahmen, die Menschen zeigen, und vernachlässigen die strukturierten, dynamischen und kontextbewussten Mechanismen, die für menschliches Verhalten grundlegend sind. Um diese Lücke zu schließen, schlagen wir RecPO vor, ein Präferenzoptimierungsframework, das strukturiertes Feedback und zeitliche Verzögerung modelliert, um menschenähnliche Priorisierung in sequenziellen Empfehlungen nachzuahmen. RecPO nutzt adaptive Belohnungsspannen basierend auf abgeleiteten Präferenzhierarchien und zeitlichen Signalen, wodurch das Modell unmittelbar relevante Elemente bevorzugt und zwischen unterschiedlichen Graden von Vorliebe und Abneigung unterscheiden kann. Umfangreiche Experimente über fünf reale Datensätze zeigen, dass RecPO nicht nur Leistungsgewinne gegenüber modernen Baselines erzielt, sondern auch Schlüsselcharakteristiken menschlicher Entscheidungsfindung widerspiegelt: Bevorzugung zeitnaher Befriedigung, Aufrechterhaltung kohärenter Präferenzen und Urteilsvermögen unter wechselnden Kontexten.

Forschungshintergrund und Motivation

Problemdefinition

Bestehende auf großen Sprachmodellen (LLMs) basierende sequenzielle Empfehlungssysteme weisen hauptsächlich folgende Probleme auf:

Binäre Präferenzmodellierung: Bestehende Methoden wie DPO und ihre Varianten behandeln alle Präferenzen durch binäre paarweise Vergleiche und ignorieren Unterschiede in der Präferenzintensität
Fehlender zeitlicher Kontext: Mangelnde Modellierung von Zeitsensitivität, unfähig, zwischen unmittelbarer und verzögerter Befriedigung zu unterscheiden
Vernachlässigung menschlicher Entscheidungsmechanismen: Versäumnis, die komplexen Mechanismen nachzuahmen, durch die Menschen bei Entscheidungen Erfahrung, relative Präferenzstärke und situative Relevanz abwägen

Forschungsmotivation

Menschliches Entscheidungsverhalten zeigt gestaffelte Präferenzen (starke Vorliebe vs. leichte Zuneigung) und Zeitsensitivität (unmittelbar vs. verzögerte Befriedigung), Merkmale, die in Verhaltensökonomie und Kognitionswissenschaft ausreichend bestätigt sind, aber in der aktuellen Präferenzausrichtung von LLM-Empfehlungssystemen weitgehend vernachlässigt werden. Dieses Papier identifiziert durch systematische empirische Forschung zwei Schlüsselfaktoren, dass die Integration umfassenden Feedbacks (einschließlich negativer Interaktionen) und strukturierter Präferenzsignale (wie Bewertungen) die Leistung erheblich verbessert.

Kernerkenntnisse

Durch Proof-of-Concept-Experimente identifizierten die Autoren zwei kritische Faktoren:

Präferenzintensität: Gestaffelte Stärke der Zuneigung oder Abneigung eines Benutzers
Zeitlicher Kontext: Unmittelbarkeit der Befriedigung

Kernbeiträge

Theoretischer Beitrag: Systematischer Nachweis, dass Präferenzintensität und zeitlicher Kontext Schlüsselfaktoren für feinkörnige Präferenzmodellierung in LLM-Empfehlungssystemen sind, was das bestehende binäre Präferenzparadigma in Frage stellt
Methodischer Beitrag: Vorschlag des RecPO-Frameworks, das diese Faktoren durch adaptive Belohnungsspannen basierend auf Präferenzintensität und zeitlichem Kontext integriert
Empirischer Beitrag: Experimente über fünf Datensätze zeigen, dass RecPO nicht nur die Genauigkeit verbessert, sondern auch Verhaltensmerkmale zeigt, die mit menschlichen Präferenzen übereinstimmen: Priorisierung zeitnaher Befriedigung, Aufrechterhaltung von Präferenzkohärenz unter wechselnden Kontexten

Methodische Details

Aufgabendefinition

Gegeben die Interaktionshistorie $H_u^t$ eines Benutzers u zum Zeitpunkt t und eine Kandidatenmenge $C = \{i^{(j)}\}_{j=1}^K$ , wobei $H_u^t \cap C = \emptyset$ und $i_p^{t+1} \in C$ , muss das Modell $\pi_\theta$ das Element vorhersagen, das der Benutzer am wahrscheinlichsten bevorzugt: $i_p^{t+1}$ .

Kernmethode: RecPO-Framework

1. Adaptive Belohnungsspannen

Die Kernneuerung von RecPO liegt in der Definition adaptiver Zielbelohnungsspannen $\gamma_r$ , die durch strukturierte Präferenzen und relative Aktualität dynamisch bestimmt werden:

$\gamma_r = \lambda \frac{\phi(s_p, \Delta t_p)}{\phi(s_d, \Delta t_d)}$

wobei:

$s_p, s_d$ die strukturierten Präferenzwerte für bevorzugte bzw. nicht bevorzugte Elemente sind
$\Delta t_p = t_p^+ - t$ die zeitliche Verzögerung der Interaktion darstellt
$\phi(s, \Delta t) = s/(\Delta t)^{0.5}$ die Nutzenfunktion ist
$\lambda$ die Amplitude der Spanne kontrolliert

2. Präferenzverteilungsmodellierung

Basierend auf dem Bradley-Terry-Modell modelliert RecPO die Präferenzwahrscheinlichkeit als:

$P^*(y_p \succ y_d | x_u) = \sigma(r(x_u, y_p) - r(x_u, y_d) - \gamma_r)$

3. Zielfunktion

Unter Verwendung des Plackett-Luce-Modells werden paarweise Vergleiche auf ein listenebenes Ranking-Framework verallgemeinert, wobei die endgültige Zielfunktion lautet:

$L(\pi_\theta; \pi_{ref}) = -E_{(x_u,y_p,T_d)\sim D}\left[\log \sigma\left(-\log \sum_{y_d \in T_d} \exp\left(\beta \log \frac{\pi_\theta(y_d|x_u)}{\pi_{ref}(y_d|x_u)} - \beta \log \frac{\pi_\theta(y_p|x_u)}{\pi_{ref}(y_p|x_u)} - \lambda \frac{\phi(s_p,\Delta t_p)}{\phi(s_d,\Delta t_d)}\right)\right)\right]$

Technische Innovationen

Nicht-uniforme Spannenentwurf: Im Gegensatz zu früheren Arbeiten, die einheitliche Spannen verwenden, passt RecPO die Spannen dynamisch basierend auf Präferenzintensität und zeitlicher Distanz an
Umfassende Feedback-Nutzung: Beibehaltung der vollständigen Interaktionssequenz, einschließlich negativer Rückmeldungen, kombiniert mit expliziten Bewertungen
Ausrichtung mit menschlicher Kognition: Auf Prinzipien der Kognitionswissenschaft basierende Präferenzmodellierungsmechanismen

Experimentelle Einrichtung

Datensätze

Fünf reale sequenzielle Empfehlungsdatensätze werden verwendet:

Datensätze mit explizitem Feedback: MovieLens-1M, Amazon-Books, BeerAdvocate
Datensätze mit implizitem Feedback: Steam, LastFM

Datensatz	Sequenzen	Elemente	Interaktionen
MovieLens	6.040	3.952	994.169
Amazon-Books	5.103	38.203	62.290
Steam	3.171	4.251	82.072
BeerAdvocate	4.724	6.105	91.207
LastFM	982	107.296	307.829

Bewertungsmetriken

Hit Ratio@1: Misst den Anteil, in dem das Modell das richtige Element korrekt empfiehlt
Valid Ratio: Bewertet die Fähigkeit zur Anweisungsbefolgung, quantifiziert den Anteil der formatkonformen Ausgaben

Vergleichsmethoden

Traditionelle Methoden: GRU4Rec, Caser, SASRec
LLM-Methoden: DPO, SimPO, S-DPO
Basismodelle: LLaMA3-8B, Qwen2.5-7B

Implementierungsdetails

Lernrate: 1e-5, Optimierer: AdamW
Batch-Größe: 128, Sequenzlänge: datensatzabhängig angepasst
Anzahl negativer Stichproben: 3, Spannparameter λ: 2
Hardware: 8×NVIDIA RTX A100 (80GB)

Experimentelle Ergebnisse

Hauptergebnisse

RecPO erreicht auf allen fünf Datensätzen die beste Leistung:

Modell	MovieLens HR@1	Amazon-Books HR@1	BeerAdvocate HR@1	Steam HR@1	LastFM HR@1
SASRec	0,2671	0,1559	0,3800	0,4587	0,6659
S-DPO	0,2902	0,5065	0,4698	0,3588	0,5719
RecPO	0,3451	0,5802	0,5771	0,4672	0,6830

Schlüsselfunde

Wichtigkeit umfassenden Feedbacks: Beibehaltung negativer Interaktionen verbessert die Leistung gegenüber der Verwendung nur positiven Feedbacks
Wert strukturierter Signale: Das Hinzufügen von Bewertungsinformationen verbessert die Leistung erheblich
Komplementarität der Faktoren: Beste Leistung ergibt sich aus der Kombination umfassenden Feedbacks und strukturierter Signale

Ablationsstudien

Ablationsstudien zur Spannenfunktion zeigen:

Datensatz	Log Diff	Log Ratio	RecPO (Ratio)
MovieLens	0,3160	0,3247	0,3451
Amazon-Books	0,5370	0,5455	0,5802

Die verhältnisbasierte Spannenfunktion erreicht auf allen Datensätzen die beste Leistung.

Analyse menschenausgerichteter Verhaltensweisen

RecPO zeigt in vier Schlüsseldimensionen menschenausgerichtete Verhaltensweisen:

Zeitsensitivität: Bei Kandidatenmengen mit zukünftigen hochbewerteten Elementen bevorzugt RecPO zeitlich angemessene Elemente besser
Präferenzintensitätswahrnehmung: Kann verlockende Elemente vermeiden, die letztendlich niedrig bewertet werden
Implizite Abneigungsmodellierung: Kann Elemente identifizieren, die Benutzer nicht mögen, ohne explizite Ablehnungsetiketten
Kontextübergreifende Robustheit: Behält stabile Leistung über unterschiedliche Interaktionshistorienlängen bei

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Präferenzintensität und zeitlicher Kontext sind übersehene, aber kritische Faktoren in LLM-Empfehlungssystemen
RecPO integriert diese Faktoren durch adaptive Belohnungsspannen effektiv und erreicht Leistungsverbesserungen und Ausrichtung mit menschlichem Verhalten
Die Methode zeigt konsistente Verbesserungen sowohl auf Datensätzen mit explizitem als auch implizitem Feedback

Einschränkungen

Vereinfachte Präferenzstruktur: Verwendet eine vereinfachte sequenzielle Präferenzstruktur
Einzelne Kontextfaktoren: Berücksichtigt nur Befriedungsverzögerung als Kontextfaktor
Einschränkungen der Bewertungsmetriken: Stützt sich hauptsächlich auf einzelne Metriken, erfasst nicht umfassendere Verhaltensmuster

Zukünftige Richtungen

Komplexe Präferenzhierarchie-Modellierung: Erforschung komplexerer kognitiv glaubwürdiger Präferenzstrukturen
Bereichernde Kontextfaktoren: Integration zusätzlicher Kontexteinflussfaktoren
Umfassendes Bewertungsframework: Entwicklung umfassenderer verhaltensorientierter Bewertungsmetriken

Tiefgehende Bewertung

Stärken

Präzise Problemidentifikation: Klare Identifikation der Kernprobleme bestehender Methoden (binäre Präferenzmodellierung)
Rationales Methodendesign: Das auf Prinzipien der Kognitionswissenschaft basierende adaptive Spannenmechanismus-Design hat theoretische Grundlagen
Umfassende Experimentgestaltung: Vollständiges Experimentframework mit Proof-of-Concept, Hauptexperimenten, Ablationsstudien und Verhaltensanalyse
Starke Ergebnisüberzeugungskraft: Konsistente Verbesserungen über mehrere Datensätze und Verhaltensausrichtungsanalyse erhöhen die Überzeugungskraft

Mängel

Unzureichende theoretische Analyse: Mangelnde tiefgehende theoretische Analyse, warum dieses Spannenentwurf-Design wirksam ist
Nicht diskutierte Rechenkomplexität: Fehlende Analyse des Rechenaufwands im Vergleich zu Baseline-Methoden
Hyperparameter-Sensitivität: Relativ einfache Sensitivitätsanalyse für den kritischen Parameter λ
Begrenzte Generalisierungsfähigkeit: Hauptsächlich auf spezifische Arten von Empfehlungsaufgaben validiert, Generalisierungsfähigkeit bedarf weiterer Überprüfung

Auswirkungen

Akademischer Beitrag: Bietet neue Forschungsrichtungen und theoretische Rahmen für LLM-Empfehlungssystemforschung
Praktischer Wert: Bietet direkt anwendbare Verbesserungsmethoden, Open-Source-Code erhöht die Reproduzierbarkeit
Inspirationswert: Betont die Wichtigkeit von Prinzipien der Kognitionswissenschaft im KI-Systemdesign

Anwendungsszenarien

Sequenzielle Empfehlungssysteme: Besonders geeignet für Empfehlungsszenarien mit klaren Zeitsequenzen und Bewertungsinformationen
Personalisierte Anwendungen: Geeignet für Personalisierungsdienste, die feinkörnige Präferenzmodellierung erfordern
Multimodale Empfehlungen: Das Framework-Design hat Erweiterbarkeit und kann sich an multimodale Empfehlungsaufgaben anpassen

Literaturverzeichnis

Dieses Papier zitiert wichtige Arbeiten aus mehreren Bereichen wie Empfehlungssysteme, LLM-Ausrichtung und Kognitionswissenschaft, einschließlich:

Klassische Empfehlungsmethoden: GRU4Rec, SASRec, Caser
LLM-Ausrichtungstechniken: DPO, RLHF, SimPO
Kognitionswissenschaftliche Grundlagen: Astington & Jenkins (1995) zur Forschung über menschliche Entscheidungsmechanismen

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das sich in theoretischen Beiträgen, methodischen Innovationen und experimenteller Validierung auszeichnet. Das Papier identifiziert und löst erfolgreich Schlüsselprobleme in LLM-Empfehlungssystemen und schlägt das RecPO-Framework vor, das eine gute theoretische Grundlage und praktischen Wert hat. Obwohl es einige Einschränkungen gibt, sind seine Beiträge zur Forschung in Empfehlungssystemen und LLM-Ausrichtung erheblich.