2025-11-22T10:40:16.215584

What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context

Ouyang, Wen, Zhang et al.
Sequential recommendation systems aspire to profile users by interpreting their interaction histories, echoing how humans make decisions by weighing experience, relative preference strength, and situational relevance. Yet, existing large language model (LLM)-based recommenders often fall short of mimicking the flexible, context-aware decision strategies humans exhibit, neglecting the structured, dynamic, and context-aware mechanisms fundamental to human behaviors. To bridge this gap, we propose RecPO, a preference optimization framework that models structured feedback and contextual delay to emulate human-like prioritization in sequential recommendation. RecPO exploits adaptive reward margins based on inferred preference hierarchies and temporal signals, enabling the model to favor immediately relevant items and to distinguish between varying degrees of preference and aversion. Extensive experiments across five real-world datasets demonstrate that RecPO not only yields performance gains over state-of-the-art baselines, but also mirrors key characteristics of human decision-making: favoring timely satisfaction, maintaining coherent preferences, and exercising discernment under shifting contexts.
academic

Was macht LLMs zu effektiven sequenziellen Empfehlungssystemen? Eine Studie zu Präferenzintensität und zeitlichem Kontext

Grundinformationen

  • Paper-ID: 2506.02261
  • Titel: What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context
  • Autoren: Zhongyu Ouyang, Qianlong Wen, Chunhui Zhang, Yanfang Ye, Soroush Vosoughi
  • Institutionen: Dartmouth College, University of Notre Dame
  • Klassifizierung: cs.IR, cs.LG
  • Veröffentlichungsdatum: 10. Oktober 2025 (arXiv v2)
  • Paper-Link: https://arxiv.org/abs/2506.02261v2

Zusammenfassung

Sequenzielle Empfehlungssysteme streben danach, Benutzer zu profilieren, indem sie ihre Interaktionshistorien interpretieren, ähnlich wie Menschen Entscheidungen treffen, indem sie Erfahrung, relative Präferenzstärke und situative Relevanz abwägen. Allerdings fallen bestehende auf großen Sprachmodellen (LLMs) basierende Empfehlungssysteme oft kurz darin, die flexiblen, kontextbewussten Entscheidungsstrategien nachzuahmen, die Menschen zeigen, und vernachlässigen die strukturierten, dynamischen und kontextbewussten Mechanismen, die für menschliches Verhalten grundlegend sind. Um diese Lücke zu schließen, schlagen wir RecPO vor, ein Präferenzoptimierungsframework, das strukturiertes Feedback und zeitliche Verzögerung modelliert, um menschenähnliche Priorisierung in sequenziellen Empfehlungen nachzuahmen. RecPO nutzt adaptive Belohnungsspannen basierend auf abgeleiteten Präferenzhierarchien und zeitlichen Signalen, wodurch das Modell unmittelbar relevante Elemente bevorzugt und zwischen unterschiedlichen Graden von Vorliebe und Abneigung unterscheiden kann. Umfangreiche Experimente über fünf reale Datensätze zeigen, dass RecPO nicht nur Leistungsgewinne gegenüber modernen Baselines erzielt, sondern auch Schlüsselcharakteristiken menschlicher Entscheidungsfindung widerspiegelt: Bevorzugung zeitnaher Befriedigung, Aufrechterhaltung kohärenter Präferenzen und Urteilsvermögen unter wechselnden Kontexten.

Forschungshintergrund und Motivation

Problemdefinition

Bestehende auf großen Sprachmodellen (LLMs) basierende sequenzielle Empfehlungssysteme weisen hauptsächlich folgende Probleme auf:

  1. Binäre Präferenzmodellierung: Bestehende Methoden wie DPO und ihre Varianten behandeln alle Präferenzen durch binäre paarweise Vergleiche und ignorieren Unterschiede in der Präferenzintensität
  2. Fehlender zeitlicher Kontext: Mangelnde Modellierung von Zeitsensitivität, unfähig, zwischen unmittelbarer und verzögerter Befriedigung zu unterscheiden
  3. Vernachlässigung menschlicher Entscheidungsmechanismen: Versäumnis, die komplexen Mechanismen nachzuahmen, durch die Menschen bei Entscheidungen Erfahrung, relative Präferenzstärke und situative Relevanz abwägen

Forschungsmotivation

Menschliches Entscheidungsverhalten zeigt gestaffelte Präferenzen (starke Vorliebe vs. leichte Zuneigung) und Zeitsensitivität (unmittelbar vs. verzögerte Befriedigung), Merkmale, die in Verhaltensökonomie und Kognitionswissenschaft ausreichend bestätigt sind, aber in der aktuellen Präferenzausrichtung von LLM-Empfehlungssystemen weitgehend vernachlässigt werden. Dieses Papier identifiziert durch systematische empirische Forschung zwei Schlüsselfaktoren, dass die Integration umfassenden Feedbacks (einschließlich negativer Interaktionen) und strukturierter Präferenzsignale (wie Bewertungen) die Leistung erheblich verbessert.

Kernerkenntnisse

Durch Proof-of-Concept-Experimente identifizierten die Autoren zwei kritische Faktoren:

  • Präferenzintensität: Gestaffelte Stärke der Zuneigung oder Abneigung eines Benutzers
  • Zeitlicher Kontext: Unmittelbarkeit der Befriedigung

Kernbeiträge

  1. Theoretischer Beitrag: Systematischer Nachweis, dass Präferenzintensität und zeitlicher Kontext Schlüsselfaktoren für feinkörnige Präferenzmodellierung in LLM-Empfehlungssystemen sind, was das bestehende binäre Präferenzparadigma in Frage stellt
  2. Methodischer Beitrag: Vorschlag des RecPO-Frameworks, das diese Faktoren durch adaptive Belohnungsspannen basierend auf Präferenzintensität und zeitlichem Kontext integriert
  3. Empirischer Beitrag: Experimente über fünf Datensätze zeigen, dass RecPO nicht nur die Genauigkeit verbessert, sondern auch Verhaltensmerkmale zeigt, die mit menschlichen Präferenzen übereinstimmen: Priorisierung zeitnaher Befriedigung, Aufrechterhaltung von Präferenzkohärenz unter wechselnden Kontexten

Methodische Details

Aufgabendefinition

Gegeben die Interaktionshistorie HutH_u^t eines Benutzers u zum Zeitpunkt t und eine Kandidatenmenge C={i(j)}j=1KC = \{i^{(j)}\}_{j=1}^K, wobei HutC=H_u^t \cap C = \emptyset und ipt+1Ci_p^{t+1} \in C, muss das Modell πθ\pi_\theta das Element vorhersagen, das der Benutzer am wahrscheinlichsten bevorzugt: ipt+1i_p^{t+1}.

Kernmethode: RecPO-Framework

1. Adaptive Belohnungsspannen

Die Kernneuerung von RecPO liegt in der Definition adaptiver Zielbelohnungsspannen γr\gamma_r, die durch strukturierte Präferenzen und relative Aktualität dynamisch bestimmt werden:

γr=λϕ(sp,Δtp)ϕ(sd,Δtd)\gamma_r = \lambda \frac{\phi(s_p, \Delta t_p)}{\phi(s_d, \Delta t_d)}

wobei:

  • sp,sds_p, s_d die strukturierten Präferenzwerte für bevorzugte bzw. nicht bevorzugte Elemente sind
  • Δtp=tp+t\Delta t_p = t_p^+ - t die zeitliche Verzögerung der Interaktion darstellt
  • ϕ(s,Δt)=s/(Δt)0.5\phi(s, \Delta t) = s/(\Delta t)^{0.5} die Nutzenfunktion ist
  • λ\lambda die Amplitude der Spanne kontrolliert

2. Präferenzverteilungsmodellierung

Basierend auf dem Bradley-Terry-Modell modelliert RecPO die Präferenzwahrscheinlichkeit als:

P(ypydxu)=σ(r(xu,yp)r(xu,yd)γr)P^*(y_p \succ y_d | x_u) = \sigma(r(x_u, y_p) - r(x_u, y_d) - \gamma_r)

3. Zielfunktion

Unter Verwendung des Plackett-Luce-Modells werden paarweise Vergleiche auf ein listenebenes Ranking-Framework verallgemeinert, wobei die endgültige Zielfunktion lautet:

L(πθ;πref)=E(xu,yp,Td)D[logσ(logydTdexp(βlogπθ(ydxu)πref(ydxu)βlogπθ(ypxu)πref(ypxu)λϕ(sp,Δtp)ϕ(sd,Δtd)))]L(\pi_\theta; \pi_{ref}) = -E_{(x_u,y_p,T_d)\sim D}\left[\log \sigma\left(-\log \sum_{y_d \in T_d} \exp\left(\beta \log \frac{\pi_\theta(y_d|x_u)}{\pi_{ref}(y_d|x_u)} - \beta \log \frac{\pi_\theta(y_p|x_u)}{\pi_{ref}(y_p|x_u)} - \lambda \frac{\phi(s_p,\Delta t_p)}{\phi(s_d,\Delta t_d)}\right)\right)\right]

Technische Innovationen

  1. Nicht-uniforme Spannenentwurf: Im Gegensatz zu früheren Arbeiten, die einheitliche Spannen verwenden, passt RecPO die Spannen dynamisch basierend auf Präferenzintensität und zeitlicher Distanz an
  2. Umfassende Feedback-Nutzung: Beibehaltung der vollständigen Interaktionssequenz, einschließlich negativer Rückmeldungen, kombiniert mit expliziten Bewertungen
  3. Ausrichtung mit menschlicher Kognition: Auf Prinzipien der Kognitionswissenschaft basierende Präferenzmodellierungsmechanismen

Experimentelle Einrichtung

Datensätze

Fünf reale sequenzielle Empfehlungsdatensätze werden verwendet:

  • Datensätze mit explizitem Feedback: MovieLens-1M, Amazon-Books, BeerAdvocate
  • Datensätze mit implizitem Feedback: Steam, LastFM
DatensatzSequenzenElementeInteraktionen
MovieLens6.0403.952994.169
Amazon-Books5.10338.20362.290
Steam3.1714.25182.072
BeerAdvocate4.7246.10591.207
LastFM982107.296307.829

Bewertungsmetriken

  • Hit Ratio@1: Misst den Anteil, in dem das Modell das richtige Element korrekt empfiehlt
  • Valid Ratio: Bewertet die Fähigkeit zur Anweisungsbefolgung, quantifiziert den Anteil der formatkonformen Ausgaben

Vergleichsmethoden

  • Traditionelle Methoden: GRU4Rec, Caser, SASRec
  • LLM-Methoden: DPO, SimPO, S-DPO
  • Basismodelle: LLaMA3-8B, Qwen2.5-7B

Implementierungsdetails

  • Lernrate: 1e-5, Optimierer: AdamW
  • Batch-Größe: 128, Sequenzlänge: datensatzabhängig angepasst
  • Anzahl negativer Stichproben: 3, Spannparameter λ: 2
  • Hardware: 8×NVIDIA RTX A100 (80GB)

Experimentelle Ergebnisse

Hauptergebnisse

RecPO erreicht auf allen fünf Datensätzen die beste Leistung:

ModellMovieLens HR@1Amazon-Books HR@1BeerAdvocate HR@1Steam HR@1LastFM HR@1
SASRec0,26710,15590,38000,45870,6659
S-DPO0,29020,50650,46980,35880,5719
RecPO0,34510,58020,57710,46720,6830

Schlüsselfunde

  1. Wichtigkeit umfassenden Feedbacks: Beibehaltung negativer Interaktionen verbessert die Leistung gegenüber der Verwendung nur positiven Feedbacks
  2. Wert strukturierter Signale: Das Hinzufügen von Bewertungsinformationen verbessert die Leistung erheblich
  3. Komplementarität der Faktoren: Beste Leistung ergibt sich aus der Kombination umfassenden Feedbacks und strukturierter Signale

Ablationsstudien

Ablationsstudien zur Spannenfunktion zeigen:

DatensatzLog DiffLog RatioRecPO (Ratio)
MovieLens0,31600,32470,3451
Amazon-Books0,53700,54550,5802

Die verhältnisbasierte Spannenfunktion erreicht auf allen Datensätzen die beste Leistung.

Analyse menschenausgerichteter Verhaltensweisen

RecPO zeigt in vier Schlüsseldimensionen menschenausgerichtete Verhaltensweisen:

  1. Zeitsensitivität: Bei Kandidatenmengen mit zukünftigen hochbewerteten Elementen bevorzugt RecPO zeitlich angemessene Elemente besser
  2. Präferenzintensitätswahrnehmung: Kann verlockende Elemente vermeiden, die letztendlich niedrig bewertet werden
  3. Implizite Abneigungsmodellierung: Kann Elemente identifizieren, die Benutzer nicht mögen, ohne explizite Ablehnungsetiketten
  4. Kontextübergreifende Robustheit: Behält stabile Leistung über unterschiedliche Interaktionshistorienlängen bei

Verwandte Arbeiten

Sequenzielle Empfehlungen

Frühe Methoden wie GRU4Rec verwenden rekurrente neuronale Netze, SASRec führt Self-Attention-Mechanismen ein. Neuere Methoden integrieren Graphstrukturen, kontrastives Lernen und andere Techniken.

LLM-Empfehlungssysteme

Methoden wie LLaRA und TALLRec integrieren LLMs in Empfehlungssysteme, konzentrieren sich aber hauptsächlich auf semantisches Verständnis statt auf feinkörnige Faktoren der Präferenzmodellierung.

LLM-Ausrichtungstechniken

Von RLHF bis DPO und seinen Varianten (IPO, CPO, KTO, SimPO) konzentrieren sich diese Methoden hauptsächlich auf allgemeine NLP-Aufgaben, während S-DPO erstmals Ausrichtungstechniken für Empfehlungsaufgaben anpasst.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Präferenzintensität und zeitlicher Kontext sind übersehene, aber kritische Faktoren in LLM-Empfehlungssystemen
  2. RecPO integriert diese Faktoren durch adaptive Belohnungsspannen effektiv und erreicht Leistungsverbesserungen und Ausrichtung mit menschlichem Verhalten
  3. Die Methode zeigt konsistente Verbesserungen sowohl auf Datensätzen mit explizitem als auch implizitem Feedback

Einschränkungen

  1. Vereinfachte Präferenzstruktur: Verwendet eine vereinfachte sequenzielle Präferenzstruktur
  2. Einzelne Kontextfaktoren: Berücksichtigt nur Befriedungsverzögerung als Kontextfaktor
  3. Einschränkungen der Bewertungsmetriken: Stützt sich hauptsächlich auf einzelne Metriken, erfasst nicht umfassendere Verhaltensmuster

Zukünftige Richtungen

  1. Komplexe Präferenzhierarchie-Modellierung: Erforschung komplexerer kognitiv glaubwürdiger Präferenzstrukturen
  2. Bereichernde Kontextfaktoren: Integration zusätzlicher Kontexteinflussfaktoren
  3. Umfassendes Bewertungsframework: Entwicklung umfassenderer verhaltensorientierter Bewertungsmetriken

Tiefgehende Bewertung

Stärken

  1. Präzise Problemidentifikation: Klare Identifikation der Kernprobleme bestehender Methoden (binäre Präferenzmodellierung)
  2. Rationales Methodendesign: Das auf Prinzipien der Kognitionswissenschaft basierende adaptive Spannenmechanismus-Design hat theoretische Grundlagen
  3. Umfassende Experimentgestaltung: Vollständiges Experimentframework mit Proof-of-Concept, Hauptexperimenten, Ablationsstudien und Verhaltensanalyse
  4. Starke Ergebnisüberzeugungskraft: Konsistente Verbesserungen über mehrere Datensätze und Verhaltensausrichtungsanalyse erhöhen die Überzeugungskraft

Mängel

  1. Unzureichende theoretische Analyse: Mangelnde tiefgehende theoretische Analyse, warum dieses Spannenentwurf-Design wirksam ist
  2. Nicht diskutierte Rechenkomplexität: Fehlende Analyse des Rechenaufwands im Vergleich zu Baseline-Methoden
  3. Hyperparameter-Sensitivität: Relativ einfache Sensitivitätsanalyse für den kritischen Parameter λ
  4. Begrenzte Generalisierungsfähigkeit: Hauptsächlich auf spezifische Arten von Empfehlungsaufgaben validiert, Generalisierungsfähigkeit bedarf weiterer Überprüfung

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Forschungsrichtungen und theoretische Rahmen für LLM-Empfehlungssystemforschung
  2. Praktischer Wert: Bietet direkt anwendbare Verbesserungsmethoden, Open-Source-Code erhöht die Reproduzierbarkeit
  3. Inspirationswert: Betont die Wichtigkeit von Prinzipien der Kognitionswissenschaft im KI-Systemdesign

Anwendungsszenarien

  1. Sequenzielle Empfehlungssysteme: Besonders geeignet für Empfehlungsszenarien mit klaren Zeitsequenzen und Bewertungsinformationen
  2. Personalisierte Anwendungen: Geeignet für Personalisierungsdienste, die feinkörnige Präferenzmodellierung erfordern
  3. Multimodale Empfehlungen: Das Framework-Design hat Erweiterbarkeit und kann sich an multimodale Empfehlungsaufgaben anpassen

Literaturverzeichnis

Dieses Papier zitiert wichtige Arbeiten aus mehreren Bereichen wie Empfehlungssysteme, LLM-Ausrichtung und Kognitionswissenschaft, einschließlich:

  • Klassische Empfehlungsmethoden: GRU4Rec, SASRec, Caser
  • LLM-Ausrichtungstechniken: DPO, RLHF, SimPO
  • Kognitionswissenschaftliche Grundlagen: Astington & Jenkins (1995) zur Forschung über menschliche Entscheidungsmechanismen

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das sich in theoretischen Beiträgen, methodischen Innovationen und experimenteller Validierung auszeichnet. Das Papier identifiziert und löst erfolgreich Schlüsselprobleme in LLM-Empfehlungssystemen und schlägt das RecPO-Framework vor, das eine gute theoretische Grundlage und praktischen Wert hat. Obwohl es einige Einschränkungen gibt, sind seine Beiträge zur Forschung in Empfehlungssystemen und LLM-Ausrichtung erheblich.