2025-11-22T10:40:16.215584

What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context

Ouyang, Wen, Zhang et al.
Sequential recommendation systems aspire to profile users by interpreting their interaction histories, echoing how humans make decisions by weighing experience, relative preference strength, and situational relevance. Yet, existing large language model (LLM)-based recommenders often fall short of mimicking the flexible, context-aware decision strategies humans exhibit, neglecting the structured, dynamic, and context-aware mechanisms fundamental to human behaviors. To bridge this gap, we propose RecPO, a preference optimization framework that models structured feedback and contextual delay to emulate human-like prioritization in sequential recommendation. RecPO exploits adaptive reward margins based on inferred preference hierarchies and temporal signals, enabling the model to favor immediately relevant items and to distinguish between varying degrees of preference and aversion. Extensive experiments across five real-world datasets demonstrate that RecPO not only yields performance gains over state-of-the-art baselines, but also mirrors key characteristics of human decision-making: favoring timely satisfaction, maintaining coherent preferences, and exercising discernment under shifting contexts.
academic

Что делает LLM эффективными последовательными рекомендателями? Исследование интенсивности предпочтений и временного контекста

Основная информация

  • ID статьи: 2506.02261
  • Название: What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context
  • Авторы: Zhongyu Ouyang, Qianlong Wen, Chunhui Zhang, Yanfang Ye, Soroush Vosoughi
  • Учреждения: Dartmouth College, University of Notre Dame
  • Классификация: cs.IR, cs.LG
  • Дата публикации: 10 октября 2025 г. (arXiv v2)
  • Ссылка на статью: https://arxiv.org/abs/2506.02261v2

Аннотация

Системы последовательных рекомендаций стремятся профилировать пользователей путём интерпретации истории их взаимодействий, отражая то, как люди принимают решения, взвешивая опыт, относительную силу предпочтений и ситуационную релевантность. Однако существующие рекомендатели на основе больших языковых моделей (LLM) часто не способны имитировать гибкие, контекстно-зависимые стратегии принятия решений, которые демонстрируют люди, игнорируя структурированные, динамичные и контекстно-зависимые механизмы, фундаментальные для человеческого поведения. Для преодоления этого разрыва мы предлагаем RecPO — фреймворк оптимизации предпочтений, который моделирует структурированную обратную связь и временную задержку для имитации приоритизации, подобной человеческой, в последовательных рекомендациях. RecPO использует адаптивные маржи вознаграждения на основе выведённых иерархий предпочтений и временных сигналов, позволяя модели отдавать предпочтение немедленно релевантным элементам и различать разные степени предпочтения и отвращения. Обширные эксперименты на пяти реальных наборах данных демонстрируют, что RecPO не только даёт прирост производительности по сравнению с современными базовыми методами, но также отражает ключевые характеристики принятия решений человеком: предпочтение своевременного удовлетворения, поддержание согласованных предпочтений и проявление разборчивости в изменяющихся контекстах.

Исследовательский контекст и мотивация

Определение проблемы

Существующие системы последовательных рекомендаций на основе LLM имеют следующие основные проблемы:

  1. Бинарное моделирование предпочтений: существующие методы, такие как DPO и его варианты, обрабатывают все предпочтения посредством бинарного попарного сравнения, игнорируя различия в интенсивности предпочтений
  2. Отсутствие временного контекста: отсутствует моделирование временной чувствительности, невозможно различить немедленное и отложенное удовлетворение
  3. Игнорирование механизма принятия решений человеком: неспособность имитировать сложный механизм, посредством которого люди взвешивают опыт, относительную интенсивность предпочтений и ситуационную релевантность

Исследовательская мотивация

Поведение человека при принятии решений демонстрирует иерархические предпочтения (сильное предпочтение против лёгкого предпочтения) и временную чувствительность (немедленное против отложенного удовлетворения), характеристики, которые хорошо установлены в поведенческой экономике и когнитивной науке, но в значительной степени игнорируются в текущем выравнивании предпочтений систем рекомендаций на основе LLM. Посредством систематического эмпирического исследования авторы обнаруживают, что интеграция комплексной обратной связи (включая отрицательные взаимодействия) и структурированных сигналов предпочтений (таких как рейтинги) значительно повышает производительность.

Ключевые идеи

Посредством экспериментов доказательства концепции авторы выявили два критических фактора:

  • Интенсивность предпочтений: иерархическая интенсивность сродства или отвращения пользователя
  • Временной контекст: немедленность удовлетворения

Основные вклады

  1. Теоретический вклад: систематическое доказательство того, что интенсивность предпочтений и временной контекст являются ключевыми факторами для детального моделирования предпочтений в системах рекомендаций на основе LLM, оспаривая существующую бинарную парадигму предпочтений
  2. Методологический вклад: предложение фреймворка RecPO, который интегрирует эти факторы посредством адаптивных маржей вознаграждения на основе интенсивности предпочтений и временного контекста
  3. Эмпирический вклад: эксперименты на пяти наборах данных показывают, что RecPO не только повышает точность, но также демонстрирует поведенческие характеристики, согласованные с человеческими предпочтениями: приоритизация своевременного удовлетворения, поддержание согласованности предпочтений в изменяющихся контекстах

Подробное описание методики

Определение задачи

Учитывая историю взаимодействия пользователя u в момент времени t HutH_u^t и набор кандидатов C={i(j)}j=1KC = \{i^{(j)}\}_{j=1}^K, где HutC=H_u^t \cap C = \emptyset и ipt+1Ci_p^{t+1} \in C, модель πθ\pi_\theta должна предсказать элемент, который пользователь, вероятнее всего, предпочтёт ipt+1i_p^{t+1}.

Основной метод: фреймворк RecPO

1. Адаптивная маржа вознаграждения

Ключевое нововведение RecPO заключается в определении адаптивной целевой маржи вознаграждения γr\gamma_r, которая динамически определяется структурированными предпочтениями и относительной новизной:

γr=λϕ(sp,Δtp)ϕ(sd,Δtd)\gamma_r = \lambda \frac{\phi(s_p, \Delta t_p)}{\phi(s_d, \Delta t_d)}

где:

  • sp,sds_p, s_d — оценки структурированных предпочтений для предпочитаемых и непредпочитаемых элементов соответственно
  • Δtp=tp+t\Delta t_p = t_p^+ - t обозначает временную задержку взаимодействия
  • ϕ(s,Δt)=s/(Δt)0.5\phi(s, \Delta t) = s/(\Delta t)^{0.5} — функция полезности
  • λ\lambda контролирует величину маржи

2. Моделирование распределения предпочтений

На основе модели Брэдли-Терри RecPO моделирует вероятность предпочтения как:

P(ypydxu)=σ(r(xu,yp)r(xu,yd)γr)P^*(y_p \succ y_d | x_u) = \sigma(r(x_u, y_p) - r(x_u, y_d) - \gamma_r)

3. Целевая функция

Используя модель Плакетта-Люса для обобщения попарных сравнений в фреймворк ранжирования на уровне списка, итоговая целевая функция:

L(πθ;πref)=E(xu,yp,Td)D[logσ(logydTdexp(βlogπθ(ydxu)πref(ydxu)βlogπθ(ypxu)πref(ypxu)λϕ(sp,Δtp)ϕ(sd,Δtd)))]L(\pi_\theta; \pi_{ref}) = -E_{(x_u,y_p,T_d)\sim D}\left[\log \sigma\left(-\log \sum_{y_d \in T_d} \exp\left(\beta \log \frac{\pi_\theta(y_d|x_u)}{\pi_{ref}(y_d|x_u)} - \beta \log \frac{\pi_\theta(y_p|x_u)}{\pi_{ref}(y_p|x_u)} - \lambda \frac{\phi(s_p,\Delta t_p)}{\phi(s_d,\Delta t_d)}\right)\right)\right]

Технические инновации

  1. Неоднородный дизайн маржи: в отличие от предыдущих работ, использующих единую маржу, RecPO динамически регулирует маржу на основе интенсивности предпочтений и временного расстояния
  2. Использование комплексной обратной связи: сохранение полной последовательности взаимодействий, включая отрицательную обратную связь, в сочетании с явными рейтингами
  3. Выравнивание с человеческим познанием: механизм моделирования предпочтений, разработанный на основе принципов когнитивной науки

Экспериментальная установка

Наборы данных

Используются пять реальных наборов данных последовательных рекомендаций:

  • Наборы данных с явной обратной связью: MovieLens-1M, Amazon-Books, BeerAdvocate
  • Наборы данных с неявной обратной связью: Steam, LastFM
Набор данныхКоличество последовательностейКоличество элементовКоличество взаимодействий
MovieLens6,0403,952994,169
Amazon-Books5,10338,20362,290
Steam3,1714,25182,072
BeerAdvocate4,7246,10591,207
LastFM982107,296307,829

Метрики оценки

  • Hit Ratio@1: измеряет долю случаев, когда модель правильно рекомендует нужный элемент
  • Valid Ratio: оценивает способность следовать инструкциям, количественно определяя выходные данные, соответствующие требованиям формата

Методы сравнения

  • Традиционные методы: GRU4Rec, Caser, SASRec
  • Методы на основе LLM: DPO, SimPO, S-DPO
  • Базовые модели: LLaMA3-8B, Qwen2.5-7B

Детали реализации

  • Скорость обучения: 1e-5, оптимизатор: AdamW
  • Размер пакета: 128, длина последовательности: в зависимости от набора данных
  • Количество отрицательных образцов: 3, параметр маржи λ: 2
  • Оборудование: 8×NVIDIA RTX A100 (80GB)

Результаты экспериментов

Основные результаты

RecPO достигает лучшей производительности на всех пяти наборах данных:

МодельMovieLens HR@1Amazon-Books HR@1BeerAdvocate HR@1Steam HR@1LastFM HR@1
SASRec0.26710.15590.38000.45870.6659
S-DPO0.29020.50650.46980.35880.5719
RecPO0.34510.58020.57710.46720.6830

Ключевые находки

  1. Важность комплексной обратной связи: сохранение отрицательных взаимодействий повышает производительность по сравнению с использованием только положительной обратной связи
  2. Ценность структурированных сигналов: добавление информации о рейтингах значительно повышает производительность
  3. Дополнительность факторов: лучшая производительность достигается при сочетании комплексной обратной связи и структурированных сигналов

Абляционные исследования

Абляционное исследование функции маржи показывает:

Набор данныхLog DiffLog RatioRecPO (Ratio)
MovieLens0.31600.32470.3451
Amazon-Books0.53700.54550.5802

Функция маржи на основе отношения достигает лучшей производительности на всех наборах данных.

Анализ поведения, согласованного с человеком

RecPO демонстрирует поведение, согласованное с человеком, по четырём ключевым измерениям:

  1. Чувствительность к временному контексту: в наборах кандидатов, содержащих будущие высокооценённые элементы, RecPO лучше приоритизирует элементы, подходящие по времени
  2. Восприятие интенсивности предпочтений: способность избегать рекомендации привлекательных элементов, которые в конечном итоге получают низкие оценки
  3. Моделирование неявного отвращения: выявление нелюбимых пользователем элементов без явных меток отвращения
  4. Робастность в различных контекстах: стабильная производительность при различных длинах истории взаимодействия

Связанные работы

Последовательные рекомендации

Ранние методы, такие как GRU4Rec, использовали рекуррентные нейронные сети, SASRec внедрил механизм самовнимания. Недавние методы интегрируют графические структуры, контрастивное обучение и другие техники.

Системы рекомендаций на основе LLM

Методы, такие как LLaRA и TALLRec, интегрируют LLM в системы рекомендаций, но в основном сосредоточены на семантическом понимании, а не на детальных факторах моделирования предпочтений.

Техники выравнивания LLM

От RLHF к DPO и его вариантам (IPO, CPO, KTO, SimPO), эти методы в основном ориентированы на общие задачи NLP, S-DPO впервые адаптировал техники выравнивания к задачам рекомендаций.

Заключение и обсуждение

Основные выводы

  1. Интенсивность предпочтений и временной контекст — это игнорируемые, но критические факторы в системах рекомендаций на основе LLM
  2. RecPO эффективно интегрирует эти факторы посредством адаптивных маржей вознаграждения, достигая повышения производительности и выравнивания с человеческим поведением
  3. Метод демонстрирует согласованные улучшения как на наборах данных с явной, так и с неявной обратной связью

Ограничения

  1. Упрощённая структура предпочтений: использование упрощённой структуры последовательных предпочтений
  2. Единственный контекстный фактор: рассмотрение только задержки удовлетворения в качестве контекстного фактора
  3. Ограничения метрик оценки: в основном полагаются на единственную метрику, не охватывая более полные поведенческие паттерны

Направления будущих исследований

  1. Моделирование сложных иерархий предпочтений: исследование более сложных когнитивно-правдоподобных структур предпочтений
  2. Обогащение контекстных факторов: интеграция большего количества контекстных влияющих факторов
  3. Комплексная система оценки: разработка более комплексных метрик оценки, ориентированных на поведение

Глубокая оценка

Преимущества

  1. Точное выявление проблемы: чёткое выявление основных проблем существующих методов (бинарное моделирование предпочтений)
  2. Разумный дизайн метода: механизм адаптивной маржи, разработанный на основе принципов когнитивной науки, имеет теоретическую основу
  3. Достаточный дизайн экспериментов: полная экспериментальная структура, включающая доказательство концепции, основные эксперименты, абляционные исследования и анализ поведения
  4. Убедительные результаты: согласованные улучшения на нескольких наборах данных и анализ выравнивания с человеческим поведением повышают убедительность

Недостатки

  1. Недостаточный теоретический анализ: отсутствие глубокого теоретического анализа того, почему такой дизайн маржи эффективен
  2. Не обсуждается вычислительная сложность: отсутствует анализ вычислительных затрат по сравнению с базовыми методами
  3. Анализ чувствительности гиперпараметров: анализ чувствительности к ключевому параметру λ относительно прост
  4. Ограниченная способность к обобщению: проверка в основном на конкретных типах задач рекомендаций, способность к обобщению требует дальнейшей проверки

Влияние

  1. Академический вклад: предоставление новых направлений исследований и теоретической базы для исследований систем рекомендаций на основе LLM
  2. Практическая ценность: предоставление улучшенного метода, который можно непосредственно применить, открытый исходный код повышает воспроизводимость
  3. Вдохновляющее значение: подчёркивание важности принципов когнитивной науки в разработке систем искусственного интеллекта

Применимые сценарии

  1. Системы последовательных рекомендаций: особенно подходит для сценариев рекомендаций с явной временной последовательностью и информацией о рейтингах
  2. Персонализированные приложения: подходит для персонализированных сервисов, требующих детального моделирования предпочтений
  3. Мультимодальные рекомендации: дизайн фреймворка имеет расширяемость, может быть адаптирован к задачам мультимодальных рекомендаций

Библиография

Статья цитирует важные работы из нескольких областей, включая системы рекомендаций, выравнивание LLM и когнитивную науку:

  • Классические методы рекомендаций: GRU4Rec, SASRec, Caser
  • Техники выравнивания LLM: DPO, RLHF, SimPO
  • Основы когнитивной науки: исследование Astington & Jenkins (1995) о механизмах принятия решений человеком

Общая оценка: Это высококачественная исследовательская статья, которая демонстрирует отличные результаты в теоретическом вкладе, методологических инновациях и экспериментальной проверке. Статья успешно выявляет и решает ключевые проблемы в системах рекомендаций на основе LLM, предложенный фреймворк RecPO имеет хорошую теоретическую основу и практическую ценность. Несмотря на некоторые ограничения, её вклад в области исследований систем рекомендаций и выравнивания LLM является значительным.