2025-11-22T10:40:16.215584

What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context

Ouyang, Wen, Zhang et al.
Sequential recommendation systems aspire to profile users by interpreting their interaction histories, echoing how humans make decisions by weighing experience, relative preference strength, and situational relevance. Yet, existing large language model (LLM)-based recommenders often fall short of mimicking the flexible, context-aware decision strategies humans exhibit, neglecting the structured, dynamic, and context-aware mechanisms fundamental to human behaviors. To bridge this gap, we propose RecPO, a preference optimization framework that models structured feedback and contextual delay to emulate human-like prioritization in sequential recommendation. RecPO exploits adaptive reward margins based on inferred preference hierarchies and temporal signals, enabling the model to favor immediately relevant items and to distinguish between varying degrees of preference and aversion. Extensive experiments across five real-world datasets demonstrate that RecPO not only yields performance gains over state-of-the-art baselines, but also mirrors key characteristics of human decision-making: favoring timely satisfaction, maintaining coherent preferences, and exercising discernment under shifting contexts.
academic

LLMが効果的なシーケンシャルレコメンダーになる要因は何か?:選好強度と時間的文脈に関する研究

基本情報

  • 論文ID: 2506.02261
  • タイトル: What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context
  • 著者: Zhongyu Ouyang, Qianlong Wen, Chunhui Zhang, Yanfang Ye, Soroush Vosoughi
  • 所属機関: Dartmouth College, University of Notre Dame
  • 分類: cs.IR, cs.LG
  • 発表日時: 2025年10月10日 (arXiv v2)
  • 論文リンク: https://arxiv.org/abs/2506.02261v2

概要

シーケンシャルレコメンデーションシステムは、ユーザーのインタラクション履歴を解釈することでユーザープロファイルを構築することを目指しており、これは人間が経験、相対的な選好強度、および状況的関連性を考慮して意思決定を行う方法と同様である。しかし、既存の大規模言語モデル(LLM)ベースのレコメンダーは、人間が示す柔軟で文脈認識的な意思決定戦略を模倣することに不足しており、人間の行動に基本的な構造化された動的で文脈認識的なメカニズムを無視している。このギャップを埋めるため、本論文ではRecPOという選好最適化フレームワークを提案し、構造化されたフィードバックと文脈的遅延をモデル化して、シーケンシャルレコメンデーションにおける人間的な優先順位付けをエミュレートする。RecPOは推定された選好階層と時間的信号に基づいた適応的な報酬マージンを活用し、モデルが即座に関連するアイテムを優先し、異なる程度の選好と嫌悪を区別することを可能にする。5つの実世界データセットにおける広範な実験により、RecPOは最先端のベースラインを上回るパフォーマンス向上をもたらすだけでなく、人間の意思決定の主要な特性も反映していることが実証される:即座の満足を優先し、一貫した選好を維持し、変化する文脈下で判別力を発揮する。

研究背景と動機

問題定義

既存のLLMベースのシーケンシャルレコメンデーションシステムには、主に以下の問題が存在する:

  1. 二値化された選好モデリング:DPOおよびその変種などの既存手法は、すべての選好を二値ペアワイズ比較によって処理し、選好強度の差異を無視している
  2. 時間的文脈の欠落:時間的感度のモデリングが欠けており、即座の満足と遅延された満足の違いを区別できない
  3. 人間の意思決定メカニズムの無視:意思決定プロセスにおいて経験、相対的な選好強度、および状況的関連性を考慮する複雑なメカニズムをシミュレートできていない

研究動機

人間の意思決定行動は、段階的な選好(強い好み対軽微な好み)と時間的感度(即座対遅延満足)を示しており、これらの特性は行動経済学と認知科学で十分に実証されているが、現在のLLMレコメンデーションシステムの選好アライメントでは大量に無視されている。本論文は、体系的な実証研究を通じて、包括的なフィードバック(負のインタラクションを含む)と構造化された選好信号(評価など)の統合がパフォーマンスを大幅に向上させることを発見した。

中核的洞察

概念実証実験を通じて、著者は2つの重要な要因を特定した:

  • 選好強度:ユーザーの親和性または嫌悪の段階的強度
  • 時間的文脈:満足の即座性

中核的貢献

  1. 理論的貢献:選好強度と時間的文脈がLLMレコメンデーションシステムにおける細粒度選好モデリングの重要な要因であることを体系的に証明し、既存の二値選好パラダイムに異議を唱える
  2. 方法論的貢献:選好強度と時間的文脈に基づいた適応的な報酬マージンを通じてこれらの要因を統合するRecPOフレームワークを提案する
  3. 実証的貢献:5つのデータセットにおける実験により、RecPOが精度を向上させるだけでなく、人間の選好と一致する行動特性を示すことが実証される:即座の満足を優先し、変化する文脈で選好一貫性を維持する

方法論の詳細

タスク定義

時刻tにおけるユーザーuのインタラクション履歴HutH_u^tと候補アイテム集合C={i(j)}j=1KC = \{i^{(j)}\}_{j=1}^Kが与えられ、ここでHutC=H_u^t \cap C = \emptysetかつipt+1Ci_p^{t+1} \in Cである場合、モデルπθ\pi_\thetaはユーザーが最も好む可能性のあるアイテムipt+1i_p^{t+1}を予測する必要がある。

中核的方法:RecPOフレームワーク

1. 適応的報酬マージン

RecPOの中核的革新は、適応的目標報酬マージンγr\gamma_rを定義することにあり、このマージンは構造化された選好と相対的な時新性によって動的に決定される:

γr=λϕ(sp,Δtp)ϕ(sd,Δtd)\gamma_r = \lambda \frac{\phi(s_p, \Delta t_p)}{\phi(s_d, \Delta t_d)}

ここで:

  • sp,sds_p, s_dはそれぞれ選好および非選好アイテムの構造化選好スコア
  • Δtp=tp+t\Delta t_p = t_p^+ - tはインタラクションの時間遅延
  • ϕ(s,Δt)=s/(Δt)0.5\phi(s, \Delta t) = s/(\Delta t)^{0.5}は効用関数
  • λ\lambdaはマージンの振幅を制御

2. 選好分布モデリング

Bradley-Terryモデルに基づき、RecPOは選好確率を以下のようにモデル化する:

P(ypydxu)=σ(r(xu,yp)r(xu,yd)γr)P^*(y_p \succ y_d | x_u) = \sigma(r(x_u, y_p) - r(x_u, y_d) - \gamma_r)

3. 目的関数

Plackett-Luceモデルを採用してペアワイズ比較をリストレベルのランキングフレームワークに一般化し、最終的な目的関数は以下の通りである:

L(πθ;πref)=E(xu,yp,Td)D[logσ(logydTdexp(βlogπθ(ydxu)πref(ydxu)βlogπθ(ypxu)πref(ypxu)λϕ(sp,Δtp)ϕ(sd,Δtd)))]L(\pi_\theta; \pi_{ref}) = -E_{(x_u,y_p,T_d)\sim D}\left[\log \sigma\left(-\log \sum_{y_d \in T_d} \exp\left(\beta \log \frac{\pi_\theta(y_d|x_u)}{\pi_{ref}(y_d|x_u)} - \beta \log \frac{\pi_\theta(y_p|x_u)}{\pi_{ref}(y_p|x_u)} - \lambda \frac{\phi(s_p,\Delta t_p)}{\phi(s_d,\Delta t_d)}\right)\right)\right]

技術的革新点

  1. 非均一マージン設計:先行研究が統一されたマージンを使用するのとは異なり、RecPOは選好強度と時間距離に基づいてマージンを動的に調整する
  2. 包括的フィードバック利用:完全なインタラクションシーケンスを保持し、負のフィードバックを含め、明示的な評価と組み合わせる
  3. 人間認知アライメント:認知科学原理に基づいて設計された選好モデリングメカニズム

実験設定

データセット

5つの実世界シーケンシャルレコメンデーションデータセットを使用:

  • 明示的フィードバックデータセット:MovieLens-1M、Amazon-Books、BeerAdvocate
  • 暗黙的フィードバックデータセット:Steam、LastFM
データセットシーケンス数アイテム数インタラクション数
MovieLens6,0403,952994,169
Amazon-Books5,10338,20362,290
Steam3,1714,25182,072
BeerAdvocate4,7246,10591,207
LastFM982107,296307,829

評価指標

  • Hit Ratio@1:モデルが正しいアイテムを正確に推奨する比率を測定
  • Valid Ratio:命令遵守能力を評価し、形式要件を満たす出力の比率を定量化

比較手法

  • 従来的手法:GRU4Rec、Caser、SASRec
  • LLM手法:DPO、SimPO、S-DPO
  • 基盤モデル:LLaMA3-8B、Qwen2.5-7B

実装詳細

  • 学習率:1e-5、オプティマイザ:AdamW
  • バッチサイズ:128、シーケンス長:データセットに応じて調整
  • 負のサンプル数:3、マージンパラメータλ:2
  • ハードウェア:8×NVIDIA RTX A100 (80GB)

実験結果

主要結果

5つのデータセットすべてにおいて、RecPOは最高のパフォーマンスを達成した:

モデルMovieLens HR@1Amazon-Books HR@1BeerAdvocate HR@1Steam HR@1LastFM HR@1
SASRec0.26710.15590.38000.45870.6659
S-DPO0.29020.50650.46980.35880.5719
RecPO0.34510.58020.57710.46720.6830

主要な発見

  1. 包括的フィードバックの重要性:負のインタラクションを保持することは、正のフィードバックのみを使用するよりもパフォーマンスを向上させる
  2. 構造化信号の価値:評価情報を追加することでパフォーマンスが大幅に向上する
  3. 要因の相補性:最高のパフォーマンスは包括的フィードバックと構造化信号の組み合わせから得られる

アブレーション実験

マージン関数のアブレーション研究は以下を示している:

データセットLog DiffLog RatioRecPO (Ratio)
MovieLens0.31600.32470.3451
Amazon-Books0.53700.54550.5802

比率ベースのマージン関数はすべてのデータセットで最高のパフォーマンスを達成した。

人間アライメント行動分析

RecPOは4つの主要な次元で人間アライメントの行動を示す:

  1. 時間的文脈感度:将来の高評価アイテムを含む候補集合において、RecPOは時間的に適切なアイテムをより良く優先推奨できる
  2. 選好強度認識:最終的に低評価されるであろう魅力的なアイテムの推奨を回避できる
  3. 暗黙的嫌悪モデリング:明示的な嫌悪ラベルなしでユーザーが好まないアイテムを識別できる
  4. クロスコンテキスト堅牢性:異なるインタラクション履歴長下で安定したパフォーマンスを維持

関連研究

シーケンシャルレコメンデーション

GRU4Recなどの初期手法は循環型ニューラルネットワークを使用し、SASRecは自己注意メカニズムを導入した。最近の手法はグラフ構造、対比学習などの技術を統合している。

LLMレコメンデーションシステム

LLaRA、TALLRecなどの手法はLLMをレコメンデーションシステムに統合するが、主に意味理解に焦点を当てており、選好モデリングの細粒度要因ではない。

LLMアライメント技術

RLHFからDPOおよびその変種(IPO、CPO、KTO、SimPO)まで、これらの手法は主に一般的なNLPタスクを対象としており、S-DPOが初めてアライメント技術をレコメンデーションタスクに適応させた。

結論と議論

主要な結論

  1. 選好強度と時間的文脈はLLMレコメンデーションシステムで無視されているが重要な要因である
  2. RecPOは適応的報酬マージンを通じてこれらの要因を効果的に統合し、パフォーマンス向上と人間行動アライメントを実現する
  3. この手法は明示的および暗黙的フィードバックデータセット上で一貫した改善を示す

制限事項

  1. 簡略化された選好構造:簡略化されたシーケンシャル選好構造を採用している
  2. 単一の文脈要因:満足遅延を文脈要因として考慮するのみ
  3. 評価指標の制限:主に単一指標に依存し、より包括的な行動パターンを捉えられない

今後の方向性

  1. 複雑な選好階層モデリング:より複雑な認知的に信頼できる選好構造の探索
  2. 豊富な文脈要因:より多くの文脈影響要因の統合
  3. 包括的評価フレームワーク:より包括的な行動指向の評価指標の開発

深い評価

利点

  1. 問題識別の精度:既存手法の中核的問題(二値選好モデリング)を明確に識別
  2. 合理的な方法設計:認知科学原理に基づいた適応的マージンメカニズムは理論的基礎を有する
  3. 充分な実験設計:概念実証、主実験、アブレーション実験、行動分析を含む完全な実験フレームワーク
  4. 強い結果の説得力:複数のデータセット上での一貫した改善と人間行動アライメント分析が説得力を強化

不足点

  1. 理論分析の不足:このマージン設計がなぜ有効であるかについての深い理論分析が欠けている
  2. 計算複雑性の未検討:ベースライン手法との比較における計算オーバーヘッドが分析されていない
  3. 超パラメータ感度:重要なパラメータλに対する感度分析が比較的簡潔
  4. 一般化能力の限定:主に特定の種類のレコメンデーションタスクで検証され、一般化性は検証が必要

影響力

  1. 学術的貢献:LLMレコメンデーションシステム研究に新しい研究方向と理論フレームワークを提供
  2. 実用的価値:直接適用可能な改善方法を提供し、コードのオープンソース化により再現性を強化
  3. 啓発的意義:認知科学原理がAIシステム設計において重要であることを強調

適用可能なシナリオ

  1. シーケンシャルレコメンデーションシステム:明確な時間シーケンスと評価情報を有するレコメンデーションシナリオに特に適している
  2. 個性化アプリケーション:細粒度選好モデリングが必要な個性化サービスに適している
  3. マルチモーダルレコメンデーション:フレームワーク設計は拡張性を有し、マルチモーダルレコメンデーションタスクに適応可能

参考文献

本論文は、レコメンデーションシステム、LLMアライメント、認知科学など複数の分野の重要な研究を引用しており、以下を含む:

  • 古典的レコメンデーション手法:GRU4Rec、SASRec、Caser
  • LLMアライメント技術:DPO、RLHF、SimPO
  • 認知科学的基礎:Astington & Jenkins (1995) による人間の意思決定メカニズムに関する研究

総合評価:これは高品質な研究論文であり、理論的貢献、方法論的革新、実験検証のすべての側面で優れた成果を示している。本論文はLLMレコメンデーションシステムの重要な問題を成功裏に特定し解決し、提案されたRecPOフレームワークは良好な理論的基礎と実践的価値を有している。いくつかの制限事項は存在するが、レコメンデーションシステムおよびLLMアライメント研究分野への貢献は顕著である。