Sequential recommendation systems aspire to profile users by interpreting their interaction histories, echoing how humans make decisions by weighing experience, relative preference strength, and situational relevance. Yet, existing large language model (LLM)-based recommenders often fall short of mimicking the flexible, context-aware decision strategies humans exhibit, neglecting the structured, dynamic, and context-aware mechanisms fundamental to human behaviors. To bridge this gap, we propose RecPO, a preference optimization framework that models structured feedback and contextual delay to emulate human-like prioritization in sequential recommendation. RecPO exploits adaptive reward margins based on inferred preference hierarchies and temporal signals, enabling the model to favor immediately relevant items and to distinguish between varying degrees of preference and aversion. Extensive experiments across five real-world datasets demonstrate that RecPO not only yields performance gains over state-of-the-art baselines, but also mirrors key characteristics of human decision-making: favoring timely satisfaction, maintaining coherent preferences, and exercising discernment under shifting contexts.
- 논문 ID: 2506.02261
- 제목: What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context
- 저자: Zhongyu Ouyang, Qianlong Wen, Chunhui Zhang, Yanfang Ye, Soroush Vosoughi
- 기관: Dartmouth College, University of Notre Dame
- 분류: cs.IR, cs.LG
- 발표일: 2025년 10월 10일 (arXiv v2)
- 논문 링크: https://arxiv.org/abs/2506.02261v2
순차 추천 시스템은 사용자의 상호작용 이력을 해석하여 사용자 프로필을 구성하려고 하며, 이는 인간이 경험, 상대적 선호도 강도, 상황적 관련성을 고려하여 의사결정을 내리는 방식과 유사합니다. 그러나 기존의 대규모 언어 모델(LLM) 기반 추천자들은 인간이 보여주는 유연하고 맥락 인식적인 의사결정 전략을 모방하지 못하며, 인간 행동의 기초가 되는 구조화된, 동적이고 맥락 인식적인 메커니즘을 무시합니다. 이러한 격차를 해소하기 위해 우리는 순차 추천에서 인간과 유사한 우선순위 결정을 모방하기 위해 구조화된 피드백과 시간적 지연을 모델링하는 선호도 최적화 프레임워크인 RecPO를 제안합니다. RecPO는 추론된 선호도 계층 구조와 시간적 신호를 기반으로 한 적응형 보상 마진을 활용하여 모델이 즉시 관련성 있는 항목을 선호하고 다양한 정도의 선호도와 혐오를 구별할 수 있도록 합니다. 5개의 실제 데이터셋에 걸친 광범위한 실험은 RecPO가 최첨단 기준선을 능가하는 성능 향상을 제공할 뿐만 아니라 인간 의사결정의 핵심 특성을 반영함을 보여줍니다: 시기적절한 만족을 선호하고, 일관된 선호도를 유지하며, 변화하는 맥락에서 판단력을 발휘합니다.
기존의 대규모 언어 모델(LLM) 기반 순차 추천 시스템의 주요 문제점:
- 이진 선호도 모델링: DPO 및 그 변형과 같은 기존 방법들은 모든 선호도를 이진 쌍별 비교로 처리하여 선호도 강도의 차이를 무시합니다
- 시간적 맥락 부재: 시간 민감성 모델링이 부족하여 즉시 만족과 지연된 만족의 차이를 구별할 수 없습니다
- 인간 의사결정 메커니즘 무시: 의사결정 과정에서 경험, 상대적 선호도 강도, 상황적 관련성을 균형 있게 고려하는 복잡한 메커니즘을 모방하지 못합니다
인간의 의사결정 행동은 계층적 선호도(강한 선호 vs 약한 선호)와 시간 민감성(즉시 vs 지연된 만족)을 나타내며, 이러한 특성은 행동 경제학과 인지과학에서 충분히 입증되었지만 현재 LLM 추천 시스템의 선호도 정렬에서 대부분 무시됩니다. 본 논문은 체계적인 실증 연구를 통해 포괄적인 피드백(부정적 상호작용 포함)과 구조화된 선호도 신호(예: 평점)의 통합이 성능을 크게 향상시킬 수 있음을 발견했습니다.
개념 증명 실험을 통해 저자들은 두 가지 핵심 요소를 식별했습니다:
- 선호도 강도: 사용자의 친화성 또는 혐오의 계층적 강도
- 시간적 맥락: 만족의 즉시성
- 이론적 기여: 선호도 강도와 시간적 맥락이 LLM 추천 시스템에서 세분화된 선호도 모델링의 핵심 요소임을 체계적으로 입증하며, 기존의 이진 선호도 패러다임에 도전합니다
- 방법론적 기여: 선호도 강도와 시간적 맥락을 기반으로 한 적응형 보상 마진을 통해 이러한 요소들을 통합하는 RecPO 프레임워크를 제안합니다
- 실증적 기여: 5개 데이터셋에 대한 실험은 RecPO가 정확성을 향상시킬 뿐만 아니라 인간 선호도와 일치하는 행동 특성을 나타냄을 보여줍니다: 시기적절한 만족을 우선시하고, 변화하는 맥락에서 선호도 일관성을 유지합니다
시각 t에서 사용자 u의 상호작용 이력 Hut와 후보 항목 집합 C={i(j)}j=1K가 주어졌을 때, Hut∩C=∅이고 ipt+1∈C이며, 모델 πθ는 사용자가 가장 선호할 가능성이 높은 항목 ipt+1을 예측해야 합니다.
RecPO의 핵심 혁신은 구조화된 선호도와 상대적 시간 신선도에 의해 동적으로 결정되는 적응형 목표 보상 마진 γr을 정의하는 것입니다:
γr=λϕ(sd,Δtd)ϕ(sp,Δtp)
여기서:
- sp,sd는 각각 선호 및 비선호 항목의 구조화된 선호도 점수
- Δtp=tp+−t는 상호작용의 시간 지연
- ϕ(s,Δt)=s/(Δt)0.5는 효용 함수
- λ는 마진의 크기를 제어합니다
Bradley-Terry 모델을 기반으로 RecPO는 선호도 확률을 다음과 같이 모델링합니다:
P∗(yp≻yd∣xu)=σ(r(xu,yp)−r(xu,yd)−γr)
Plackett-Luce 모델을 사용하여 쌍별 비교를 리스트 수준 순위 프레임워크로 일반화하며, 최종 목적 함수는:
L(πθ;πref)=−E(xu,yp,Td)∼D[logσ(−log∑yd∈Tdexp(βlogπref(yd∣xu)πθ(yd∣xu)−βlogπref(yp∣xu)πθ(yp∣xu)−λϕ(sd,Δtd)ϕ(sp,Δtp)))]
- 비균등 마진 설계: 이전 작업에서 사용한 균일 마진과 달리, RecPO는 선호도 강도와 시간 거리에 따라 마진을 동적으로 조정합니다
- 포괄적 피드백 활용: 부정적 피드백을 포함한 완전한 상호작용 시퀀스를 유지하고 명시적 평점과 결합합니다
- 인간 인지 정렬: 인지과학 원리를 기반으로 설계된 선호도 모델링 메커니즘
5개의 실제 순차 추천 데이터셋을 사용합니다:
- 명시적 피드백 데이터셋: MovieLens-1M, Amazon-Books, BeerAdvocate
- 암시적 피드백 데이터셋: Steam, LastFM
| 데이터셋 | 시퀀스 수 | 항목 수 | 상호작용 수 |
|---|
| MovieLens | 6,040 | 3,952 | 994,169 |
| Amazon-Books | 5,103 | 38,203 | 62,290 |
| Steam | 3,171 | 4,251 | 82,072 |
| BeerAdvocate | 4,724 | 6,105 | 91,207 |
| LastFM | 982 | 107,296 | 307,829 |
- Hit Ratio@1: 모델이 올바른 항목을 정확하게 추천하는 비율을 측정합니다
- Valid Ratio: 명령 준수 능력을 평가하며, 형식 요구사항을 충족하는 출력의 비율을 정량화합니다
- 전통적 방법: GRU4Rec, Caser, SASRec
- LLM 방법: DPO, SimPO, S-DPO
- 기본 모델: LLaMA3-8B, Qwen2.5-7B
- 학습률: 1e-5, 최적화기: AdamW
- 배치 크기: 128, 시퀀스 길이: 데이터셋에 따라 조정
- 부정 샘플 수: 3, 마진 매개변수 λ: 2
- 하드웨어: 8×NVIDIA RTX A100 (80GB)
5개 데이터셋 모두에서 RecPO가 최고 성능을 달성했습니다:
| 모델 | MovieLens HR@1 | Amazon-Books HR@1 | BeerAdvocate HR@1 | Steam HR@1 | LastFM HR@1 |
|---|
| SASRec | 0.2671 | 0.1559 | 0.3800 | 0.4587 | 0.6659 |
| S-DPO | 0.2902 | 0.5065 | 0.4698 | 0.3588 | 0.5719 |
| RecPO | 0.3451 | 0.5802 | 0.5771 | 0.4672 | 0.6830 |
- 포괄적 피드백의 중요성: 부정적 상호작용을 유지하는 것이 긍정적 피드백만 사용하는 것보다 성능을 향상시킵니다
- 구조화된 신호의 가치: 평점 정보 추가가 성능을 크게 향상시킵니다
- 요소의 상호보완성: 최고 성능은 포괄적 피드백과 구조화된 신호의 결합에서 나옵니다
마진 함수에 대한 제거 연구 결과:
| 데이터셋 | Log Diff | Log Ratio | RecPO (Ratio) |
|---|
| MovieLens | 0.3160 | 0.3247 | 0.3451 |
| Amazon-Books | 0.5370 | 0.5455 | 0.5802 |
비율 기반 마진 함수가 모든 데이터셋에서 최고 성능을 달성합니다.
RecPO는 4가지 핵심 차원에서 인간 정렬 행동을 나타냅니다:
- 시간적 맥락 민감성: 미래의 높은 평점 항목을 포함하는 후보 집합에서 RecPO는 시간적으로 적절한 항목을 더 잘 우선시합니다
- 선호도 강도 인식: 결국 낮은 평점을 받을 매력적인 항목 추천을 피할 수 있습니다
- 암시적 혐오 모델링: 명시적 혐오 레이블 없이도 사용자가 싫어하는 항목을 식별합니다
- 교차 맥락 견고성: 다양한 상호작용 이력 길이에서 안정적인 성능을 유지합니다
초기 방법인 GRU4Rec은 순환 신경망을 사용했고, SASRec은 자기 주의 메커니즘을 도입했습니다. 최근 방법들은 그래프 구조, 대조 학습 등의 기술을 통합합니다.
LLaRA, TALLRec 등의 방법은 LLM을 추천 시스템에 통합하지만, 주로 의미론적 이해에 초점을 맞추고 선호도 모델링의 세분화된 요소는 무시합니다.
RLHF에서 DPO 및 그 변형(IPO, CPO, KTO, SimPO)까지, 이러한 방법들은 주로 일반 NLP 작업을 대상으로 하며, S-DPO는 정렬 기술을 처음으로 추천 작업에 적응시켰습니다.
- 선호도 강도와 시간적 맥락은 LLM 추천 시스템에서 무시되었지만 핵심적인 요소입니다
- RecPO는 적응형 보상 마진을 통해 이러한 요소들을 효과적으로 통합하여 성능 향상과 인간 행동 정렬을 달성합니다
- 이 방법은 명시적 및 암시적 피드백 데이터셋 모두에서 일관된 개선을 보여줍니다
- 단순화된 선호도 구조: 단순화된 순차 선호도 구조를 채택했습니다
- 단일 맥락 요소: 만족 지연만을 맥락 요소로 고려합니다
- 평가 지표 제한: 주로 단일 지표에 의존하며 더 포괄적인 행동 패턴을 포착하지 못합니다
- 복잡한 선호도 계층 모델링: 더 복잡한 인지적으로 신뢰할 수 있는 선호도 구조 탐색
- 풍부한 맥락 요소: 더 많은 맥락 영향 요소 통합
- 포괄적 평가 프레임워크: 행동 지향적 평가 지표의 개발
- 정확한 문제 식별: 기존 방법의 핵심 문제(이진 선호도 모델링)를 명확하게 식별합니다
- 합리적인 방법 설계: 인지과학 원리를 기반으로 설계된 적응형 마진 메커니즘은 이론적 기초를 갖습니다
- 충분한 실험 설계: 개념 증명, 주요 실험, 제거 실험 및 행동 분석을 포함한 완전한 실험 프레임워크
- 강한 결과 설득력: 여러 데이터셋에서의 일관된 개선과 인간 행동 정렬 분석이 설득력을 강화합니다
- 이론적 분석 부족: 이러한 마진 설계가 효과적인 이유에 대한 심층적 이론 분석이 부족합니다
- 계산 복잡도 미논의: 기준선 방법 대비 계산 오버헤드 분석이 없습니다
- 초매개변수 민감성: 핵심 매개변수 λ에 대한 민감성 분석이 상대적으로 단순합니다
- 제한된 일반화 능력: 주로 특정 유형의 추천 작업에서 검증되었으며, 일반화 능력은 추가 검증이 필요합니다
- 학술적 기여: LLM 추천 시스템 연구에 새로운 연구 방향과 이론적 프레임워크를 제공합니다
- 실용적 가치: 직접 적용 가능한 개선 방법을 제공하며, 코드 공개는 재현성을 강화합니다
- 영감 제공: AI 시스템 설계에서 인지과학 원리의 중요성을 강조합니다
- 순차 추천 시스템: 명확한 시간 시퀀스와 평점 정보가 있는 추천 시나리오에 특히 적합합니다
- 개인화 애플리케이션: 세분화된 선호도 모델링이 필요한 개인화 서비스에 적합합니다
- 다중 모달 추천: 프레임워크 설계는 확장성이 있어 다중 모달 추천 작업에 적응할 수 있습니다
본 논문은 추천 시스템, LLM 정렬, 인지과학 등 여러 분야의 중요한 작업을 인용하며, 다음을 포함합니다:
- 고전적 추천 방법: GRU4Rec, SASRec, Caser
- LLM 정렬 기술: DPO, RLHF, SimPO
- 인지과학 기초: Astington & Jenkins (1995)의 인간 의사결정 메커니즘 연구
종합 평가: 이것은 이론적 기여, 방법론적 혁신 및 실험 검증 측면에서 모두 우수한 고품질 연구 논문입니다. 본 논문은 LLM 추천 시스템의 핵심 문제를 성공적으로 식별하고 해결하며, 제안된 RecPO 프레임워크는 좋은 이론적 기초와 실용적 가치를 갖습니다. 일부 제한사항이 있지만, 추천 시스템 및 LLM 정렬 연구 분야에 대한 기여는 상당합니다.