2025-11-22T10:40:16.215584

What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context

Ouyang, Wen, Zhang et al.
Sequential recommendation systems aspire to profile users by interpreting their interaction histories, echoing how humans make decisions by weighing experience, relative preference strength, and situational relevance. Yet, existing large language model (LLM)-based recommenders often fall short of mimicking the flexible, context-aware decision strategies humans exhibit, neglecting the structured, dynamic, and context-aware mechanisms fundamental to human behaviors. To bridge this gap, we propose RecPO, a preference optimization framework that models structured feedback and contextual delay to emulate human-like prioritization in sequential recommendation. RecPO exploits adaptive reward margins based on inferred preference hierarchies and temporal signals, enabling the model to favor immediately relevant items and to distinguish between varying degrees of preference and aversion. Extensive experiments across five real-world datasets demonstrate that RecPO not only yields performance gains over state-of-the-art baselines, but also mirrors key characteristics of human decision-making: favoring timely satisfaction, maintaining coherent preferences, and exercising discernment under shifting contexts.
academic

LLMs को प्रभावी अनुक्रमिक अनुशंसाकार क्या बनाता है? प्राथमिकता तीव्रता और अस्थायी संदर्भ पर एक अध्ययन

मूल जानकारी

  • पेपर ID: 2506.02261
  • शीर्षक: What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context
  • लेखक: Zhongyu Ouyang, Qianlong Wen, Chunhui Zhang, Yanfang Ye, Soroush Vosoughi
  • संस्थान: Dartmouth College, University of Notre Dame
  • वर्गीकरण: cs.IR, cs.LG
  • प्रकाशन तिथि: 25 अक्टूबर, 2025 (arXiv v2)
  • पेपर लिंक: https://arxiv.org/abs/2506.02261v2

सारांश

अनुक्रमिक अनुशंसा प्रणालियाँ उपयोगकर्ताओं को उनके इंटरैक्शन इतिहास की व्याख्या करके प्रोफाइल करने का प्रयास करती हैं, जो मनुष्यों द्वारा अनुभव, सापेक्ष प्राथमिकता शक्ति और स्थितिगत प्रासंगिकता को तौलकर निर्णय लेने के तरीके को दर्शाता है। तथापि, मौजूदा बड़े भाषा मॉडल (LLM) आधारित अनुशंसाकार अक्सर मनुष्यों द्वारा प्रदर्शित लचीले, संदर्भ-जागरूक निर्णय रणनीतियों की नकल करने में विफल रहते हैं, मानव व्यवहार के लिए मौलिक संरचित, गतिशील और संदर्भ-जागरूक तंत्र को नज़रअंदाज़ करते हैं। इस अंतर को पाटने के लिए, हम RecPO प्रस्तावित करते हैं, एक प्राथमिकता अनुकूलन ढांचा जो अनुक्रमिक अनुशंसा में मानव-जैसी प्राथमिकता की नकल करने के लिए संरचित प्रतिक्रिया और संदर्भगत विलंब को मॉडल करता है। RecPO अनुमानित प्राथमिकता पदानुक्रमों और अस्थायी संकेतों के आधार पर अनुकूली पुरस्कार मार्जिन का उपयोग करता है, जिससे मॉडल तुरंत प्रासंगिक वस्तुओं का पक्ष लेता है और प्राथमिकता और विरोध की विभिन्न डिग्री के बीच अंतर करता है। पाँच वास्तविक-विश्व डेटासेट में व्यापक प्रयोग दर्शाते हैं कि RecPO न केवल अत्याधुनिक आधारभूत विधियों पर प्रदर्शन लाभ प्राप्त करता है, बल्कि मानव निर्णय-निर्माण की मुख्य विशेषताओं को भी प्रतिबिंबित करता है: समय पर संतुष्टि का पक्ष लेना, सुसंगत प्राथमिकताओं को बनाए रखना, और बदलते संदर्भों में विवेक का प्रयोग करना।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मौजूदा बड़े भाषा मॉडल (LLM) आधारित अनुक्रमिक अनुशंसा प्रणालियों में मुख्य रूप से निम्नलिखित समस्याएँ हैं:

  1. द्विआधारी प्राथमिकता मॉडलिंग: DPO और इसके वेरिएंट जैसी मौजूदा विधियाँ सभी प्राथमिकताओं को द्विआधारी युग्म तुलना के माध्यम से संभालती हैं, प्राथमिकता तीव्रता में अंतर को नज़रअंदाज़ करती हैं
  2. अस्थायी संदर्भ की कमी: समय संवेदनशीलता की मॉडलिंग की कमी, तत्काल संतुष्टि और विलंबित संतुष्टि के बीच अंतर करने में असमर्थता
  3. मानव निर्णय तंत्र की उपेक्षा: निर्णय प्रक्रिया में अनुभव, सापेक्ष प्राथमिकता शक्ति और स्थितिगत प्रासंगिकता को संतुलित करने के जटिल तंत्र की नकल करने में विफल

अनुसंधान प्रेरणा

मानव निर्णय व्यवहार पदानुक्रमीय प्राथमिकताओं (तीव्र पसंद बनाम हल्की पसंद) और अस्थायी संवेदनशीलता (तत्काल बनाम विलंबित संतुष्टि) को प्रदर्शित करता है, ये विशेषताएँ व्यवहारिक अर्थशास्त्र और संज्ञानात्मक विज्ञान में पूरी तरह से प्रमाणित हैं, लेकिन वर्तमान LLM अनुशंसा प्रणालियों की प्राथमिकता संरेखण में बड़े पैमाने पर नज़रअंदाज़ की जाती हैं। यह पेपर व्यवस्थित अनुभवजन्य अनुसंधान के माध्यम से दो महत्वपूर्ण कारकों की पहचान करता है:

  • प्राथमिकता तीव्रता: उपयोगकर्ता आत्मीयता या घृणा की पदानुक्रमीय तीव्रता
  • अस्थायी संदर्भ: संतुष्टि की तत्काल प्रकृति

मुख्य अंतर्दृष्टि

वैचारिक प्रमाण प्रयोग के माध्यम से, लेखकों ने दो महत्वपूर्ण कारकों की पहचान की:

  • प्राथमिकता तीव्रता: उपयोगकर्ता आत्मीयता या विरोध की पदानुक्रमीय तीव्रता
  • अस्थायी संदर्भ: संतुष्टि की तत्काल प्रकृति

मुख्य योगदान

  1. सैद्धांतिक योगदान: LLM अनुशंसा प्रणालियों में प्राथमिकता तीव्रता और अस्थायी संदर्भ को सूक्ष्म-दानेदार प्राथमिकता मॉडलिंग के लिए महत्वपूर्ण कारकों के रूप में व्यवस्थित रूप से प्रमाणित करता है, मौजूदा द्विआधारी प्राथमिकता प्रतिमान को चुनौती देता है
  2. विधि योगदान: RecPO ढांचा प्रस्तावित करता है, जो प्राथमिकता तीव्रता और अस्थायी संदर्भ के आधार पर अनुकूली पुरस्कार मार्जिन के माध्यम से इन कारकों को एकीकृत करता है
  3. अनुभवजन्य योगदान: पाँच डेटासेट पर प्रयोग दर्शाते हैं कि RecPO न केवल सटीकता में सुधार करता है, बल्कि मानव प्राथमिकता के अनुरूप व्यवहार विशेषताओं को भी प्रदर्शित करता है: तत्काल संतुष्टि को प्राथमिकता देना, बदलते संदर्भों में प्राथमिकता सुसंगतता बनाए रखना

विधि विवरण

कार्य परिभाषा

समय tt पर उपयोगकर्ता uu के इंटरैक्शन इतिहास HutH_u^t और उम्मीदवार वस्तु सेट C={i(j)}j=1KC = \{i^{(j)}\}_{j=1}^K को देखते हुए, जहाँ HutC=H_u^t \cap C = \emptyset और ipt+1Ci_p^{t+1} \in C, मॉडल πθ\pi_\theta को उपयोगकर्ता द्वारा सबसे अधिक पसंद की जाने वाली वस्तु ipt+1i_p^{t+1} की भविष्यवाणी करनी चाहिए।

मुख्य विधि: RecPO ढांचा

1. अनुकूली पुरस्कार मार्जिन

RecPO का मुख्य नवाचार अनुकूली लक्ष्य पुरस्कार मार्जिन γr\gamma_r को परिभाषित करना है, जो संरचित प्राथमिकता और सापेक्ष समयानुवर्तिता द्वारा गतिशील रूप से निर्धारित होता है:

γr=λϕ(sp,Δtp)ϕ(sd,Δtd)\gamma_r = \lambda \frac{\phi(s_p, \Delta t_p)}{\phi(s_d, \Delta t_d)}

जहाँ:

  • sp,sds_p, s_d क्रमशः प्राथमिकता और गैर-प्राथमिकता वस्तुओं के संरचित प्राथमिकता स्कोर हैं
  • Δtp=tp+t\Delta t_p = t_p^+ - t इंटरैक्शन के अस्थायी विलंब को दर्शाता है
  • ϕ(s,Δt)=s/(Δt)0.5\phi(s, \Delta t) = s/(\Delta t)^{0.5} उपयोगिता फलन है
  • λ\lambda मार्जिन के आयाम को नियंत्रित करता है

2. प्राथमिकता वितरण मॉडलिंग

Bradley-Terry मॉडल के आधार पर, RecPO प्राथमिकता संभावना को मॉडल करता है:

P(ypydxu)=σ(r(xu,yp)r(xu,yd)γr)P^*(y_p \succ y_d | x_u) = \sigma(r(x_u, y_p) - r(x_u, y_d) - \gamma_r)

3. उद्देश्य फलन

Plackett-Luce मॉडल को युग्म तुलना को सूची-स्तरीय रैंकिंग ढांचे में सामान्यीकृत करने के लिए अपनाता है, अंतिम उद्देश्य फलन:

L(πθ;πref)=E(xu,yp,Td)D[logσ(logydTdexp(βlogπθ(ydxu)πref(ydxu)βlogπθ(ypxu)πref(ypxu)λϕ(sp,Δtp)ϕ(sd,Δtd)))]L(\pi_\theta; \pi_{ref}) = -E_{(x_u,y_p,T_d)\sim D}\left[\log \sigma\left(-\log \sum_{y_d \in T_d} \exp\left(\beta \log \frac{\pi_\theta(y_d|x_u)}{\pi_{ref}(y_d|x_u)} - \beta \log \frac{\pi_\theta(y_p|x_u)}{\pi_{ref}(y_p|x_u)} - \lambda \frac{\phi(s_p,\Delta t_p)}{\phi(s_d,\Delta t_d)}\right)\right)\right]

तकनीकी नवाचार बिंदु

  1. गैर-समान मार्जिन डिज़ाइन: पूर्ववर्ती कार्यों के विपरीत जो एकीकृत मार्जिन का उपयोग करते हैं, RecPO प्राथमिकता तीव्रता और अस्थायी दूरी के आधार पर मार्जिन को गतिशील रूप से समायोजित करता है
  2. व्यापक प्रतिक्रिया उपयोग: नकारात्मक प्रतिक्रिया सहित पूर्ण इंटरैक्शन अनुक्रम को बनाए रखता है, और स्पष्ट रेटिंग के साथ संयोजित करता है
  3. मानव संज्ञानात्मक संरेखण: संज्ञानात्मक विज्ञान सिद्धांतों के आधार पर डिज़ाइन किया गया प्राथमिकता मॉडलिंग तंत्र

प्रयोग सेटअप

डेटासेट

पाँच वास्तविक-विश्व अनुक्रमिक अनुशंसा डेटासेट का उपयोग:

  • स्पष्ट प्रतिक्रिया डेटासेट: MovieLens-1M, Amazon-Books, BeerAdvocate
  • निहित प्रतिक्रिया डेटासेट: Steam, LastFM
डेटासेटअनुक्रम संख्यावस्तु संख्याइंटरैक्शन संख्या
MovieLens6,0403,952994,169
Amazon-Books5,10338,20362,290
Steam3,1714,25182,072
BeerAdvocate4,7246,10591,207
LastFM982107,296307,829

मूल्यांकन मेट्रिक्स

  • Hit Ratio@1: सही वस्तु की सिफारिश करने वाले मॉडल के अनुपात को मापता है
  • Valid Ratio: निर्देश पालन क्षमता का मूल्यांकन करता है, प्रारूप आवश्यकताओं को पूरा करने वाले आउटपुट को परिमाणित करता है

तुलना विधियाँ

  • पारंपरिक विधियाँ: GRU4Rec, Caser, SASRec
  • LLM विधियाँ: DPO, SimPO, S-DPO
  • आधार मॉडल: LLaMA3-8B, Qwen2.5-7B

कार्यान्वयन विवरण

  • सीखने की दर: 1e-5, अनुकूलक: AdamW
  • बैच आकार: 128, अनुक्रम लंबाई: डेटासेट के अनुसार समायोजित
  • नकारात्मक नमूने संख्या: 3, मार्जिन पैरामीटर λ: 2
  • हार्डवेयर: 8×NVIDIA RTX A100 (80GB)

प्रयोग परिणाम

मुख्य परिणाम

सभी पाँच डेटासेट पर, RecPO ने सर्वश्रेष्ठ प्रदर्शन प्राप्त किया:

मॉडलMovieLens HR@1Amazon-Books HR@1BeerAdvocate HR@1Steam HR@1LastFM HR@1
SASRec0.26710.15590.38000.45870.6659
S-DPO0.29020.50650.46980.35880.5719
RecPO0.34510.58020.57710.46720.6830

मुख्य निष्कर्ष

  1. व्यापक प्रतिक्रिया का महत्व: नकारात्मक इंटरैक्शन को बनाए रखना केवल सकारात्मक प्रतिक्रिया का उपयोग करने की तुलना में प्रदर्शन में सुधार करता है
  2. संरचित संकेत का मूल्य: रेटिंग जानकारी जोड़ना प्रदर्शन में महत्वपूर्ण सुधार करता है
  3. कारक पूरकता: सर्वश्रेष्ठ प्रदर्शन व्यापक प्रतिक्रिया और संरचित संकेत के संयोजन से आता है

विलोपन प्रयोग

मार्जिन फलन के विलोपन अध्ययन से पता चलता है:

डेटासेटLog DiffLog RatioRecPO (Ratio)
MovieLens0.31600.32470.3451
Amazon-Books0.53700.54550.5802

अनुपात-आधारित मार्जिन फलन सभी डेटासेट पर सर्वश्रेष्ठ प्रदर्शन प्राप्त करता है।

मानव संरेखण व्यवहार विश्लेषण

RecPO चार मुख्य आयामों पर मानव-संरेखित व्यवहार प्रदर्शित करता है:

  1. अस्थायी संदर्भ संवेदनशीलता: भविष्य की उच्च-रेटेड वस्तुओं वाले उम्मीदवार सेट में, RecPO समय पर उपयुक्त वस्तुओं को बेहतर तरीके से प्राथमिकता दे सकता है
  2. प्राथमिकता तीव्रता जागरूकता: अंततः कम-रेटेड आकर्षक वस्तुओं की सिफारिश करने से बच सकता है
  3. निहित विरोध मॉडलिंग: स्पष्ट विरोध लेबल के बिना उपयोगकर्ता द्वारा पसंद न की जाने वाली वस्तुओं की पहचान कर सकता है
  4. क्रॉस-संदर्भ मजबूती: विभिन्न इंटरैक्शन इतिहास लंबाई के तहत स्थिर प्रदर्शन बनाए रखता है

संबंधित कार्य

अनुक्रमिक अनुशंसा

GRU4Rec जैसी प्रारंभिक विधियाँ पुनरावर्ती तंत्रिका नेटवर्क का उपयोग करती हैं, SASRec स्व-ध्यान तंत्र का परिचय देता है। हाल की विधियाँ ग्राफ संरचना, विपरीत शिक्षा आदि तकनीकों को एकीकृत करती हैं।

LLM अनुशंसा प्रणालियाँ

LLaRA, TALLRec जैसी विधियाँ LLM को अनुशंसा प्रणालियों में एकीकृत करती हैं, लेकिन मुख्य रूप से प्राथमिकता मॉडलिंग के सूक्ष्म-दानेदार कारकों के बजाय शब्दार्थ समझ पर ध्यान केंद्रित करती हैं।

LLM संरेखण तकनीकें

RLHF से DPO और इसके वेरिएंट (IPO, CPO, KTO, SimPO) तक, ये विधियाँ मुख्य रूप से सामान्य NLP कार्यों के लिए हैं, S-DPO पहली बार संरेखण तकनीकों को अनुशंसा कार्य में अनुकूलित करता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. प्राथमिकता तीव्रता और अस्थायी संदर्भ LLM अनुशंसा प्रणालियों में नज़रअंदाज़ किए गए लेकिन महत्वपूर्ण कारक हैं
  2. RecPO अनुकूली पुरस्कार मार्जिन के माध्यम से इन कारकों को प्रभावी रूप से एकीकृत करता है, प्रदर्शन सुधार और मानव व्यवहार संरेखण प्राप्त करता है
  3. यह विधि स्पष्ट और निहित प्रतिक्रिया डेटासेट पर सुसंगत सुधार प्रदर्शित करती है

सीमाएँ

  1. सरलीकृत प्राथमिकता संरचना: सरलीकृत अनुक्रमिक प्राथमिकता संरचना को अपनाया गया है
  2. एकल संदर्भ कारक: संतुष्टि विलंब को केवल संदर्भ कारक के रूप में माना जाता है
  3. मूल्यांकन मेट्रिक सीमाएँ: मुख्य रूप से एकल मेट्रिक पर निर्भर, अधिक व्यापक व्यवहार पैटर्न को कैप्चर नहीं करता है

भविष्य की दिशाएँ

  1. जटिल प्राथमिकता पदानुक्रम मॉडलिंग: अधिक जटिल संज्ञानात्मक रूप से विश्वसनीय प्राथमिकता संरचनाओं की खोज करना
  2. समृद्ध संदर्भ कारक: अधिक संदर्भ प्रभाव कारकों को एकीकृत करना
  3. व्यापक मूल्यांकन ढांचा: अधिक व्यापक व्यवहार-उन्मुख मूल्यांकन मेट्रिक्स विकसित करना

गहन मूल्यांकन

शक्तियाँ

  1. समस्या पहचान सटीक: मौजूदा विधियों की मुख्य समस्या (द्विआधारी प्राथमिकता मॉडलिंग) को स्पष्ट रूप से पहचानता है
  2. विधि डिज़ाइन तर्कसंगत: संज्ञानात्मक विज्ञान सिद्धांतों के आधार पर डिज़ाइन किया गया अनुकूली मार्जिन तंत्र सैद्धांतिक आधार रखता है
  3. प्रयोग डिज़ाइन व्यापक: वैचारिक प्रमाण, मुख्य प्रयोग, विलोपन प्रयोग और व्यवहार विश्लेषण का पूर्ण प्रयोग ढांचा शामिल है
  4. परिणाम विश्वसनीयता मजबूत: कई डेटासेट पर सुसंगत सुधार और मानव व्यवहार संरेखण विश्लेषण विश्वसनीयता को बढ़ाता है

कमियाँ

  1. सैद्धांतिक विश्लेषण अपर्याप्त: यह समझाने के लिए गहन सैद्धांतिक विश्लेषण की कमी कि यह मार्जिन डिज़ाइन प्रभावी क्यों है
  2. कम्प्यूटेशनल जटिलता अचर्चित: आधारभूत विधियों की तुलना में कम्प्यूटेशनल ओवरहेड का विश्लेषण नहीं किया गया है
  3. हाइपरपैरामीटर संवेदनशीलता: मुख्य पैरामीटर λ के प्रति संवेदनशीलता विश्लेषण अपेक्षाकृत सरल है
  4. सामान्यीकरण क्षमता सीमित: मुख्य रूप से विशिष्ट प्रकार के अनुशंसा कार्यों पर सत्यापित, सामान्यीकरण क्षमता सत्यापन की प्रतीक्षा में है

प्रभाव

  1. शैक्षणिक योगदान: LLM अनुशंसा प्रणाली अनुसंधान के लिए नई अनुसंधान दिशा और सैद्धांतिक ढांचा प्रदान करता है
  2. व्यावहारिक मूल्य: सीधे लागू किए जा सकने वाली सुधार विधि प्रदान करता है, कोड ओपन-सोर्स पुनरुत्पादनीयता को बढ़ाता है
  3. प्रेरणा महत्व: AI प्रणाली डिज़ाइन में संज्ञानात्मक विज्ञान सिद्धांतों के महत्व पर जोर देता है

लागू दृश्य

  1. अनुक्रमिक अनुशंसा प्रणालियाँ: विशेष रूप से स्पष्ट समय अनुक्रम और रेटिंग जानकारी वाले अनुशंसा परिदृश्यों के लिए उपयुक्त
  2. व्यक्तिगतकृत अनुप्रयोग: सूक्ष्म प्राथमिकता मॉडलिंग की आवश्यकता वाली व्यक्तिगतकृत सेवाओं के लिए उपयुक्त
  3. बहु-मोडल अनुशंसा: ढांचा डिज़ाइन विस्तारशीलता रखता है, बहु-मोडल अनुशंसा कार्यों के लिए अनुकूलित किया जा सकता है

संदर्भ

यह पेपर अनुशंसा प्रणाली, LLM संरेखण, संज्ञानात्मक विज्ञान आदि कई क्षेत्रों के महत्वपूर्ण कार्यों का उद्धरण देता है, जिनमें शामिल हैं:

  • शास्त्रीय अनुशंसा विधियाँ: GRU4Rec, SASRec, Caser
  • LLM संरेखण तकनीकें: DPO, RLHF, SimPO
  • संज्ञानात्मक विज्ञान आधार: Astington & Jenkins (1995) मानव निर्णय तंत्र पर अनुसंधान

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो सैद्धांतिक योगदान, विधि नवाचार और प्रयोग सत्यापन के सभी पहलुओं में उत्कृष्ट प्रदर्शन करता है। पेपर LLM अनुशंसा प्रणालियों में मुख्य समस्याओं की सफलतापूर्वक पहचान और समाधान करता है, प्रस्तावित RecPO ढांचा अच्छे सैद्धांतिक आधार और व्यावहारिक मूल्य रखता है। हालाँकि कुछ सीमाएँ हैं, लेकिन अनुशंसा प्रणाली और LLM संरेखण अनुसंधान क्षेत्र में इसका योगदान महत्वपूर्ण है।