Sequential recommendation systems aspire to profile users by interpreting their interaction histories, echoing how humans make decisions by weighing experience, relative preference strength, and situational relevance. Yet, existing large language model (LLM)-based recommenders often fall short of mimicking the flexible, context-aware decision strategies humans exhibit, neglecting the structured, dynamic, and context-aware mechanisms fundamental to human behaviors. To bridge this gap, we propose RecPO, a preference optimization framework that models structured feedback and contextual delay to emulate human-like prioritization in sequential recommendation. RecPO exploits adaptive reward margins based on inferred preference hierarchies and temporal signals, enabling the model to favor immediately relevant items and to distinguish between varying degrees of preference and aversion. Extensive experiments across five real-world datasets demonstrate that RecPO not only yields performance gains over state-of-the-art baselines, but also mirrors key characteristics of human decision-making: favoring timely satisfaction, maintaining coherent preferences, and exercising discernment under shifting contexts.
- معرّف الورقة: 2506.02261
- العنوان: What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context
- المؤلفون: Zhongyu Ouyang, Qianlong Wen, Chunhui Zhang, Yanfang Ye, Soroush Vosoughi
- المؤسسات: Dartmouth College, University of Notre Dame
- التصنيف: cs.IR, cs.LG
- تاريخ النشر: 10 أكتوبر 2025 (arXiv v2)
- رابط الورقة: https://arxiv.org/abs/2506.02261v2
تسعى أنظمة التوصية المتسلسلة إلى تحديد ملف تعريف المستخدمين من خلال تفسير سجلات تفاعلاتهم، مما يعكس كيفية اتخاذ البشر للقرارات من خلال موازنة الخبرة وقوة التفضيل النسبية والصلة الموقفية. ومع ذلك، غالباً ما تقصر الموصيات القائمة على نماذج اللغة الكبيرة (LLM) عن محاكاة استراتيجيات القرار المرنة والمدركة للسياق التي يظهرها البشر، متجاهلة الآليات المنظمة والديناميكية والمدركة للسياق الأساسية للسلوك البشري. لسد هذه الفجوة، نقترح RecPO، إطار عمل لتحسين التفضيلات يصمم التعليقات المنظمة والتأخير السياقي لمحاكاة الأولويات الشبيهة بالبشر في التوصية المتسلسلة. يستغل RecPO هوامش مكافآت تكيفية بناءً على التسلسلات الهرمية للتفضيلات المستدلة والإشارات الزمنية، مما يمكّن النموذج من تفضيل العناصر ذات الصلة الفورية والتمييز بين درجات مختلفة من التفضيل والنفور. تُظهر التجارب الموسعة عبر خمس مجموعات بيانات من العالم الحقيقي أن RecPO لا يحقق فقط مكاسب في الأداء على أفضل الخطوط الأساسية، بل يعكس أيضاً الخصائص الرئيسية لصنع القرار البشري: تفضيل الرضا في الوقت المناسب، والحفاظ على التفضيلات المتماسكة، وممارسة التمييز في السياقات المتغيرة.
تواجه أنظمة التوصية المتسلسلة القائمة على نماذج اللغة الكبيرة المشاكل الرئيسية التالية:
- نمذجة التفضيل الثنائية: تتعامل الطرق الموجودة مثل DPO ومتغيراتها مع جميع التفضيلات من خلال المقارنات الثنائية المزدوجة، متجاهلة الاختلافات في كثافة التفضيل
- غياب السياق الزمني: افتقار إلى نمذجة الحساسية الزمنية، عدم القدرة على التمييز بين الرضا الفوري والرضا المؤجل
- تجاهل آليات القرار البشري: عدم محاكاة الآليات المعقدة التي يوازن بها البشر الخبرة وقوة التفضيل النسبية والصلة الموقفية
يعكس السلوك القراري للبشر التفضيلات المرتبة (الحب الشديد مقابل الإعجاب الخفيف) والحساسية الزمنية (الرضا الفوري مقابل المؤجل)، وهذه الخصائص مثبتة بشكل كامل في الاقتصاد السلوكي وعلم الإدراك، لكنها يتم تجاهلها على نطاق واسع في محاذاة التفضيلات في أنظمة التوصية الحالية القائمة على نماذج اللغة الكبيرة. يحدد المؤلفون من خلال دراسة تجريبية منهجية عاملين رئيسيين:
- كثافة التفضيل: القوة المرتبة للألفة أو النفور لدى المستخدم
- السياق الزمني: فورية الرضا
- المساهمة النظرية: إثبات منهجي لأن كثافة التفضيل والسياق الزمني هما عاملان رئيسيان في النمذجة الدقيقة للتفضيلات في أنظمة التوصية القائمة على نماذج اللغة الكبيرة، مما يطعن في نموذج التفضيل الثنائي الموجود
- المساهمة في الطريقة: اقتراح إطار عمل RecPO الذي يدمج هذه العوامل من خلال هوامش مكافآت تكيفية بناءً على كثافة التفضيل والسياق الزمني
- المساهمة التجريبية: تُظهر التجارب على خمس مجموعات بيانات أن RecPO لا يحسّن الدقة فحسب، بل يُظهر أيضاً خصائص سلوكية متسقة مع التفضيلات البشرية: إعطاء الأولوية للرضا في الوقت المناسب، الحفاظ على اتساق التفضيل في السياقات المتغيرة
بالنظر إلى سجل التفاعل للمستخدم u في الوقت t وهو Hut ومجموعة العناصر المرشحة C={i(j)}j=1K، حيث Hut∩C=∅ و ipt+1∈C، يجب على النموذج πθ التنبؤ بالعنصر الذي من المرجح أن يفضله المستخدم ipt+1.
الابتكار الأساسي في RecPO هو تعريف هامش المكافآت المستهدفة التكيفية γr، والتي يتم تحديدها ديناميكياً بواسطة التفضيلات المنظمة والحداثة النسبية:
γr=λϕ(sd,Δtd)ϕ(sp,Δtp)
حيث:
- sp,sd هي درجات التفضيل المنظمة للعناصر المفضلة وغير المفضلة على التوالي
- Δtp=tp+−t يمثل التأخير الزمني للتفاعل
- ϕ(s,Δt)=s/(Δt)0.5 هي دالة المنفعة
- λ يتحكم في حجم الهامش
بناءً على نموذج Bradley-Terry، يصمم RecPO احتمالية التفضيل على النحو التالي:
P∗(yp≻yd∣xu)=σ(r(xu,yp)−r(xu,yd)−γr)
يستخدم نموذج Plackett-Luce لتعميم المقارنات الثنائية إلى إطار عمل الترتيب على مستوى القائمة، والدالة الموضوعية النهائية هي:
L(πθ;πref)=−E(xu,yp,Td)∼D[logσ(−log∑yd∈Tdexp(βlogπref(yd∣xu)πθ(yd∣xu)−βlogπref(yp∣xu)πθ(yp∣xu)−λϕ(sd,Δtd)ϕ(sp,Δtp)))]
- تصميم الهامش غير المنتظم: على عكس الأعمال السابقة التي تستخدم هوامش موحدة، يقوم RecPO بتعديل الهامش ديناميكياً بناءً على كثافة التفضيل والمسافة الزمنية
- استخدام التعليقات الشاملة: الاحتفاظ بسلسلة التفاعل الكاملة، بما في ذلك التعليقات السلبية، والجمع بين التقييمات الصريحة
- المحاذاة مع الإدراك البشري: آلية نمذجة التفضيل المصممة بناءً على مبادئ العلوم الإدراكية
استخدام خمس مجموعات بيانات توصية متسلسلة من العالم الحقيقي:
- مجموعات البيانات ذات التعليقات الصريحة: MovieLens-1M و Amazon-Books و BeerAdvocate
- مجموعات البيانات ذات التعليقات الضمنية: Steam و LastFM
| مجموعة البيانات | عدد التسلسلات | عدد العناصر | عدد التفاعلات |
|---|
| MovieLens | 6,040 | 3,952 | 994,169 |
| Amazon-Books | 5,103 | 38,203 | 62,290 |
| Steam | 3,171 | 4,251 | 82,072 |
| BeerAdvocate | 4,724 | 6,105 | 91,207 |
| LastFM | 982 | 107,296 | 307,829 |
- نسبة الضربة@1 (Hit Ratio@1): قياس نسبة التوصيات الصحيحة للنموذج
- نسبة الصحة (Valid Ratio): تقييم القدرة على اتباع التعليمات، تحديد المخرجات المتوافقة مع متطلبات الصيغة
- الطرق التقليدية: GRU4Rec و Caser و SASRec
- طرق نماذج اللغة الكبيرة: DPO و SimPO و S-DPO
- النماذج الأساسية: LLaMA3-8B و Qwen2.5-7B
- معدل التعلم: 1e-5، المحسّن: AdamW
- حجم الدفعة: 128، طول التسلسل: حسب مجموعة البيانات
- عدد العينات السلبية: 3، معامل الهامش λ: 2
- الأجهزة: 8×NVIDIA RTX A100 (80GB)
حقق RecPO أفضل أداء على جميع مجموعات البيانات الخمس:
| النموذج | MovieLens HR@1 | Amazon-Books HR@1 | BeerAdvocate HR@1 | Steam HR@1 | LastFM HR@1 |
|---|
| SASRec | 0.2671 | 0.1559 | 0.3800 | 0.4587 | 0.6659 |
| S-DPO | 0.2902 | 0.5065 | 0.4698 | 0.3588 | 0.5719 |
| RecPO | 0.3451 | 0.5802 | 0.5771 | 0.4672 | 0.6830 |
- أهمية التعليقات الشاملة: الاحتفاظ بالتفاعلات السلبية يحسّن الأداء أكثر من استخدام التعليقات الإيجابية فقط
- قيمة الإشارات المنظمة: إضافة معلومات التقييم تحسّن الأداء بشكل كبير
- التكامل بين العوامل: تأتي أفضل أداء من الجمع بين التعليقات الشاملة والإشارات المنظمة
تُظهر دراسة الاستبدال لدالة الهامش:
| مجموعة البيانات | Log Diff | Log Ratio | RecPO (Ratio) |
|---|
| MovieLens | 0.3160 | 0.3247 | 0.3451 |
| Amazon-Books | 0.5370 | 0.5455 | 0.5802 |
تحقق دالة الهامش القائمة على النسبة أفضل أداء على جميع مجموعات البيانات.
يُظهر RecPO سلوكاً محاذياً للبشر في أربعة أبعاد رئيسية:
- الحساسية للسياق الزمني: في مجموعات المرشحين التي تحتوي على عناصر عالية التقييم في المستقبل، يمكن لـ RecPO أن يعطي الأولوية بشكل أفضل للعناصر المناسبة زمنياً
- إدراك كثافة التفضيل: القدرة على تجنب التوصية بالعناصر الجذابة التي ينتهي بها الحال إلى تقييم منخفض
- نمذجة النفور الضمني: تحديد العناصر التي لا يحبها المستخدم دون الحاجة إلى علامات نفور صريحة
- الثبات عبر السياقات: الحفاظ على أداء مستقرة مع أطوال سجلات تفاعل مختلفة
استخدمت الطرق المبكرة مثل GRU4Rec الشبكات العصبية المتكررة، وقدم SASRec آلية الانتباه الذاتي. تدمج الطرق الحديثة الهياكل الرسومية والتعلم対比ي وغيرها.
تدمج طرق مثل LLaRA و TALLRec نماذج اللغة الكبيرة في أنظمة التوصية، لكنها تركز بشكل أساسي على الفهم الدلالي بدلاً من العوامل الدقيقة في نمذجة التفضيلات.
من RLHF إلى DPO ومتغيراتها (IPO و CPO و KTO و SimPO)، تركز هذه الطرق بشكل أساسي على مهام معالجة اللغة الطبيعية العامة، وكان S-DPO أول من يكيّف تقنيات المحاذاة مع مهام التوصية.
- كثافة التفضيل والسياق الزمني عاملان مهملان لكن حاسمان في أنظمة التوصية القائمة على نماذج اللغة الكبيرة
- يدمج RecPO هذه العوامل بفعالية من خلال هوامش المكافآت التكيفية، مما يحقق تحسناً في الأداء والمحاذاة مع السلوك البشري
- تُظهر الطريقة تحسناً متسقاً على مجموعات البيانات ذات التعليقات الصريحة والضمنية
- هيكل التفضيل المبسط: اعتماد هيكل تفضيل متسلسل مبسط
- عامل سياق واحد: النظر فقط في تأخير الرضا كعامل سياقي
- قيود مقاييس التقييم: الاعتماد بشكل أساسي على مقياس واحد، عدم التقاط أنماط سلوكية أكثر شمولاً
- نمذجة التسلسلات الهرمية للتفضيلات المعقدة: استكشاف هياكل تفضيل معرفية أكثر موثوقية
- إثراء عوامل السياق: دمج المزيد من عوامل التأثير السياقي
- إطار عمل تقييم شامل: تطوير مقاييس تقييم موجهة نحو السلوك أكثر شمولاً
- تحديد المشكلة دقيق: تحديد واضح للمشاكل الأساسية في الطرق الموجودة (نمذجة التفضيل الثنائية)
- تصميم الطريقة معقول: آلية الهامش التكيفية المصممة بناءً على مبادئ العلوم الإدراكية لها أساس نظري
- إعداد التجربة شامل: إطار عمل تجريبي كامل يتضمن إثبات المفهوم والتجارب الرئيسية ودراسات الاستبدال وتحليل السلوك
- قوة النتائج: التحسن المتسق عبر مجموعات بيانات متعددة وتحليل المحاذاة مع السلوك البشري يعزز الإقناع
- نقص التحليل النظري: غياب التحليل النظري العميق لسبب فعالية تصميم الهامش هذا
- عدم مناقشة التعقيد الحسابي: عدم تحليل النفقات الحسابية مقارنة بطرق الخط الأساسي
- تحليل حساسية المعاملات: تحليل نسبياً بسيط لحساسية المعامل الرئيسي λ
- قدرة التعميم محدودة: التحقق بشكل أساسي على أنواع معينة من مهام التوصية، وقدرة التعميم تحتاج إلى التحقق
- المساهمة الأكاديمية: توفير اتجاه بحثي جديد وإطار عمل نظري لأبحاث أنظمة التوصية القائمة على نماذج اللغة الكبيرة
- القيمة العملية: توفير طريقة محسّنة قابلة للتطبيق المباشر، وإصدار الكود مفتوح المصدر يعزز القابلية للتكرار
- الدلالة الإرشادية: التأكيد على أهمية مبادئ العلوم الإدراكية في تصميم أنظمة الذكاء الاصطناعي
- أنظمة التوصية المتسلسلة: مناسبة بشكل خاص للسيناريوهات التي تحتوي على سلاسل زمنية واضحة ومعلومات تقييم
- التطبيقات الشخصية: مناسبة للخدمات الشخصية التي تتطلب نمذجة تفضيلات دقيقة
- التوصية متعددة الأنماط: تصميم الإطار له قابلية توسع، يمكن تكييفه مع مهام التوصية متعددة الأنماط
تستشهد هذه الورقة بأعمال مهمة من مجالات متعددة بما في ذلك أنظمة التوصية وتقنيات محاذاة نماذج اللغة الكبيرة والعلوم الإدراكية، بما في ذلك:
- الطرق الموصية الكلاسيكية: GRU4Rec و SASRec و Caser
- تقنيات محاذاة نماذج اللغة الكبيرة: DPO و RLHF و SimPO
- أساس العلوم الإدراكية: بحث Astington & Jenkins (1995) حول آليات القرار البشري
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تُظهر أداءً ممتازاً من حيث المساهمات النظرية والابتكار في الطريقة والتحقق التجريبي. تنجح الورقة في تحديد وحل المشاكل الرئيسية في أنظمة التوصية القائمة على نماذج اللغة الكبيرة، وإطار عمل RecPO المقترح له أساس نظري جيد وقيمة عملية. على الرغم من وجود بعض القيود، فإن مساهماتها في مجالات أبحاث أنظمة التوصية ومحاذاة نماذج اللغة الكبيرة كبيرة وذات مغزى.