2025-11-22T10:40:16.215584

What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context

Ouyang, Wen, Zhang et al.
Sequential recommendation systems aspire to profile users by interpreting their interaction histories, echoing how humans make decisions by weighing experience, relative preference strength, and situational relevance. Yet, existing large language model (LLM)-based recommenders often fall short of mimicking the flexible, context-aware decision strategies humans exhibit, neglecting the structured, dynamic, and context-aware mechanisms fundamental to human behaviors. To bridge this gap, we propose RecPO, a preference optimization framework that models structured feedback and contextual delay to emulate human-like prioritization in sequential recommendation. RecPO exploits adaptive reward margins based on inferred preference hierarchies and temporal signals, enabling the model to favor immediately relevant items and to distinguish between varying degrees of preference and aversion. Extensive experiments across five real-world datasets demonstrate that RecPO not only yields performance gains over state-of-the-art baselines, but also mirrors key characteristics of human decision-making: favoring timely satisfaction, maintaining coherent preferences, and exercising discernment under shifting contexts.
academic

ما الذي يجعل نماذج اللغة الكبيرة موصيات متسلسلة فعالة؟ دراسة حول كثافة التفضيل والسياق الزمني

المعلومات الأساسية

  • معرّف الورقة: 2506.02261
  • العنوان: What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context
  • المؤلفون: Zhongyu Ouyang, Qianlong Wen, Chunhui Zhang, Yanfang Ye, Soroush Vosoughi
  • المؤسسات: Dartmouth College, University of Notre Dame
  • التصنيف: cs.IR, cs.LG
  • تاريخ النشر: 10 أكتوبر 2025 (arXiv v2)
  • رابط الورقة: https://arxiv.org/abs/2506.02261v2

الملخص

تسعى أنظمة التوصية المتسلسلة إلى تحديد ملف تعريف المستخدمين من خلال تفسير سجلات تفاعلاتهم، مما يعكس كيفية اتخاذ البشر للقرارات من خلال موازنة الخبرة وقوة التفضيل النسبية والصلة الموقفية. ومع ذلك، غالباً ما تقصر الموصيات القائمة على نماذج اللغة الكبيرة (LLM) عن محاكاة استراتيجيات القرار المرنة والمدركة للسياق التي يظهرها البشر، متجاهلة الآليات المنظمة والديناميكية والمدركة للسياق الأساسية للسلوك البشري. لسد هذه الفجوة، نقترح RecPO، إطار عمل لتحسين التفضيلات يصمم التعليقات المنظمة والتأخير السياقي لمحاكاة الأولويات الشبيهة بالبشر في التوصية المتسلسلة. يستغل RecPO هوامش مكافآت تكيفية بناءً على التسلسلات الهرمية للتفضيلات المستدلة والإشارات الزمنية، مما يمكّن النموذج من تفضيل العناصر ذات الصلة الفورية والتمييز بين درجات مختلفة من التفضيل والنفور. تُظهر التجارب الموسعة عبر خمس مجموعات بيانات من العالم الحقيقي أن RecPO لا يحقق فقط مكاسب في الأداء على أفضل الخطوط الأساسية، بل يعكس أيضاً الخصائص الرئيسية لصنع القرار البشري: تفضيل الرضا في الوقت المناسب، والحفاظ على التفضيلات المتماسكة، وممارسة التمييز في السياقات المتغيرة.

خلفية البحث والدافع

تعريف المشكلة

تواجه أنظمة التوصية المتسلسلة القائمة على نماذج اللغة الكبيرة المشاكل الرئيسية التالية:

  1. نمذجة التفضيل الثنائية: تتعامل الطرق الموجودة مثل DPO ومتغيراتها مع جميع التفضيلات من خلال المقارنات الثنائية المزدوجة، متجاهلة الاختلافات في كثافة التفضيل
  2. غياب السياق الزمني: افتقار إلى نمذجة الحساسية الزمنية، عدم القدرة على التمييز بين الرضا الفوري والرضا المؤجل
  3. تجاهل آليات القرار البشري: عدم محاكاة الآليات المعقدة التي يوازن بها البشر الخبرة وقوة التفضيل النسبية والصلة الموقفية

دافع البحث

يعكس السلوك القراري للبشر التفضيلات المرتبة (الحب الشديد مقابل الإعجاب الخفيف) والحساسية الزمنية (الرضا الفوري مقابل المؤجل)، وهذه الخصائص مثبتة بشكل كامل في الاقتصاد السلوكي وعلم الإدراك، لكنها يتم تجاهلها على نطاق واسع في محاذاة التفضيلات في أنظمة التوصية الحالية القائمة على نماذج اللغة الكبيرة. يحدد المؤلفون من خلال دراسة تجريبية منهجية عاملين رئيسيين:

  • كثافة التفضيل: القوة المرتبة للألفة أو النفور لدى المستخدم
  • السياق الزمني: فورية الرضا

المساهمات الأساسية

  1. المساهمة النظرية: إثبات منهجي لأن كثافة التفضيل والسياق الزمني هما عاملان رئيسيان في النمذجة الدقيقة للتفضيلات في أنظمة التوصية القائمة على نماذج اللغة الكبيرة، مما يطعن في نموذج التفضيل الثنائي الموجود
  2. المساهمة في الطريقة: اقتراح إطار عمل RecPO الذي يدمج هذه العوامل من خلال هوامش مكافآت تكيفية بناءً على كثافة التفضيل والسياق الزمني
  3. المساهمة التجريبية: تُظهر التجارب على خمس مجموعات بيانات أن RecPO لا يحسّن الدقة فحسب، بل يُظهر أيضاً خصائص سلوكية متسقة مع التفضيلات البشرية: إعطاء الأولوية للرضا في الوقت المناسب، الحفاظ على اتساق التفضيل في السياقات المتغيرة

شرح الطريقة

تعريف المهمة

بالنظر إلى سجل التفاعل للمستخدم u في الوقت t وهو HutH_u^t ومجموعة العناصر المرشحة C={i(j)}j=1KC = \{i^{(j)}\}_{j=1}^K، حيث HutC=H_u^t \cap C = \emptyset و ipt+1Ci_p^{t+1} \in C، يجب على النموذج πθ\pi_\theta التنبؤ بالعنصر الذي من المرجح أن يفضله المستخدم ipt+1i_p^{t+1}.

الطريقة الأساسية: إطار عمل RecPO

1. هوامش المكافآت التكيفية

الابتكار الأساسي في RecPO هو تعريف هامش المكافآت المستهدفة التكيفية γr\gamma_r، والتي يتم تحديدها ديناميكياً بواسطة التفضيلات المنظمة والحداثة النسبية:

γr=λϕ(sp,Δtp)ϕ(sd,Δtd)\gamma_r = \lambda \frac{\phi(s_p, \Delta t_p)}{\phi(s_d, \Delta t_d)}

حيث:

  • sp,sds_p, s_d هي درجات التفضيل المنظمة للعناصر المفضلة وغير المفضلة على التوالي
  • Δtp=tp+t\Delta t_p = t_p^+ - t يمثل التأخير الزمني للتفاعل
  • ϕ(s,Δt)=s/(Δt)0.5\phi(s, \Delta t) = s/(\Delta t)^{0.5} هي دالة المنفعة
  • λ\lambda يتحكم في حجم الهامش

2. نمذجة توزيع التفضيل

بناءً على نموذج Bradley-Terry، يصمم RecPO احتمالية التفضيل على النحو التالي:

P(ypydxu)=σ(r(xu,yp)r(xu,yd)γr)P^*(y_p \succ y_d | x_u) = \sigma(r(x_u, y_p) - r(x_u, y_d) - \gamma_r)

3. دالة الهدف

يستخدم نموذج Plackett-Luce لتعميم المقارنات الثنائية إلى إطار عمل الترتيب على مستوى القائمة، والدالة الموضوعية النهائية هي:

L(πθ;πref)=E(xu,yp,Td)D[logσ(logydTdexp(βlogπθ(ydxu)πref(ydxu)βlogπθ(ypxu)πref(ypxu)λϕ(sp,Δtp)ϕ(sd,Δtd)))]L(\pi_\theta; \pi_{ref}) = -E_{(x_u,y_p,T_d)\sim D}\left[\log \sigma\left(-\log \sum_{y_d \in T_d} \exp\left(\beta \log \frac{\pi_\theta(y_d|x_u)}{\pi_{ref}(y_d|x_u)} - \beta \log \frac{\pi_\theta(y_p|x_u)}{\pi_{ref}(y_p|x_u)} - \lambda \frac{\phi(s_p,\Delta t_p)}{\phi(s_d,\Delta t_d)}\right)\right)\right]

نقاط الابتكار التقني

  1. تصميم الهامش غير المنتظم: على عكس الأعمال السابقة التي تستخدم هوامش موحدة، يقوم RecPO بتعديل الهامش ديناميكياً بناءً على كثافة التفضيل والمسافة الزمنية
  2. استخدام التعليقات الشاملة: الاحتفاظ بسلسلة التفاعل الكاملة، بما في ذلك التعليقات السلبية، والجمع بين التقييمات الصريحة
  3. المحاذاة مع الإدراك البشري: آلية نمذجة التفضيل المصممة بناءً على مبادئ العلوم الإدراكية

إعداد التجربة

مجموعات البيانات

استخدام خمس مجموعات بيانات توصية متسلسلة من العالم الحقيقي:

  • مجموعات البيانات ذات التعليقات الصريحة: MovieLens-1M و Amazon-Books و BeerAdvocate
  • مجموعات البيانات ذات التعليقات الضمنية: Steam و LastFM
مجموعة البياناتعدد التسلسلاتعدد العناصرعدد التفاعلات
MovieLens6,0403,952994,169
Amazon-Books5,10338,20362,290
Steam3,1714,25182,072
BeerAdvocate4,7246,10591,207
LastFM982107,296307,829

مقاييس التقييم

  • نسبة الضربة@1 (Hit Ratio@1): قياس نسبة التوصيات الصحيحة للنموذج
  • نسبة الصحة (Valid Ratio): تقييم القدرة على اتباع التعليمات، تحديد المخرجات المتوافقة مع متطلبات الصيغة

طرق المقارنة

  • الطرق التقليدية: GRU4Rec و Caser و SASRec
  • طرق نماذج اللغة الكبيرة: DPO و SimPO و S-DPO
  • النماذج الأساسية: LLaMA3-8B و Qwen2.5-7B

تفاصيل التنفيذ

  • معدل التعلم: 1e-5، المحسّن: AdamW
  • حجم الدفعة: 128، طول التسلسل: حسب مجموعة البيانات
  • عدد العينات السلبية: 3، معامل الهامش λ: 2
  • الأجهزة: 8×NVIDIA RTX A100 (80GB)

نتائج التجربة

النتائج الرئيسية

حقق RecPO أفضل أداء على جميع مجموعات البيانات الخمس:

النموذجMovieLens HR@1Amazon-Books HR@1BeerAdvocate HR@1Steam HR@1LastFM HR@1
SASRec0.26710.15590.38000.45870.6659
S-DPO0.29020.50650.46980.35880.5719
RecPO0.34510.58020.57710.46720.6830

الاكتشافات الرئيسية

  1. أهمية التعليقات الشاملة: الاحتفاظ بالتفاعلات السلبية يحسّن الأداء أكثر من استخدام التعليقات الإيجابية فقط
  2. قيمة الإشارات المنظمة: إضافة معلومات التقييم تحسّن الأداء بشكل كبير
  3. التكامل بين العوامل: تأتي أفضل أداء من الجمع بين التعليقات الشاملة والإشارات المنظمة

دراسة الاستبدال

تُظهر دراسة الاستبدال لدالة الهامش:

مجموعة البياناتLog DiffLog RatioRecPO (Ratio)
MovieLens0.31600.32470.3451
Amazon-Books0.53700.54550.5802

تحقق دالة الهامش القائمة على النسبة أفضل أداء على جميع مجموعات البيانات.

تحليل السلوك المحاذي للبشر

يُظهر RecPO سلوكاً محاذياً للبشر في أربعة أبعاد رئيسية:

  1. الحساسية للسياق الزمني: في مجموعات المرشحين التي تحتوي على عناصر عالية التقييم في المستقبل، يمكن لـ RecPO أن يعطي الأولوية بشكل أفضل للعناصر المناسبة زمنياً
  2. إدراك كثافة التفضيل: القدرة على تجنب التوصية بالعناصر الجذابة التي ينتهي بها الحال إلى تقييم منخفض
  3. نمذجة النفور الضمني: تحديد العناصر التي لا يحبها المستخدم دون الحاجة إلى علامات نفور صريحة
  4. الثبات عبر السياقات: الحفاظ على أداء مستقرة مع أطوال سجلات تفاعل مختلفة

الأعمال ذات الصلة

التوصية المتسلسلة

استخدمت الطرق المبكرة مثل GRU4Rec الشبكات العصبية المتكررة، وقدم SASRec آلية الانتباه الذاتي. تدمج الطرق الحديثة الهياكل الرسومية والتعلم対比ي وغيرها.

أنظمة التوصية القائمة على نماذج اللغة الكبيرة

تدمج طرق مثل LLaRA و TALLRec نماذج اللغة الكبيرة في أنظمة التوصية، لكنها تركز بشكل أساسي على الفهم الدلالي بدلاً من العوامل الدقيقة في نمذجة التفضيلات.

تقنيات محاذاة نماذج اللغة الكبيرة

من RLHF إلى DPO ومتغيراتها (IPO و CPO و KTO و SimPO)، تركز هذه الطرق بشكل أساسي على مهام معالجة اللغة الطبيعية العامة، وكان S-DPO أول من يكيّف تقنيات المحاذاة مع مهام التوصية.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. كثافة التفضيل والسياق الزمني عاملان مهملان لكن حاسمان في أنظمة التوصية القائمة على نماذج اللغة الكبيرة
  2. يدمج RecPO هذه العوامل بفعالية من خلال هوامش المكافآت التكيفية، مما يحقق تحسناً في الأداء والمحاذاة مع السلوك البشري
  3. تُظهر الطريقة تحسناً متسقاً على مجموعات البيانات ذات التعليقات الصريحة والضمنية

القيود

  1. هيكل التفضيل المبسط: اعتماد هيكل تفضيل متسلسل مبسط
  2. عامل سياق واحد: النظر فقط في تأخير الرضا كعامل سياقي
  3. قيود مقاييس التقييم: الاعتماد بشكل أساسي على مقياس واحد، عدم التقاط أنماط سلوكية أكثر شمولاً

الاتجاهات المستقبلية

  1. نمذجة التسلسلات الهرمية للتفضيلات المعقدة: استكشاف هياكل تفضيل معرفية أكثر موثوقية
  2. إثراء عوامل السياق: دمج المزيد من عوامل التأثير السياقي
  3. إطار عمل تقييم شامل: تطوير مقاييس تقييم موجهة نحو السلوك أكثر شمولاً

التقييم المتعمق

المزايا

  1. تحديد المشكلة دقيق: تحديد واضح للمشاكل الأساسية في الطرق الموجودة (نمذجة التفضيل الثنائية)
  2. تصميم الطريقة معقول: آلية الهامش التكيفية المصممة بناءً على مبادئ العلوم الإدراكية لها أساس نظري
  3. إعداد التجربة شامل: إطار عمل تجريبي كامل يتضمن إثبات المفهوم والتجارب الرئيسية ودراسات الاستبدال وتحليل السلوك
  4. قوة النتائج: التحسن المتسق عبر مجموعات بيانات متعددة وتحليل المحاذاة مع السلوك البشري يعزز الإقناع

أوجه القصور

  1. نقص التحليل النظري: غياب التحليل النظري العميق لسبب فعالية تصميم الهامش هذا
  2. عدم مناقشة التعقيد الحسابي: عدم تحليل النفقات الحسابية مقارنة بطرق الخط الأساسي
  3. تحليل حساسية المعاملات: تحليل نسبياً بسيط لحساسية المعامل الرئيسي λ
  4. قدرة التعميم محدودة: التحقق بشكل أساسي على أنواع معينة من مهام التوصية، وقدرة التعميم تحتاج إلى التحقق

التأثير

  1. المساهمة الأكاديمية: توفير اتجاه بحثي جديد وإطار عمل نظري لأبحاث أنظمة التوصية القائمة على نماذج اللغة الكبيرة
  2. القيمة العملية: توفير طريقة محسّنة قابلة للتطبيق المباشر، وإصدار الكود مفتوح المصدر يعزز القابلية للتكرار
  3. الدلالة الإرشادية: التأكيد على أهمية مبادئ العلوم الإدراكية في تصميم أنظمة الذكاء الاصطناعي

السيناريوهات المطبقة

  1. أنظمة التوصية المتسلسلة: مناسبة بشكل خاص للسيناريوهات التي تحتوي على سلاسل زمنية واضحة ومعلومات تقييم
  2. التطبيقات الشخصية: مناسبة للخدمات الشخصية التي تتطلب نمذجة تفضيلات دقيقة
  3. التوصية متعددة الأنماط: تصميم الإطار له قابلية توسع، يمكن تكييفه مع مهام التوصية متعددة الأنماط

المراجع

تستشهد هذه الورقة بأعمال مهمة من مجالات متعددة بما في ذلك أنظمة التوصية وتقنيات محاذاة نماذج اللغة الكبيرة والعلوم الإدراكية، بما في ذلك:

  • الطرق الموصية الكلاسيكية: GRU4Rec و SASRec و Caser
  • تقنيات محاذاة نماذج اللغة الكبيرة: DPO و RLHF و SimPO
  • أساس العلوم الإدراكية: بحث Astington & Jenkins (1995) حول آليات القرار البشري

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تُظهر أداءً ممتازاً من حيث المساهمات النظرية والابتكار في الطريقة والتحقق التجريبي. تنجح الورقة في تحديد وحل المشاكل الرئيسية في أنظمة التوصية القائمة على نماذج اللغة الكبيرة، وإطار عمل RecPO المقترح له أساس نظري جيد وقيمة عملية. على الرغم من وجود بعض القيود، فإن مساهماتها في مجالات أبحاث أنظمة التوصية ومحاذاة نماذج اللغة الكبيرة كبيرة وذات مغزى.