2025-11-22T10:40:16.215584

What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context

Ouyang, Wen, Zhang et al.

Sequential recommendation systems aspire to profile users by interpreting their interaction histories, echoing how humans make decisions by weighing experience, relative preference strength, and situational relevance. Yet, existing large language model (LLM)-based recommenders often fall short of mimicking the flexible, context-aware decision strategies humans exhibit, neglecting the structured, dynamic, and context-aware mechanisms fundamental to human behaviors. To bridge this gap, we propose RecPO, a preference optimization framework that models structured feedback and contextual delay to emulate human-like prioritization in sequential recommendation. RecPO exploits adaptive reward margins based on inferred preference hierarchies and temporal signals, enabling the model to favor immediately relevant items and to distinguish between varying degrees of preference and aversion. Extensive experiments across five real-world datasets demonstrate that RecPO not only yields performance gains over state-of-the-art baselines, but also mirrors key characteristics of human decision-making: favoring timely satisfaction, maintaining coherent preferences, and exercising discernment under shifting contexts.

academic

ما الذي يجعل نماذج اللغة الكبيرة موصيات متسلسلة فعالة؟ دراسة حول كثافة التفضيل والسياق الزمني

المعلومات الأساسية

معرّف الورقة: 2506.02261
العنوان: What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context
المؤلفون: Zhongyu Ouyang, Qianlong Wen, Chunhui Zhang, Yanfang Ye, Soroush Vosoughi
المؤسسات: Dartmouth College, University of Notre Dame
التصنيف: cs.IR, cs.LG
تاريخ النشر: 10 أكتوبر 2025 (arXiv v2)
رابط الورقة: https://arxiv.org/abs/2506.02261v2

الملخص

تسعى أنظمة التوصية المتسلسلة إلى تحديد ملف تعريف المستخدمين من خلال تفسير سجلات تفاعلاتهم، مما يعكس كيفية اتخاذ البشر للقرارات من خلال موازنة الخبرة وقوة التفضيل النسبية والصلة الموقفية. ومع ذلك، غالباً ما تقصر الموصيات القائمة على نماذج اللغة الكبيرة (LLM) عن محاكاة استراتيجيات القرار المرنة والمدركة للسياق التي يظهرها البشر، متجاهلة الآليات المنظمة والديناميكية والمدركة للسياق الأساسية للسلوك البشري. لسد هذه الفجوة، نقترح RecPO، إطار عمل لتحسين التفضيلات يصمم التعليقات المنظمة والتأخير السياقي لمحاكاة الأولويات الشبيهة بالبشر في التوصية المتسلسلة. يستغل RecPO هوامش مكافآت تكيفية بناءً على التسلسلات الهرمية للتفضيلات المستدلة والإشارات الزمنية، مما يمكّن النموذج من تفضيل العناصر ذات الصلة الفورية والتمييز بين درجات مختلفة من التفضيل والنفور. تُظهر التجارب الموسعة عبر خمس مجموعات بيانات من العالم الحقيقي أن RecPO لا يحقق فقط مكاسب في الأداء على أفضل الخطوط الأساسية، بل يعكس أيضاً الخصائص الرئيسية لصنع القرار البشري: تفضيل الرضا في الوقت المناسب، والحفاظ على التفضيلات المتماسكة، وممارسة التمييز في السياقات المتغيرة.

خلفية البحث والدافع

تعريف المشكلة

تواجه أنظمة التوصية المتسلسلة القائمة على نماذج اللغة الكبيرة المشاكل الرئيسية التالية:

نمذجة التفضيل الثنائية: تتعامل الطرق الموجودة مثل DPO ومتغيراتها مع جميع التفضيلات من خلال المقارنات الثنائية المزدوجة، متجاهلة الاختلافات في كثافة التفضيل
غياب السياق الزمني: افتقار إلى نمذجة الحساسية الزمنية، عدم القدرة على التمييز بين الرضا الفوري والرضا المؤجل
تجاهل آليات القرار البشري: عدم محاكاة الآليات المعقدة التي يوازن بها البشر الخبرة وقوة التفضيل النسبية والصلة الموقفية

دافع البحث

يعكس السلوك القراري للبشر التفضيلات المرتبة (الحب الشديد مقابل الإعجاب الخفيف) والحساسية الزمنية (الرضا الفوري مقابل المؤجل)، وهذه الخصائص مثبتة بشكل كامل في الاقتصاد السلوكي وعلم الإدراك، لكنها يتم تجاهلها على نطاق واسع في محاذاة التفضيلات في أنظمة التوصية الحالية القائمة على نماذج اللغة الكبيرة. يحدد المؤلفون من خلال دراسة تجريبية منهجية عاملين رئيسيين:

كثافة التفضيل: القوة المرتبة للألفة أو النفور لدى المستخدم
السياق الزمني: فورية الرضا

المساهمات الأساسية

المساهمة النظرية: إثبات منهجي لأن كثافة التفضيل والسياق الزمني هما عاملان رئيسيان في النمذجة الدقيقة للتفضيلات في أنظمة التوصية القائمة على نماذج اللغة الكبيرة، مما يطعن في نموذج التفضيل الثنائي الموجود
المساهمة في الطريقة: اقتراح إطار عمل RecPO الذي يدمج هذه العوامل من خلال هوامش مكافآت تكيفية بناءً على كثافة التفضيل والسياق الزمني
المساهمة التجريبية: تُظهر التجارب على خمس مجموعات بيانات أن RecPO لا يحسّن الدقة فحسب، بل يُظهر أيضاً خصائص سلوكية متسقة مع التفضيلات البشرية: إعطاء الأولوية للرضا في الوقت المناسب، الحفاظ على اتساق التفضيل في السياقات المتغيرة

شرح الطريقة

تعريف المهمة

بالنظر إلى سجل التفاعل للمستخدم u في الوقت t وهو $H_u^t$ ومجموعة العناصر المرشحة $C = \{i^{(j)}\}_{j=1}^K$ ، حيث $H_u^t \cap C = \emptyset$ و $i_p^{t+1} \in C$ ، يجب على النموذج $\pi_\theta$ التنبؤ بالعنصر الذي من المرجح أن يفضله المستخدم $i_p^{t+1}$ .

الطريقة الأساسية: إطار عمل RecPO

1. هوامش المكافآت التكيفية

الابتكار الأساسي في RecPO هو تعريف هامش المكافآت المستهدفة التكيفية $\gamma_r$ ، والتي يتم تحديدها ديناميكياً بواسطة التفضيلات المنظمة والحداثة النسبية:

$\gamma_r = \lambda \frac{\phi(s_p, \Delta t_p)}{\phi(s_d, \Delta t_d)}$

حيث:

$s_p, s_d$ هي درجات التفضيل المنظمة للعناصر المفضلة وغير المفضلة على التوالي
$\Delta t_p = t_p^+ - t$ يمثل التأخير الزمني للتفاعل
$\phi(s, \Delta t) = s/(\Delta t)^{0.5}$ هي دالة المنفعة
$\lambda$ يتحكم في حجم الهامش

2. نمذجة توزيع التفضيل

بناءً على نموذج Bradley-Terry، يصمم RecPO احتمالية التفضيل على النحو التالي:

$P^*(y_p \succ y_d | x_u) = \sigma(r(x_u, y_p) - r(x_u, y_d) - \gamma_r)$

3. دالة الهدف

يستخدم نموذج Plackett-Luce لتعميم المقارنات الثنائية إلى إطار عمل الترتيب على مستوى القائمة، والدالة الموضوعية النهائية هي:

$L(\pi_\theta; \pi_{ref}) = -E_{(x_u,y_p,T_d)\sim D}\left[\log \sigma\left(-\log \sum_{y_d \in T_d} \exp\left(\beta \log \frac{\pi_\theta(y_d|x_u)}{\pi_{ref}(y_d|x_u)} - \beta \log \frac{\pi_\theta(y_p|x_u)}{\pi_{ref}(y_p|x_u)} - \lambda \frac{\phi(s_p,\Delta t_p)}{\phi(s_d,\Delta t_d)}\right)\right)\right]$

نقاط الابتكار التقني

تصميم الهامش غير المنتظم: على عكس الأعمال السابقة التي تستخدم هوامش موحدة، يقوم RecPO بتعديل الهامش ديناميكياً بناءً على كثافة التفضيل والمسافة الزمنية
استخدام التعليقات الشاملة: الاحتفاظ بسلسلة التفاعل الكاملة، بما في ذلك التعليقات السلبية، والجمع بين التقييمات الصريحة
المحاذاة مع الإدراك البشري: آلية نمذجة التفضيل المصممة بناءً على مبادئ العلوم الإدراكية

إعداد التجربة

مجموعات البيانات

استخدام خمس مجموعات بيانات توصية متسلسلة من العالم الحقيقي:

مجموعات البيانات ذات التعليقات الصريحة: MovieLens-1M و Amazon-Books و BeerAdvocate
مجموعات البيانات ذات التعليقات الضمنية: Steam و LastFM

مجموعة البيانات	عدد التسلسلات	عدد العناصر	عدد التفاعلات
MovieLens	6,040	3,952	994,169
Amazon-Books	5,103	38,203	62,290
Steam	3,171	4,251	82,072
BeerAdvocate	4,724	6,105	91,207
LastFM	982	107,296	307,829

مقاييس التقييم

نسبة الضربة@1 (Hit Ratio@1): قياس نسبة التوصيات الصحيحة للنموذج
نسبة الصحة (Valid Ratio): تقييم القدرة على اتباع التعليمات، تحديد المخرجات المتوافقة مع متطلبات الصيغة

طرق المقارنة

الطرق التقليدية: GRU4Rec و Caser و SASRec
طرق نماذج اللغة الكبيرة: DPO و SimPO و S-DPO
النماذج الأساسية: LLaMA3-8B و Qwen2.5-7B

تفاصيل التنفيذ

معدل التعلم: 1e-5، المحسّن: AdamW
حجم الدفعة: 128، طول التسلسل: حسب مجموعة البيانات
عدد العينات السلبية: 3، معامل الهامش λ: 2
الأجهزة: 8×NVIDIA RTX A100 (80GB)

نتائج التجربة

النتائج الرئيسية

حقق RecPO أفضل أداء على جميع مجموعات البيانات الخمس:

النموذج	MovieLens HR@1	Amazon-Books HR@1	BeerAdvocate HR@1	Steam HR@1	LastFM HR@1
SASRec	0.2671	0.1559	0.3800	0.4587	0.6659
S-DPO	0.2902	0.5065	0.4698	0.3588	0.5719
RecPO	0.3451	0.5802	0.5771	0.4672	0.6830

الاكتشافات الرئيسية

أهمية التعليقات الشاملة: الاحتفاظ بالتفاعلات السلبية يحسّن الأداء أكثر من استخدام التعليقات الإيجابية فقط
قيمة الإشارات المنظمة: إضافة معلومات التقييم تحسّن الأداء بشكل كبير
التكامل بين العوامل: تأتي أفضل أداء من الجمع بين التعليقات الشاملة والإشارات المنظمة

دراسة الاستبدال

تُظهر دراسة الاستبدال لدالة الهامش:

مجموعة البيانات	Log Diff	Log Ratio	RecPO (Ratio)
MovieLens	0.3160	0.3247	0.3451
Amazon-Books	0.5370	0.5455	0.5802

تحقق دالة الهامش القائمة على النسبة أفضل أداء على جميع مجموعات البيانات.

تحليل السلوك المحاذي للبشر

يُظهر RecPO سلوكاً محاذياً للبشر في أربعة أبعاد رئيسية:

الحساسية للسياق الزمني: في مجموعات المرشحين التي تحتوي على عناصر عالية التقييم في المستقبل، يمكن لـ RecPO أن يعطي الأولوية بشكل أفضل للعناصر المناسبة زمنياً
إدراك كثافة التفضيل: القدرة على تجنب التوصية بالعناصر الجذابة التي ينتهي بها الحال إلى تقييم منخفض
نمذجة النفور الضمني: تحديد العناصر التي لا يحبها المستخدم دون الحاجة إلى علامات نفور صريحة
الثبات عبر السياقات: الحفاظ على أداء مستقرة مع أطوال سجلات تفاعل مختلفة

الأعمال ذات الصلة

التوصية المتسلسلة

استخدمت الطرق المبكرة مثل GRU4Rec الشبكات العصبية المتكررة، وقدم SASRec آلية الانتباه الذاتي. تدمج الطرق الحديثة الهياكل الرسومية والتعلم対比ي وغيرها.

أنظمة التوصية القائمة على نماذج اللغة الكبيرة

تدمج طرق مثل LLaRA و TALLRec نماذج اللغة الكبيرة في أنظمة التوصية، لكنها تركز بشكل أساسي على الفهم الدلالي بدلاً من العوامل الدقيقة في نمذجة التفضيلات.

تقنيات محاذاة نماذج اللغة الكبيرة

من RLHF إلى DPO ومتغيراتها (IPO و CPO و KTO و SimPO)، تركز هذه الطرق بشكل أساسي على مهام معالجة اللغة الطبيعية العامة، وكان S-DPO أول من يكيّف تقنيات المحاذاة مع مهام التوصية.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

كثافة التفضيل والسياق الزمني عاملان مهملان لكن حاسمان في أنظمة التوصية القائمة على نماذج اللغة الكبيرة
يدمج RecPO هذه العوامل بفعالية من خلال هوامش المكافآت التكيفية، مما يحقق تحسناً في الأداء والمحاذاة مع السلوك البشري
تُظهر الطريقة تحسناً متسقاً على مجموعات البيانات ذات التعليقات الصريحة والضمنية

القيود

هيكل التفضيل المبسط: اعتماد هيكل تفضيل متسلسل مبسط
عامل سياق واحد: النظر فقط في تأخير الرضا كعامل سياقي
قيود مقاييس التقييم: الاعتماد بشكل أساسي على مقياس واحد، عدم التقاط أنماط سلوكية أكثر شمولاً

الاتجاهات المستقبلية

نمذجة التسلسلات الهرمية للتفضيلات المعقدة: استكشاف هياكل تفضيل معرفية أكثر موثوقية
إثراء عوامل السياق: دمج المزيد من عوامل التأثير السياقي
إطار عمل تقييم شامل: تطوير مقاييس تقييم موجهة نحو السلوك أكثر شمولاً

التقييم المتعمق

المزايا

تحديد المشكلة دقيق: تحديد واضح للمشاكل الأساسية في الطرق الموجودة (نمذجة التفضيل الثنائية)
تصميم الطريقة معقول: آلية الهامش التكيفية المصممة بناءً على مبادئ العلوم الإدراكية لها أساس نظري
إعداد التجربة شامل: إطار عمل تجريبي كامل يتضمن إثبات المفهوم والتجارب الرئيسية ودراسات الاستبدال وتحليل السلوك
قوة النتائج: التحسن المتسق عبر مجموعات بيانات متعددة وتحليل المحاذاة مع السلوك البشري يعزز الإقناع

أوجه القصور

نقص التحليل النظري: غياب التحليل النظري العميق لسبب فعالية تصميم الهامش هذا
عدم مناقشة التعقيد الحسابي: عدم تحليل النفقات الحسابية مقارنة بطرق الخط الأساسي
تحليل حساسية المعاملات: تحليل نسبياً بسيط لحساسية المعامل الرئيسي λ
قدرة التعميم محدودة: التحقق بشكل أساسي على أنواع معينة من مهام التوصية، وقدرة التعميم تحتاج إلى التحقق

التأثير

المساهمة الأكاديمية: توفير اتجاه بحثي جديد وإطار عمل نظري لأبحاث أنظمة التوصية القائمة على نماذج اللغة الكبيرة
القيمة العملية: توفير طريقة محسّنة قابلة للتطبيق المباشر، وإصدار الكود مفتوح المصدر يعزز القابلية للتكرار
الدلالة الإرشادية: التأكيد على أهمية مبادئ العلوم الإدراكية في تصميم أنظمة الذكاء الاصطناعي

السيناريوهات المطبقة

أنظمة التوصية المتسلسلة: مناسبة بشكل خاص للسيناريوهات التي تحتوي على سلاسل زمنية واضحة ومعلومات تقييم
التطبيقات الشخصية: مناسبة للخدمات الشخصية التي تتطلب نمذجة تفضيلات دقيقة
التوصية متعددة الأنماط: تصميم الإطار له قابلية توسع، يمكن تكييفه مع مهام التوصية متعددة الأنماط

المراجع

تستشهد هذه الورقة بأعمال مهمة من مجالات متعددة بما في ذلك أنظمة التوصية وتقنيات محاذاة نماذج اللغة الكبيرة والعلوم الإدراكية، بما في ذلك:

الطرق الموصية الكلاسيكية: GRU4Rec و SASRec و Caser
تقنيات محاذاة نماذج اللغة الكبيرة: DPO و RLHF و SimPO
أساس العلوم الإدراكية: بحث Astington & Jenkins (1995) حول آليات القرار البشري

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تُظهر أداءً ممتازاً من حيث المساهمات النظرية والابتكار في الطريقة والتحقق التجريبي. تنجح الورقة في تحديد وحل المشاكل الرئيسية في أنظمة التوصية القائمة على نماذج اللغة الكبيرة، وإطار عمل RecPO المقترح له أساس نظري جيد وقيمة عملية. على الرغم من وجود بعض القيود، فإن مساهماتها في مجالات أبحاث أنظمة التوصية ومحاذاة نماذج اللغة الكبيرة كبيرة وذات مغزى.