Current evaluations of agents remain centered around one-shot task completion, failing to account for the inherently iterative and collaborative nature of many real-world problems, where human goals are often underspecified and evolve. We argue for a shift from building and assessing task completion agents to developing collaborative agents, assessed not only by the quality of their final outputs but by how well they engage with and enhance human effort throughout the problem-solving process. To support this shift, we introduce collaborative effort scaling, a framework that captures how an agent's utility grows with increasing user involvement. Through case studies and simulated evaluations, we show that state-of-the-art agents often underperform in multi-turn, real-world scenarios, revealing a missing ingredient in agent design: the ability to sustain engagement and scaffold user understanding. Collaborative effort scaling offers a lens for diagnosing agent behavior and guiding development toward more effective interactions.
- معرّف الورقة: 2510.25744
- العنوان: الإنجاز = التعاون: توسيع نطاق الجهد التعاوني مع الوكلاء
- المؤلفون: Shannon Zejiang Shen, Valerie Chen, Ken Gu, Alexis Ross, Zixian Ma, Jillian Ross, Alex Gu, Chenglei Si, Wayne Chi, Andi Peng, Jocelyn Shen, Ameet Talwalkar, Tongshuang Wu, David Sontag
- المؤسسات: معهد ماساتشوستس للتكنولوجيا، جامعة كارنيجي ميلون، جامعة واشنطن، جامعة ستانفورد
- التصنيف: cs.CL cs.AI
- رابط الورقة: https://arxiv.org/abs/2510.25744
- رابط المشروع: https://github.com/clinicalml/collaborative-effort-scaling
يركز التقييم الحالي للوكلاء الذكيين بشكل أساسي على إنجاز المهام لمرة واحدة، مما يفشل في الأخذ في الاعتبار الطبيعة التكرارية والتعاونية المتأصلة في العديد من المشاكل الواقعية، حيث تكون أهداف الإنسان غالباً غير محددة بوضوح وتتطور. تقترح هذه الورقة الانتقال من بناء وتقييم وكلاء إنجاز المهام إلى تطوير وكلاء تعاونيين، لا يتم تقييمهم فقط بناءً على جودة المخرجات النهائية، بل أيضاً على كيفية تفاعلهم مع البشر وتعزيز جهودهم طوال عملية حل المشكلة. لدعم هذا التحول، يقدم المؤلفون إطار عمل توسيع الجهد التعاوني (Collaborative Effort Scaling)، الذي يلتقط كيفية نمو فائدة الوكيل مع زيادة مشاركة المستخدم. من خلال دراسات الحالة والتقييم المحاكى، تظهر الدراسة أن الوكلاء المتقدمين يؤدون بشكل سيء في السيناريوهات الواقعية متعددة الجولات، مما يكشف عن العناصر المفقودة في تصميم الوكيل: القدرة على الحفاظ على المشاركة ودعم فهم المستخدم.
- المشكلة الأساسية: يتم تحسين الوكلاء الحاليين بشكل أساسي لإنجاز المهام لمرة واحدة، لكن المهام المعقدة في العالم الحقيقي غالباً ما تتطلب عملية تكرارية للتعاون بين الإنسان والآلة
- أهمية المشكلة: مع زيادة تطبيق وكلاء LLM في العمل المعرفي المعقد، أصبح التعاون الفعال تحدياً رئيسياً
- القيود الحالية:
- افتراض أن احتياجات المستخدم ثابتة ومحددة بالكامل
- تجاهل عملية بناء فهم المستخدم وتطور الأهداف
- غياب آليات تقييم جودة العملية التعاونية
اكتشف المؤلفون من خلال دراسات حالة في خمسة مجالات (تحليل البيانات، تخطيط السفر، الاستشارات المالية، التعليم، الاكتشاف الرياضي) أن وكلاء إنجاز المهام الحاليين يعانون من مشاكل منهجية في التفاعل متعدد الجولات:
- توليد نتائج كاملة يصعب استيعابها في وقت مبكر جداً
- عدم القدرة على دمج ملاحظات المستخدم بشكل فعال
- نقص الشفافية في عملية التفكير
- الأداء السيئة عند تطور احتياجات المستخدم
- الإطار النظري: تقديم إطار عمل توسيع الجهد التعاوني (Collaborative Effort Scaling)، الذي يقيّم جودة التعاون بين الإنسان والآلة من بعدي جهد المستخدم والفائدة المشتركة
- منهجية التقييم: تصميم نظام مؤشرات لقياس أداء الوكلاء التعاونيين، بما في ذلك استدامة التفاعل والتوفر الأقصى
- النتائج التجريبية: إثبات من خلال التجارب المحاكاة أن وكلاء الحالة الفنية الحالية تؤدي بشكل سيء في السيناريوهات التعاونية، مما يكشف عن أهمية التصميم التعاوني
- رؤى التصميم: توفير إرشادات تصميم محددة وأدوات تشخيصية لبناء وكلاء تعاونيين أكثر فعالية
نمذجة التعاون بين الإنسان والآلة كعملية قرار ماركوف جزئية الملاحظة (POMDP):
- تسلسل الإجراءات: a=[a1(l1),a2(l2),...,aT(lT)]، حيث lt∈{H,A} يشير إلى الإنسان أو الوكيل
- نافذة السياق: c=[c1(l1),c2(l2),...,cT(lT)]
- جولات التعاون: تقسيم العملية بأكملها إلى جولات ak=a[ik:jk] من خلال نقاط التسليم بين الإنسان والآلة
- جهد المستخدم (User Effort): العمل المعرفي والبحثي الذي يستثمره المستخدم في العملية التعاونية
- المقياس الأساسي: عدد الجولات التي يقودها الإنسان ∣aH∣
- المقياس المحسّن: عدد رموز السياق المعالجة ∑cA
- فائدة الإجراءات المشتركة (Utility of Joint Actions): جودة العمل الذي أنجزه فريق الإنسان والآلة معاً
الفائدة الإجمالية:
U=N1∑i=1NmaxUk(i)
كسب التحسين:
G=N1∑i=1NmaxUk(i)−Uki′(i)
انخفاض التوفر:
D@τ=N1∑i=1NUki,τ(i)−UKi(i)
- استدامة التفاعل: يجب أن ينتج الوكيل قيمة أكبر مع زيادة جهد المستخدم
- التوفر الأقصى: يجب أن يشجع الوكيل ويحافظ على التفاعل طويل الأمد، مما يتجنب استسلام المستخدم المبكر
- من التوجه بالنتائج إلى التوجه بالعملية: التركيز ليس فقط على جودة المخرجات النهائية، بل على فعالية العملية التعاونية
- الإلهام من قوانين التوسع: الاستفادة من مفهوم قوانين التوسع في التعلم الآلي، دراسة خصائص توسع فائدة التعاون
- النمذجة متعددة المراحل: التمييز بين مرحلة الطلب الأولي ومرحلة التحسين، لالتقاط ديناميكيات التعاون بدقة أكبر
- المنصة: بيئة Collaborative-Gym، التي تدعم الإجراءات غير المتزامنة بين الإنسان والآلة
- المهمة: مهمة تخطيط السفر، بدءاً من وصف عالي المستوى لوضع خطة مفصلة تتضمن الرحلات والإقامة والنقل
- النماذج المختبرة: GPT-4o, Claude 3.5 Sonnet, Claude 4.0 Sonnet, Llama-3.1 70B
- أنواع الوكلاء:
- وكيل الخط الأساسي المؤتمت
- وكيل التعاون أحادي المرحلة
- وكيل التعاون ثنائي المرحلة (مع إضافة خطوة التخطيط)
- مقاييس الأداء: المتوسط الحسابي بناءً على معدل النجاح المنطقي ومعدل تحقيق القيود
- المستخدم المحاكى: وكيل قائم على الموجهات من GPT-4o، مع وصول إضافي إلى تفضيلات المستخدم والأهداف
- حد التفاعل: بحد أقصى 30 جولة تفاعل
- تظهر جميع الوكلاء اتجاهات توسع جهد تعاوني مماثلة: تحسن أولي ثم وصول إلى هضبة بعد حوالي 5 جولات تفاعل
- تؤدي نماذج Claude بشكل أفضل، مع القدرة على الاستفادة الفعالة من جهد المستخدم لتحقيق تحسن الأداء
وفقاً لنتائج الجدول 1:
| النموذج | الاستراتيجية | الفائدة الإجمالية | كسب التحسين (نسبي) | انخفاض التوفر (نسبي) |
|---|
| Claude-4.0-sonnet | أحادي المرحلة | 0.680 | 5.7% | -20.6% |
| Claude-4.0-sonnet | ثنائي المرحلة | 0.681 | 5.2% | -34.9% |
| Claude-3.5-sonnet | أحادي المرحلة | 0.450 | 13.6% | -29.7% |
| GPT-4o | أحادي المرحلة | 0.507 | 4.9% | -20.8% |
- Claude-3.5-sonnet: يحسّن التخطيط ثنائي المرحلة الأداء بشكل كبير، من 0.450 إلى 0.687
- Claude-4.0-sonnet: تحقق استراتيجيات أحادية ومرحلة ثنائية فائدة نهائية متشابهة، لكن بكفاءة مختلفة
- GPT-4o و Llama-3.1-70b: لم تتمكن الإصدارات التعاونية من تجاوز الخط الأساسي المؤتمت
- باستثناء Claude-4.0-sonnet، تتطلب النماذج الأخرى من المستخدم استثمار المزيد من الرموز مع فوائد محدودة
- يحافظ Claude-4.0-sonnet على أداء قوية عبر نطاق أوسع من نسب الجهد
- يوجد نسبة مثالية تعتمد على النموذج بين جهد الوكيل والمستخدم
- عندما يهيمن أحد الطرفين على التفاعل بشكل مفرط، يميل الأداء المشترك إلى الانخفاض
- القدرة تحدد الاستراتيجية: عندما تكون قدرة النموذج أضعف، يتطلب الأمر دعماً تفاعلياً أكثر تنظيماً
- التصميم التعاوني حاسم: حتى النماذج القوية، فإن طريقة التعاون تؤثر بشكل كبير على الأداء الإجمالي
- توازن الجهد مهم: يوجد توزيع أمثل لجهد الإنسان والآلة، يحتاج إلى التعديل بناءً على قدرة النموذج
- ركزت الأبحاث المبكرة على مبادئ تصميم التعاون بين الإنسان والآلة لأنظمة ذكاء اصطناعي محدودة
- تتمتع وكلاء LLM الحديثة بقدرات تفاعل أكثر تعقيداً، مما يتطلب أطر عمل تعاونية جديدة
- تركز المعايير الحالية بشكل أساسي على قدرات إنجاز المهام (مثل SWE-Bench, WebArena, GAIA)
- غياب التقييم المنهجي لجودة العملية التعاونية
- بدأت الأعمال الحديثة في إدخال التقييم التفاعلي، لكنها لا تزال محدودة بالتفاعل التدريجي الضيق
- تركز هذه الورقة على ديناميكيات التعاون في مسارات التفاعل الممتدة
- ضرورة تغيير النموذج: ضروري الانتقال من تقييم إنجاز المهام إلى تقييم القدرات التعاونية
- عدم كفاية الوكلاء الحاليين: تؤدي وكلاء الحالة الفنية بشكل سيء في السيناريوهات التعاونية، وتفتقر إلى القدرة على الحفاظ على المشاركة ودعم فهم المستخدم
- إرشادات التصميم: يوفر إطار عمل توسيع الجهد التعاوني أداة فعالة للتشخيص وتحسين القدرات التعاونية للوكيل
- نطاق التجارب: تم إجراء التجارب فقط في مجال واحد (تخطيط السفر)، وقد لا تغطي جميع الديناميكيات التعاونية
- المستخدم المحاكى: استخدام مستخدم محاكى بدلاً من المشاركين البشريين الحقيقيين، قد لا يعكس بالكامل أنماط التفاعل الحقيقية
- تبسيط المقاييس: استخدام مؤشرات بديلة مبسطة للفائدة والجهد، التعقيد الحقيقي للتعاون أعلى
- بيئات محاكاة أكثر ثراءً: بناء سيناريوهات حيث يمتلك المستخدم معلومات خاصة أو معرفة متخصصة
- إطار عمل تعاوني متكيف: تعديل استراتيجيات التعاون ديناميكياً بناءً على قدرة النموذج
- التعاون متعدد الأنماط: التوسع ليشمل سيناريوهات تعاونية تتضمن الرؤية والكلام وأنماط أخرى
- تحديد المشكلة دقيق: تحديد دقيق للعيب الأساسي في تقييم الوكلاء الحالي
- تصميم الإطار معقول: مفهوم إطار عمل توسيع الجهد التعاوني واضح ومرن التطبيق
- البحث التجريبي شامل: الجمع بين دراسات الحالة والتجارب المحاكاة، توفير التحقق من زوايا متعددة
- القيمة العملية عالية: توفير إرشادات تصميم محددة لمطوري الوكلاء
- حدود التقييم: قد لا تلتقط البيئات المحاكاة والمؤشرات البديلة التعقيد الكامل للتعاون الحقيقي
- تغطية النموذج محدودة: عدد النماذج المختبرة نسبياً محدود، تعميم الاستنتاجات يحتاج إلى التحقق
- التأثيرات طويلة الأمد غير معروفة: نقص الدراسات حول العلاقات التعاونية طويلة الأمد وتأثيرات التعلم
- المساهمة الأكاديمية: توفير إطار نظري جديد وطرق تقييم لأبحاث التعاون بين الإنسان والآلة
- القيمة العملية: ذات أهمية توجيهية كبيرة لتطوير منتجات الوكلاء
- اتجاه البحث: قد تحفز المزيد من الأبحاث التي تركز على جودة التعاون بدلاً من إنجاز المهام البحتة
- العمل المعرفي: تحليل البيانات والبحث والاستشارات وغيرها من المجالات التي تتطلب استكشافاً تكرارياً
- التدريب والتعليم: سيناريوهات التعلم التي تتطلب بناء فهم تدريجي
- العمل الإبداعي: المهام التي تتطلب الإبداع والتحسين المشترك بين الإنسان والآلة
تستشهد هذه الورقة بمجموعة واسعة من الأعمال ذات الصلة، بما في ذلك:
- مبادئ تصميم التعاون بين الإنسان والآلة (Amershi et al., 2019)
- معايير تقييم الوكلاء (Jimenez et al., 2023; Zhou et al., 2023)
- طرق التقييم التفاعلي (Lee et al., 2023; Shao et al., 2024)
- الأبحاث المتعلقة بقوانين التوسع (Hoffmann et al., 2022; Kaplan et al., 2020)
الملخص: تقترح هذه الورقة مشكلة بحثية مهمة وفي الوقت المناسب، وتوفر إطار عمل منهجي لتقييم وتحسين القدرات التعاونية للوكلاء. على الرغم من وجود بعض القيود في إعداد التجارب، فإن مساهماتها النظرية وقيمتها العملية تجعلها عملاً مهماً في مجال التعاون بين الإنسان والآلة. مع التطور السريع لتكنولوجيا الوكلاء، سيصبح هذا الاتجاه البحثي الذي يركز على جودة التعاون بدلاً من إنجاز المهام البحتة أكثر أهمية.