2025-11-11T13:28:09.717207

Completion $\neq$ Collaboration: Scaling Collaborative Effort with Agents

Shen, Chen, Gu et al.

Current evaluations of agents remain centered around one-shot task completion, failing to account for the inherently iterative and collaborative nature of many real-world problems, where human goals are often underspecified and evolve. We argue for a shift from building and assessing task completion agents to developing collaborative agents, assessed not only by the quality of their final outputs but by how well they engage with and enhance human effort throughout the problem-solving process. To support this shift, we introduce collaborative effort scaling, a framework that captures how an agent's utility grows with increasing user involvement. Through case studies and simulated evaluations, we show that state-of-the-art agents often underperform in multi-turn, real-world scenarios, revealing a missing ingredient in agent design: the ability to sustain engagement and scaffold user understanding. Collaborative effort scaling offers a lens for diagnosing agent behavior and guiding development toward more effective interactions.

academic

الإنجاز $\neq$ التعاون: توسيع نطاق الجهد التعاوني مع الوكلاء

المعلومات الأساسية

معرّف الورقة: 2510.25744
العنوان: الإنجاز $\neq$ التعاون: توسيع نطاق الجهد التعاوني مع الوكلاء
المؤلفون: Shannon Zejiang Shen, Valerie Chen, Ken Gu, Alexis Ross, Zixian Ma, Jillian Ross, Alex Gu, Chenglei Si, Wayne Chi, Andi Peng, Jocelyn Shen, Ameet Talwalkar, Tongshuang Wu, David Sontag
المؤسسات: معهد ماساتشوستس للتكنولوجيا، جامعة كارنيجي ميلون، جامعة واشنطن، جامعة ستانفورد
التصنيف: cs.CL cs.AI
رابط الورقة: https://arxiv.org/abs/2510.25744
رابط المشروع: https://github.com/clinicalml/collaborative-effort-scaling

الملخص

يركز التقييم الحالي للوكلاء الذكيين بشكل أساسي على إنجاز المهام لمرة واحدة، مما يفشل في الأخذ في الاعتبار الطبيعة التكرارية والتعاونية المتأصلة في العديد من المشاكل الواقعية، حيث تكون أهداف الإنسان غالباً غير محددة بوضوح وتتطور. تقترح هذه الورقة الانتقال من بناء وتقييم وكلاء إنجاز المهام إلى تطوير وكلاء تعاونيين، لا يتم تقييمهم فقط بناءً على جودة المخرجات النهائية، بل أيضاً على كيفية تفاعلهم مع البشر وتعزيز جهودهم طوال عملية حل المشكلة. لدعم هذا التحول، يقدم المؤلفون إطار عمل توسيع الجهد التعاوني (Collaborative Effort Scaling)، الذي يلتقط كيفية نمو فائدة الوكيل مع زيادة مشاركة المستخدم. من خلال دراسات الحالة والتقييم المحاكى، تظهر الدراسة أن الوكلاء المتقدمين يؤدون بشكل سيء في السيناريوهات الواقعية متعددة الجولات، مما يكشف عن العناصر المفقودة في تصميم الوكيل: القدرة على الحفاظ على المشاركة ودعم فهم المستخدم.

الخلفية البحثية والدافع

تعريف المشكلة

المشكلة الأساسية: يتم تحسين الوكلاء الحاليين بشكل أساسي لإنجاز المهام لمرة واحدة، لكن المهام المعقدة في العالم الحقيقي غالباً ما تتطلب عملية تكرارية للتعاون بين الإنسان والآلة
أهمية المشكلة: مع زيادة تطبيق وكلاء LLM في العمل المعرفي المعقد، أصبح التعاون الفعال تحدياً رئيسياً
القيود الحالية:
- افتراض أن احتياجات المستخدم ثابتة ومحددة بالكامل
- تجاهل عملية بناء فهم المستخدم وتطور الأهداف
- غياب آليات تقييم جودة العملية التعاونية

الدافع البحثي

اكتشف المؤلفون من خلال دراسات حالة في خمسة مجالات (تحليل البيانات، تخطيط السفر، الاستشارات المالية، التعليم، الاكتشاف الرياضي) أن وكلاء إنجاز المهام الحاليين يعانون من مشاكل منهجية في التفاعل متعدد الجولات:

توليد نتائج كاملة يصعب استيعابها في وقت مبكر جداً
عدم القدرة على دمج ملاحظات المستخدم بشكل فعال
نقص الشفافية في عملية التفكير
الأداء السيئة عند تطور احتياجات المستخدم

المساهمات الأساسية

الإطار النظري: تقديم إطار عمل توسيع الجهد التعاوني (Collaborative Effort Scaling)، الذي يقيّم جودة التعاون بين الإنسان والآلة من بعدي جهد المستخدم والفائدة المشتركة
منهجية التقييم: تصميم نظام مؤشرات لقياس أداء الوكلاء التعاونيين، بما في ذلك استدامة التفاعل والتوفر الأقصى
النتائج التجريبية: إثبات من خلال التجارب المحاكاة أن وكلاء الحالة الفنية الحالية تؤدي بشكل سيء في السيناريوهات التعاونية، مما يكشف عن أهمية التصميم التعاوني
رؤى التصميم: توفير إرشادات تصميم محددة وأدوات تشخيصية لبناء وكلاء تعاونيين أكثر فعالية

شرح الطريقة

تعريف المهمة

نمذجة التعاون بين الإنسان والآلة كعملية قرار ماركوف جزئية الملاحظة (POMDP):

تسلسل الإجراءات: $a = [a_1^{(l_1)}, a_2^{(l_2)}, ..., a_T^{(l_T)}]$ ، حيث $l_t \in \{H, A\}$ يشير إلى الإنسان أو الوكيل
نافذة السياق: $c = [c_1^{(l_1)}, c_2^{(l_2)}, ..., c_T^{(l_T)}]$
جولات التعاون: تقسيم العملية بأكملها إلى جولات $a_k = a[i_k:j_k]$ من خلال نقاط التسليم بين الإنسان والآلة

المكونات الأساسية للإطار

1. نظام التقييم ثنائي الأبعاد

جهد المستخدم (User Effort): العمل المعرفي والبحثي الذي يستثمره المستخدم في العملية التعاونية
- المقياس الأساسي: عدد الجولات التي يقودها الإنسان $|a^H|$
- المقياس المحسّن: عدد رموز السياق المعالجة $\sum c^A$
فائدة الإجراءات المشتركة (Utility of Joint Actions): جودة العمل الذي أنجزه فريق الإنسان والآلة معاً

2. تعريف المؤشرات الرئيسية

الفائدة الإجمالية: $U = \frac{1}{N}\sum_{i=1}^{N} \max U_k^{(i)}$

كسب التحسين: $G = \frac{1}{N}\sum_{i=1}^{N} \max U_k^{(i)} - U_{k'_i}^{(i)}$

انخفاض التوفر: $D@\tau = \frac{1}{N}\sum_{i=1}^{N} U_{k_{i,\tau}}^{(i)} - U_{K_i}^{(i)}$

3. خصائص التعاون المثالي

استدامة التفاعل: يجب أن ينتج الوكيل قيمة أكبر مع زيادة جهد المستخدم
التوفر الأقصى: يجب أن يشجع الوكيل ويحافظ على التفاعل طويل الأمد، مما يتجنب استسلام المستخدم المبكر

نقاط الابتكار التقني

من التوجه بالنتائج إلى التوجه بالعملية: التركيز ليس فقط على جودة المخرجات النهائية، بل على فعالية العملية التعاونية
الإلهام من قوانين التوسع: الاستفادة من مفهوم قوانين التوسع في التعلم الآلي، دراسة خصائص توسع فائدة التعاون
النمذجة متعددة المراحل: التمييز بين مرحلة الطلب الأولي ومرحلة التحسين، لالتقاط ديناميكيات التعاون بدقة أكبر

إعداد التجارب

بيئة التجارب

المنصة: بيئة Collaborative-Gym، التي تدعم الإجراءات غير المتزامنة بين الإنسان والآلة
المهمة: مهمة تخطيط السفر، بدءاً من وصف عالي المستوى لوضع خطة مفصلة تتضمن الرحلات والإقامة والنقل

إعدادات النموذج

النماذج المختبرة: GPT-4o, Claude 3.5 Sonnet, Claude 4.0 Sonnet, Llama-3.1 70B
أنواع الوكلاء:
- وكيل الخط الأساسي المؤتمت
- وكيل التعاون أحادي المرحلة
- وكيل التعاون ثنائي المرحلة (مع إضافة خطوة التخطيط)

إعدادات التقييم

مقاييس الأداء: المتوسط الحسابي بناءً على معدل النجاح المنطقي ومعدل تحقيق القيود
المستخدم المحاكى: وكيل قائم على الموجهات من GPT-4o، مع وصول إضافي إلى تفضيلات المستخدم والأهداف
حد التفاعل: بحد أقصى 30 جولة تفاعل

نتائج التجارب

النتائج الرئيسية

1. اتجاهات توسع الجهد التعاوني

تظهر جميع الوكلاء اتجاهات توسع جهد تعاوني مماثلة: تحسن أولي ثم وصول إلى هضبة بعد حوالي 5 جولات تفاعل
تؤدي نماذج Claude بشكل أفضل، مع القدرة على الاستفادة الفعالة من جهد المستخدم لتحقيق تحسن الأداء

2. الفروقات بين النماذج كبيرة

وفقاً لنتائج الجدول 1:

النموذج	الاستراتيجية	الفائدة الإجمالية	كسب التحسين (نسبي)	انخفاض التوفر (نسبي)
Claude-4.0-sonnet	أحادي المرحلة	0.680	5.7%	-20.6%
Claude-4.0-sonnet	ثنائي المرحلة	0.681	5.2%	-34.9%
Claude-3.5-sonnet	أحادي المرحلة	0.450	13.6%	-29.7%
GPT-4o	أحادي المرحلة	0.507	4.9%	-20.8%

3. تأثير استراتيجيات التعاون

Claude-3.5-sonnet: يحسّن التخطيط ثنائي المرحلة الأداء بشكل كبير، من 0.450 إلى 0.687
Claude-4.0-sonnet: تحقق استراتيجيات أحادية ومرحلة ثنائية فائدة نهائية متشابهة، لكن بكفاءة مختلفة
GPT-4o و Llama-3.1-70b: لم تتمكن الإصدارات التعاونية من تجاوز الخط الأساسي المؤتمت

تحليل توزيع الجهد

الفروقات في جهد المستخدم

باستثناء Claude-4.0-sonnet، تتطلب النماذج الأخرى من المستخدم استثمار المزيد من الرموز مع فوائد محدودة
يحافظ Claude-4.0-sonnet على أداء قوية عبر نطاق أوسع من نسب الجهد

التوازن الأمثل للجهد

يوجد نسبة مثالية تعتمد على النموذج بين جهد الوكيل والمستخدم
عندما يهيمن أحد الطرفين على التفاعل بشكل مفرط، يميل الأداء المشترك إلى الانخفاض

النتائج التجريبية

القدرة تحدد الاستراتيجية: عندما تكون قدرة النموذج أضعف، يتطلب الأمر دعماً تفاعلياً أكثر تنظيماً
التصميم التعاوني حاسم: حتى النماذج القوية، فإن طريقة التعاون تؤثر بشكل كبير على الأداء الإجمالي
توازن الجهد مهم: يوجد توزيع أمثل لجهد الإنسان والآلة، يحتاج إلى التعديل بناءً على قدرة النموذج

الأعمال ذات الصلة

أبحاث التعاون بين الإنسان والآلة

ركزت الأبحاث المبكرة على مبادئ تصميم التعاون بين الإنسان والآلة لأنظمة ذكاء اصطناعي محدودة
تتمتع وكلاء LLM الحديثة بقدرات تفاعل أكثر تعقيداً، مما يتطلب أطر عمل تعاونية جديدة

معايير تقييم الوكلاء

تركز المعايير الحالية بشكل أساسي على قدرات إنجاز المهام (مثل SWE-Bench, WebArena, GAIA)
غياب التقييم المنهجي لجودة العملية التعاونية

التقييم التفاعلي

بدأت الأعمال الحديثة في إدخال التقييم التفاعلي، لكنها لا تزال محدودة بالتفاعل التدريجي الضيق
تركز هذه الورقة على ديناميكيات التعاون في مسارات التفاعل الممتدة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

ضرورة تغيير النموذج: ضروري الانتقال من تقييم إنجاز المهام إلى تقييم القدرات التعاونية
عدم كفاية الوكلاء الحاليين: تؤدي وكلاء الحالة الفنية بشكل سيء في السيناريوهات التعاونية، وتفتقر إلى القدرة على الحفاظ على المشاركة ودعم فهم المستخدم
إرشادات التصميم: يوفر إطار عمل توسيع الجهد التعاوني أداة فعالة للتشخيص وتحسين القدرات التعاونية للوكيل

القيود

نطاق التجارب: تم إجراء التجارب فقط في مجال واحد (تخطيط السفر)، وقد لا تغطي جميع الديناميكيات التعاونية
المستخدم المحاكى: استخدام مستخدم محاكى بدلاً من المشاركين البشريين الحقيقيين، قد لا يعكس بالكامل أنماط التفاعل الحقيقية
تبسيط المقاييس: استخدام مؤشرات بديلة مبسطة للفائدة والجهد، التعقيد الحقيقي للتعاون أعلى

الاتجاهات المستقبلية

بيئات محاكاة أكثر ثراءً: بناء سيناريوهات حيث يمتلك المستخدم معلومات خاصة أو معرفة متخصصة
إطار عمل تعاوني متكيف: تعديل استراتيجيات التعاون ديناميكياً بناءً على قدرة النموذج
التعاون متعدد الأنماط: التوسع ليشمل سيناريوهات تعاونية تتضمن الرؤية والكلام وأنماط أخرى

التقييم المتعمق

المميزات

تحديد المشكلة دقيق: تحديد دقيق للعيب الأساسي في تقييم الوكلاء الحالي
تصميم الإطار معقول: مفهوم إطار عمل توسيع الجهد التعاوني واضح ومرن التطبيق
البحث التجريبي شامل: الجمع بين دراسات الحالة والتجارب المحاكاة، توفير التحقق من زوايا متعددة
القيمة العملية عالية: توفير إرشادات تصميم محددة لمطوري الوكلاء

أوجه القصور

حدود التقييم: قد لا تلتقط البيئات المحاكاة والمؤشرات البديلة التعقيد الكامل للتعاون الحقيقي
تغطية النموذج محدودة: عدد النماذج المختبرة نسبياً محدود، تعميم الاستنتاجات يحتاج إلى التحقق
التأثيرات طويلة الأمد غير معروفة: نقص الدراسات حول العلاقات التعاونية طويلة الأمد وتأثيرات التعلم

التأثير

المساهمة الأكاديمية: توفير إطار نظري جديد وطرق تقييم لأبحاث التعاون بين الإنسان والآلة
القيمة العملية: ذات أهمية توجيهية كبيرة لتطوير منتجات الوكلاء
اتجاه البحث: قد تحفز المزيد من الأبحاث التي تركز على جودة التعاون بدلاً من إنجاز المهام البحتة

السيناريوهات المعمول بها

العمل المعرفي: تحليل البيانات والبحث والاستشارات وغيرها من المجالات التي تتطلب استكشافاً تكرارياً
التدريب والتعليم: سيناريوهات التعلم التي تتطلب بناء فهم تدريجي
العمل الإبداعي: المهام التي تتطلب الإبداع والتحسين المشترك بين الإنسان والآلة

المراجع

تستشهد هذه الورقة بمجموعة واسعة من الأعمال ذات الصلة، بما في ذلك:

مبادئ تصميم التعاون بين الإنسان والآلة (Amershi et al., 2019)
معايير تقييم الوكلاء (Jimenez et al., 2023; Zhou et al., 2023)
طرق التقييم التفاعلي (Lee et al., 2023; Shao et al., 2024)
الأبحاث المتعلقة بقوانين التوسع (Hoffmann et al., 2022; Kaplan et al., 2020)

الملخص: تقترح هذه الورقة مشكلة بحثية مهمة وفي الوقت المناسب، وتوفر إطار عمل منهجي لتقييم وتحسين القدرات التعاونية للوكلاء. على الرغم من وجود بعض القيود في إعداد التجارب، فإن مساهماتها النظرية وقيمتها العملية تجعلها عملاً مهماً في مجال التعاون بين الإنسان والآلة. مع التطور السريع لتكنولوجيا الوكلاء، سيصبح هذا الاتجاه البحثي الذي يركز على جودة التعاون بدلاً من إنجاز المهام البحتة أكثر أهمية.

Completion $\neq$ Collaboration: Scaling Collaborative Effort with Agents

الإنجاز ≠\neq= التعاون: توسيع نطاق الجهد التعاوني مع الوكلاء

الإنجاز $\neq$ التعاون: توسيع نطاق الجهد التعاوني مع الوكلاء