2025-11-19T03:28:13.831095

SWE-Arena: An Interactive Platform for Evaluating Foundation Models in Software Engineering

Zhao
Foundation models (FMs), particularly large language models (LLMs), have shown significant promise in various software engineering (SE) tasks, including code generation, debugging, and requirement refinement. Despite these advances, existing evaluation frameworks are insufficient for assessing model performance in iterative, context-rich workflows characteristic of SE activities. To address this limitation, we introduce \emph{SWE-Arena}, an interactive platform designed to evaluate FMs in SE tasks. SWE-Arena provides a transparent, open-source leaderboard, supports multi-round conversational workflows, and enables end-to-end model comparisons. The platform introduces novel metrics, including \emph{model consistency score} that measures the consistency of model outputs through self-play matches, and \emph{conversation efficiency index} that evaluates model performance while accounting for the number of interaction rounds required to reach conclusions. Moreover, SWE-Arena incorporates a new feature called \emph{RepoChat}, which automatically injects repository-related context (e.g., issues, commits, pull requests) into the conversation, further aligning evaluations with real-world development processes. This paper outlines the design and capabilities of SWE-Arena, emphasizing its potential to advance the evaluation and practical application of FMs in software engineering.
academic

SWE-Arena: منصة تفاعلية لتقييم نماذج الأساس في هندسة البرمجيات

المعلومات الأساسية

  • معرّف الورقة: 2502.01860
  • العنوان: SWE-Arena: منصة تفاعلية لتقييم نماذج الأساس في هندسة البرمجيات
  • المؤلف: Zhimin Zhao (جامعة كوين)
  • التصنيف: cs.SE cs.LG
  • تاريخ النشر: مسودة arXiv (الإصدار الخامس v5 بتاريخ 10 أكتوبر 2025)
  • رابط الورقة: https://arxiv.org/abs/2502.01860v5

الملخص

أظهرت نماذج الأساس (FMs)، وخاصة نماذج اللغة الكبيرة (LLMs)، إمكانات هائلة في مختلف مهام هندسة البرمجيات (SE)، بما في ذلك توليد الأكواد والتصحيح وتحسين المتطلبات. على الرغم من هذه التطورات، فإن أطر التقييم الحالية غير كافية لتقييم أداء النماذج في سير العمل التكراري والغني بالسياق الخاص بأنشطة SE. لمعالجة هذا القيد، تقدم هذه الورقة SWE-Arena، وهي منصة تفاعلية مصممة خصيصاً لتقييم نماذج الأساس في مهام SE. توفر SWE-Arena لوحة ترتيب مفتوحة المصدر وشفافة، وتدعم سير عمل متعدد الجولات، وتمكّن المقارنة الشاملة بين النماذج. تقدم المنصة مقاييس تقييم مبتكرة، بما في ذلك درجة اتساق النموذج التي تقيس اتساق مخرجات النموذج من خلال مطابقات اللعب الذاتي، ومؤشر كفاءة الحوار الذي يقيّم أداء النموذج مع الأخذ في الاعتبار عدد جولات التفاعل المطلوبة للوصول إلى النتيجة. بالإضافة إلى ذلك، تدمج SWE-Arena ميزة جديدة تسمى RepoChat التي تحقن تلقائياً السياق المتعلق بالمستودع (مثل المشاكل والالتزامات وطلبات الدمج) في الحوار، مما يجعل التقييم أكثر توافقاً مع عمليات التطوير الحقيقية.

خلفية البحث والدافع

المشكلة الأساسية

تواجه أطر تقييم نماذج الأساس الحالية في مجال هندسة البرمجيات المشاكل الرئيسية التالية:

  1. الافتقار إلى الدعم التكراري: لا تستطيع الطرق التقليدية للتقييم التعامل مع متطلبات التفاعل متعدد الجولات الخاصة بمهام SE
  2. نقص السياق: لا يمكن للأطر الحالية دمج معلومات السياق على مستوى المستودع بشكل فعال في السيناريوهات الحقيقية للتطوير
  3. أبعاد التقييم الموحدة: تعتمد منصات مثل Chatbot Arena فقط على تصنيف Elo ومعدل الفوز، مما يجعل منظور التقييم ضيقاً جداً
  4. الشفافية غير الكافية: لا تفتح العديد من المنصات الحالية أكوادها المصدرية، مما يحد من الابتكار الموجه من المجتمع

أهمية المشكلة

تتمتع مهام هندسة البرمجيات بالخصائص التالية، مما يجعل الطرق التقليدية للتقييم غير مناسبة:

  • التعددية: تغطي مجالات متعددة مثل هندسة المتطلبات والهندسة الإصدارية وإدارة المشاريع
  • التكرارية: في جلسات التصحيح، يحتاج النموذج إلى تحسين الحل عدة مرات بناءً على ملاحظات المستخدم
  • الاعتماد على السياق: تتطلب سير عمل SE الحقيقي كمية كبيرة من معلومات السياق على مستوى المستودع

قيود الطرق الموجودة

  1. الاختبارات المعيارية الثابتة: تعتمد BigCodeBench و SWE-bench وغيرها على مجموعات بيانات محددة مسبقاً، وتفتقر إلى القدرة على التكيف
  2. منصات Arena الموجودة: لا تدعم Chatbot Arena و WebDev Arena وغيرها التفاعل متعدد الجولات، وتتمتع بمقاييس تقييم محدودة
  3. عدم كفاية الخصوصية بالمجال: لا يمكن للمنصات التقييمية العامة التقاط الاحتياجات الفريدة لمهام SE

المساهمات الأساسية

  1. أول منصة تقييم تفاعلية متخصصة في SE: تعتبر SWE-Arena أول منصة تقييم جماعي واسعة النطاق مصممة خصيصاً لمهام هندسة البرمجيات
  2. مقاييس تقييم مبتكرة: تقدم درجة اتساق النموذج (MCS) ومؤشر كفاءة الحوار (CEI) كمقياسين تقييم جديدين
  3. ميزة RepoChat: تحقن السياق على مستوى المستودع تلقائياً، مما يجعل التقييم أقرب إلى سيناريوهات التطوير الحقيقية
  4. نظام تقييم متعدد الأبعاد: يدمج المقاييس التقليدية (Elo ومعدل الفوز) والمقاييس المتقدمة (مركزية المتجه الذاتي و PageRank وغيرها)
  5. تصميم شفاف ومفتوح المصدر: يوفر لوحة ترتيب مفتوحة المصدر وشفافة تماماً وطرق تقييم

شرح الطريقة

تعريف المهمة

تهدف SWE-Arena إلى تقييم أداء نماذج الأساس في مهام هندسة البرمجيات من خلال المقارنات الثنائية للتفضيلات البشرية. يتضمن الإدخال استعلامات SE ذات الصلة من المستخدم وعنوان مستودع اختياري، والإخراج هو نتيجة مقارنة الاستجابات من نموذجين مجهولي الهوية.

تصميم معمارية المنصة

1. ميزة RepoChat

تعتبر RepoChat الميزة الابتكارية الأساسية في SWE-Arena:

  • استخراج السياق التلقائي: استخراج وصف المستودع واللغات البرمجية ومناقشات المشاكل والفروقات في الالتزامات وغيرها من البيانات الوصفية تلقائياً من منصات مثل GitHub و GitLab
  • حقن السياق الذكي: دمج السياق المستخرج مع استعلام المستخدم لتشكيل موجه شامل
  • الاستخدام الاختياري: يمكن للمستخدمين اختيار ما إذا كانوا يريدون توفير عنوان URL للمستودع، وتتمتع المنصة بالتوافق العكسي

2. نظام الحوار متعدد الجولات

  • التفاعل التكراري: يدعم المستخدمين في إجراء حوارات متعددة الجولات مع النموذج، لتقييم قدرة معالجة السياق طويلة المدى
  • التصويت الديناميكي: يمكن للمستخدمين تقديم تصويتهم في أي وقت وإعادة تقييم وتعديل تصويتهم
  • إدارة السياق: استخدام استراتيجية FIFO للتعامل مع الحالات التي تتجاوز نافذة السياق

3. آليات ضمان الجودة

  • تصفية الصلة بـ SE: استخدام GPT-5-nano لتصفية الموجهات غير ذات الصلة بـ SE تلقائياً
  • التقييم المجهول: إخفاء هوية النموذج طوال جلسة العمل
  • حدود وقت الاستجابة: حد أقصى لوقت استجابة النموذج الفردي يبلغ دقيقة واحدة

نقاط الابتكار التقني

1. درجة اتساق النموذج (MCS)

MCS = (D/N) × 100%

حيث D تمثل عدد التعادلات في اللعب الذاتي، و N تمثل العدد الإجمالي لمطابقات اللعب الذاتي. يقيس هذا المقياس اتساق مخرجات النموذج من خلال مطابقات اللعب الذاتي.

2. مؤشر كفاءة الحوار (CEI)

CEI = Σ(si/ni) / Σ(1/ni)

حيث:

  • ni: عدد جولات الدردشة في حوار واحد
  • si: درجة نتيجة تصويت المستخدم الفردي
  • قواعد التسجيل: الفوز=1، التعادل (كلاهما يعمل بشكل جيد)=0.3، التعادل (كلاهما لا يعمل)=-0.3، الخسارة=-1

يأخذ هذا المقياس في الاعتبار جودة النتيجة وعدد جولات التفاعل المطلوبة للوصول إلى النتيجة.

3. نظام المقاييس متعدد الأبعاد

بالإضافة إلى تصنيف Elo التقليدي ومعدل الفوز، يدمج أيضاً:

  • مركزية المتجه الذاتي: قياس الهيمنة العالمية
  • درجة PageRank: تقييم أهمية النموذج في شبكة المقارنة
  • درجة تعديل Newman: الكشف عن القدرات الخاصة بالمجال

إعداد التجربة

تنفيذ المنصة

تصميم واجهة المستخدم

  1. واجهة التفاعل الأول:
    • تسجيل دخول المستخدم وإدخال الموجه
    • إدخال عنوان URL للمستودع الاختياري
    • آلية إقران النموذج العشوائي
  2. واجهة الحوار متعدد الجولات:
    • دعم الحوار المستمر
    • وظائف التصويت والإعادة الفورية
    • عرض النموذج المجهول

استراتيجية جمع البيانات

  • التقييم الجماعي: جمع بيانات التفضيل من خلال تصويت المستخدمين
  • التحديث الفوري: يتم تحديث لوحة الترتيب فوراً بعد تقديم المستخدم للتصويت
  • حماية الخصوصية: جمع البيانات المجهولة، يحتاج المستخدمون إلى الموافقة على شروط الاستخدام

نتائج التجربة

التحقق من وظائف المنصة

تركز الورقة بشكل أساسي على عرض تصميم ووظائف منصة SWE-Arena، بدلاً من نتائج المقارنة بالمعنى التقليدي. يتضمن التحقق الرئيسي:

  1. دعم الحوار متعدد الجولات: تنفيذ ناجح للتقييم التفاعلي التكراري
  2. ميزة RepoChat: القدرة على استخراج وحقن السياق على مستوى المستودع تلقائياً
  3. لوحة الترتيب الفورية: الحساب والعرض الفوري للمقاييس متعددة الأبعاد
  4. التحكم في الجودة: تصفية فعالة للاستعلامات غير ذات الصلة بـ SE

فعالية مقاييس التقييم

  • مقياس MCS: تحديد كمي فعال لاتساق النموذج من خلال اللعب الذاتي
  • مقياس CEI: موازنة ناجحة بين جودة النتيجة والاعتبارات الكفاءة
  • المقاييس متعددة الأبعاد: توفير منظور تقييم أغنى من تصنيف Elo الفردي

الأعمال ذات الصلة

الاختبارات المعيارية الثابتة

  • BigCodeBench: اختبار معياري لتوليد الأكواد
  • DevOps-Eval: تقييم متعلق بـ DevOps
  • EvalPlus: إطار عمل محسّن لتقييم الأكواد
  • SWE-bench: معيار حل مشاكل GitHub

منصات المقارنة الثنائية

  • Chatbot Arena: منصة تقييم روبوتات الدردشة العامة
  • WebDev Arena: تقييم متخصص لتطوير الويب
  • Copilot Arena: منصة تقييم مساعد الأكواد

التمايز التقني

مزايا SWE-Arena مقارنة بالأعمال الموجودة:

  1. أول منصة متخصصة في SE تدعم التفاعل متعدد الجولات
  2. دمج ميزة RepoChat التي تحقن السياق على مستوى المستودع
  3. نظام مقاييس تقييم متعدد الأبعاد أكثر ثراءً
  4. تصميم شفاف ومفتوح المصدر تماماً

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. نجحت SWE-Arena في سد الفجوة في التقييم التفاعلي للنماذج في مجال SE
  2. تعزز ميزة RepoChat بشكل فعال واقعية وفائدة التقييم
  3. توفر مقاييس MCS و CEI المقترحة حديثاً منظوراً جديداً لتقييم النماذج
  4. يوفر نظام التقييم متعدد الأبعاد فهماً أكثر شمولاً للنموذج من المقياس الفردي

القيود

  1. الاعتماد على مشاركة المستخدمين: تعتمد فعالية المنصة على مجتمع مستخدمين نشط
  2. انحياز الذاتية: يتمتع التقييم بناءً على التفضيلات البشرية بذاتية متأصلة
  3. نطاق تغطية النموذج: أنواع النماذج المدعومة حالياً محدودة نسبياً
  4. متطلبات الصيانة طويلة الأجل: تتطلب صيانة تقنية مستمرة ودعم المجتمع

الاتجاهات المستقبلية

تحدد الورقة بوضوح أربعة اتجاهات تطوير:

  1. تحليل أحمال عمل SE الحقيقية: تحليل أنماط طلبات المستخدمين المقدمة، وتطوير لوحات ترتيب متخصصة
  2. تعزيز مشاركة المجتمع: تعزيز مساهمات مجتمع البحث والتطوير الأوسع
  3. توسيع تغطية FM: دعم النماذج الخاصة بالمجال والنماذج الأساسية متعددة الأنماط
  4. ضغط السياق المتقدم: دمج تقنيات مثل LongRope و SelfExtend للتعامل مع سجل التفاعل الطويل

التقييم المتعمق

المزايا

  1. قوة الابتكار: أول منصة تقييم تفاعلية متخصصة في SE، تسد فجوة مهمة
  2. التقدم التقني: تتمتع ميزة RepoChat والمقاييس التقييمية الجديدة بابتكار واضح
  3. قيمة عملية عالية: تخدم مباشرة الاحتياجات الفعلية لمجتمع SE
  4. تصميم معقول: يتوافق التفاعل متعدد الجولات والتقييم المجهول وغيرها مع أفضل الممارسات التقييمية
  5. الشفافية والمصدر المفتوح: يعزز التصميم مفتوح المصدر تماماً تطوير المجتمع والبحث الأكاديمي

أوجه القصور

  1. نقص التحقق على نطاق واسع: لم تقدم الورقة بيانات كافية عن استخدام المستخدمين والتحقق من الفعالية
  2. التحقق من مقاييس التقييم غير كافٍ: تفتقر مقاييس MCS و CEI المقترحة حديثاً إلى التحقق من الارتباط بالحكم البشري
  3. عدم كفاية الاعتبارات القابلية للتوسع: يوجد نقاش أقل عن التحديات التقنية للتزامن على نطاق واسع والتشغيل طويل الأجل
  4. آليات التحكم في الانحياز: وصف غير كافٍ لآليات التحكم في الانحياز المحتمل للمستخدمين والنماذج

التأثير

  1. المساهمة الأكاديمية: توفير اتجاهات وأدوات جديدة لبحث تقييم النماذج في مجال SE
  2. القيمة العملية: يمكن أن تخدم مباشرة احتياجات الصناعة في اختيار النماذج والتقييم
  3. بناء المجتمع: لديها إمكانية أن تصبح منصة مجتمع مهمة في مجال التقاطع بين SE والذكاء الاصطناعي
  4. الإلهام المنهجي: يمكن لتصميم المقاييس والطرق التقييمية أن تلهم أبحاثاً مماثلة في مجالات أخرى

السيناريوهات المطبقة

  1. مطورو النماذج: تقييم وتحسين نماذج الأساس المتعلقة بـ SE
  2. مهندسو البرمجيات: اختيار أفضل نموذج مناسب لمهام SE محددة
  3. الباحثون: إجراء بحث تجريبي في مجال التقاطع بين SE والذكاء الاصطناعي
  4. مطورو الأدوات: دمج قدرات التقييم في سلسلة أدوات SE

المراجع

تستشهد الورقة بـ 18 مرجعاً ذا صلة، تغطي:

  • الأساس النظري لنظام تصنيف Elo ونموذج Bradley-Terry
  • البحث المتعلق بتعلم التفضيلات البشرية والتعلم المعزز
  • المعايير الحالية لتوليد الأكواد وهندسة البرمجيات
  • تحليل الشبكات وخوارزميات الترتيب
  • تقنيات توسيع نافذة السياق

التقييم الشامل: تمثل SWE-Arena تقدماً مهماً في تقييم النماذج في مجال SE. من خلال تصميم المنصة المبتكر وطرق التقييم، توفر حلاً قيماً لمعالجة قيود أطر التقييم الموجودة. على الرغم من أنها تحتاج إلى مزيد من الإثبات في التحقق على نطاق واسع والاستدامة طويلة الأجل، فإن ابتكارها التقني وقيمتها العملية تجعلها تتمتع بإمكانية أن تصبح أداة مهمة في هذا المجال.