2025-11-19T03:28:13.831095

SWE-Arena: An Interactive Platform for Evaluating Foundation Models in Software Engineering

Zhao
Foundation models (FMs), particularly large language models (LLMs), have shown significant promise in various software engineering (SE) tasks, including code generation, debugging, and requirement refinement. Despite these advances, existing evaluation frameworks are insufficient for assessing model performance in iterative, context-rich workflows characteristic of SE activities. To address this limitation, we introduce \emph{SWE-Arena}, an interactive platform designed to evaluate FMs in SE tasks. SWE-Arena provides a transparent, open-source leaderboard, supports multi-round conversational workflows, and enables end-to-end model comparisons. The platform introduces novel metrics, including \emph{model consistency score} that measures the consistency of model outputs through self-play matches, and \emph{conversation efficiency index} that evaluates model performance while accounting for the number of interaction rounds required to reach conclusions. Moreover, SWE-Arena incorporates a new feature called \emph{RepoChat}, which automatically injects repository-related context (e.g., issues, commits, pull requests) into the conversation, further aligning evaluations with real-world development processes. This paper outlines the design and capabilities of SWE-Arena, emphasizing its potential to advance the evaluation and practical application of FMs in software engineering.
academic

SWE-Arena: Una Plataforma Interactiva para Evaluar Modelos Fundamentales en Ingeniería de Software

Información Básica

  • ID del Artículo: 2502.01860
  • Título: SWE-Arena: An Interactive Platform for Evaluating Foundation Models in Software Engineering
  • Autor: Zhimin Zhao (Queen's University)
  • Clasificación: cs.SE cs.LG
  • Fecha de Publicación: Preimpresión arXiv (versión v5 más reciente del 10 de octubre de 2025)
  • Enlace del Artículo: https://arxiv.org/abs/2502.01860v5

Resumen

Los modelos fundamentales (MF), particularmente los modelos de lenguaje de gran escala (LLM), han demostrado un potencial enorme en diversas tareas de ingeniería de software (IS), incluyendo generación de código, depuración y refinamiento de requisitos. A pesar de estos avances, los marcos de evaluación existentes son insuficientes para evaluar el desempeño de los modelos en flujos de trabajo iterativos y ricos en contexto específicos de actividades de IS. Para abordar esta limitación, este artículo introduce SWE-Arena, una plataforma interactiva diseñada específicamente para evaluar MF en tareas de IS. SWE-Arena proporciona un ranking de código abierto transparente, admite flujos de trabajo de conversación multironda e implementa comparación de modelos de extremo a extremo. La plataforma introduce métricas de evaluación novedosas, incluyendo la puntuación de consistencia del modelo que mide la consistencia de salidas del modelo mediante emparejamientos de autojuego, y el índice de eficiencia conversacional que evalúa el desempeño del modelo mientras considera el número de rondas de interacción necesarias para alcanzar conclusiones. Además, SWE-Arena integra una nueva funcionalidad denominada RepoChat, que inyecta automáticamente contexto relacionado con repositorios (como problemas, commits, solicitudes de extracción) en la conversación, alineando aún más la evaluación con procesos de desarrollo del mundo real.

Contexto de Investigación y Motivación

Problemas Centrales

Los marcos de evaluación de modelos fundamentales existentes presentan los siguientes problemas clave en el dominio de la ingeniería de software:

  1. Falta de Soporte Iterativo: Los métodos de evaluación tradicionales no pueden manejar los requisitos de interacción multironda específicos de tareas de IS
  2. Contexto Faltante: Los marcos existentes no pueden integrar efectivamente información de contexto a nivel de repositorio en escenarios de desarrollo reales
  3. Dimensiones de Evaluación Únicas: Plataformas como Chatbot Arena dependen únicamente de puntuaciones Elo y tasas de victoria promedio, perspectivas de evaluación demasiado estrechas
  4. Transparencia Insuficiente: Muchas plataformas existentes no son de código abierto, limitando la innovación impulsada por la comunidad

Importancia del Problema

Las tareas de ingeniería de software poseen las siguientes características que hacen que los métodos de evaluación tradicionales sean inaplicables:

  • Multidimensionalidad: Abarca múltiples dominios incluyendo ingeniería de requisitos, ingeniería de lanzamiento, gestión de proyectos, etc.
  • Iteratividad: En sesiones de depuración, por ejemplo, los modelos necesitan optimizar soluciones múltiples veces basándose en retroalimentación del usuario
  • Dependencia del Contexto: Los flujos de trabajo reales de IS requieren información sustancial de contexto a nivel de repositorio

Limitaciones de Métodos Existentes

  1. Pruebas Estáticas: BigCodeBench, SWE-bench y otros dependen de conjuntos de datos predefinidos, careciendo de adaptabilidad
  2. Plataformas Arena Existentes: Chatbot Arena, WebDev Arena y otros no admiten interacción multironda y tienen métricas de evaluación limitadas
  3. Especificidad de Dominio Insuficiente: Las plataformas de evaluación genéricas no pueden capturar las necesidades únicas de tareas de IS

Contribuciones Principales

  1. Primera Plataforma de Evaluación Interactiva Dedicada a IS: SWE-Arena es la primera plataforma de evaluación de crowdsourcing a gran escala diseñada específicamente para tareas de ingeniería de software
  2. Métricas de Evaluación Innovadoras: Propone dos métricas de evaluación novedosas: puntuación de consistencia del modelo (PCM) e índice de eficiencia conversacional (IEC)
  3. Funcionalidad RepoChat: Inyecta automáticamente contexto a nivel de repositorio, haciendo la evaluación más cercana a escenarios de desarrollo reales
  4. Sistema de Evaluación Multidimensional: Integra métricas tradicionales (Elo, tasa de victoria) y métricas avanzadas (centralidad de vector propio, PageRank, etc.)
  5. Diseño Transparente de Código Abierto: Proporciona un ranking completamente transparente de código abierto y metodologías de evaluación

Explicación Detallada del Método

Definición de Tareas

SWE-Arena tiene como objetivo evaluar el desempeño de modelos fundamentales en tareas de ingeniería de software mediante comparaciones pareadas de preferencias humanas. Las entradas incluyen consultas de IS relacionadas con el usuario y URLs de repositorio opcionales, mientras que las salidas son resultados de comparación de respuestas de dos modelos anónimos.

Diseño de Arquitectura de Plataforma

1. Funcionalidad RepoChat

RepoChat es la funcionalidad de innovación central de SWE-Arena:

  • Extracción Automática de Contexto: Extrae automáticamente descripciones de repositorio, lenguajes de programación, discusiones de problemas, diferencias de commits y otros metadatos de plataformas como GitHub/GitLab
  • Inyección Inteligente de Contexto: Fusiona el contexto extraído con la consulta del usuario, formando un indicador integral
  • Uso Opcional: Los usuarios pueden elegir si proporcionar una URL de repositorio, la plataforma tiene compatibilidad hacia atrás

2. Sistema de Conversación Multironda

  • Interacción Iterativa: Admite conversación multironda entre usuarios y modelos, evaluando capacidad de procesamiento de contexto a largo plazo
  • Votación Dinámica: Los usuarios pueden enviar votos en cualquier momento y pueden reevaluar y modificar votos
  • Gestión de Contexto: Utiliza estrategia FIFO para manejar casos que exceden la ventana de contexto

3. Mecanismos de Garantía de Calidad

  • Filtrado de Relevancia de IS: Utiliza GPT-5-nano para filtrar automáticamente indicadores no relacionados con IS
  • Evaluación Anónima: Las identidades de los modelos se ocultan durante todo el proceso de sesión
  • Límite de Tiempo de Respuesta: Límite de tiempo de respuesta de un minuto para respuestas individuales del modelo

Puntos de Innovación Técnica

1. Puntuación de Consistencia del Modelo (PCM)

PCM = (D/N) × 100%

Donde D representa el número de empates en autojuego y N representa el número total de autojuegos. Esta métrica cuantifica la consistencia de salidas del modelo mediante emparejamientos de autojuego.

2. Índice de Eficiencia Conversacional (IEC)

IEC = Σ(si/ni) / Σ(1/ni)

Donde:

  • ni: Número de rondas de chat en una conversación individual
  • si: Puntuación de resultado del voto individual del usuario
  • Regla de puntuación: Victoria=1, Empate (ambos funcionan bien)=0.3, Empate (ninguno funciona)=-0.3, Derrota=-1

Esta métrica considera integralmente la calidad del resultado y el número de rondas de interacción necesarias para alcanzar el resultado.

3. Sistema de Métricas de Evaluación Multidimensional

Además de las puntuaciones Elo tradicionales y tasas de victoria, integra:

  • Centralidad de Vector Propio: Mide la posición de dominio global
  • Puntuación PageRank: Evalúa la importancia del modelo en la red de comparación
  • Puntuación de Modularidad de Newman: Revela capacidades específicas del dominio

Configuración Experimental

Implementación de Plataforma

Diseño de Interfaz de Usuario

  1. Interfaz de Interacción de Primera Ronda:
    • Inicio de sesión del usuario e ingreso de indicador
    • Ingreso opcional de URL de repositorio
    • Mecanismo de emparejamiento aleatorio de modelos
  2. Interfaz de Conversación Multironda:
    • Soporte de conversación continua
    • Funcionalidad de votación en tiempo real y reevaluación
    • Presentación anónima de modelos

Estrategia de Recopilación de Datos

  • Evaluación de Crowdsourcing: Recopila datos de preferencia mediante votos de usuarios
  • Actualización en Tiempo Real: El ranking se actualiza inmediatamente después de que los usuarios envíen votos
  • Protección de Privacidad: Recopilación de datos anonimizada, los usuarios deben aceptar los términos de uso

Resultados Experimentales

Verificación de Funcionalidad de Plataforma

El artículo presenta principalmente el diseño e implementación de funcionalidad de la plataforma SWE-Arena, en lugar de resultados de comparación experimental en el sentido tradicional. Las verificaciones clave incluyen:

  1. Soporte de Conversación Multironda: Implementación exitosa de evaluación de interacción iterativa
  2. Funcionalidad RepoChat: Capacidad de extraer e inyectar automáticamente contexto de repositorio
  3. Ranking en Tiempo Real: Cálculo y presentación en tiempo real de métricas multidimensionales
  4. Control de Calidad: Filtrado efectivo de consultas no relacionadas con IS

Validez de Métricas de Evaluación

  • Métrica PCM: Cuantifica efectivamente la consistencia del modelo mediante autojuego
  • Métrica IEC: Equilibra exitosamente consideraciones de calidad de resultado y eficiencia
  • Métricas Multidimensionales: Proporciona perspectiva de evaluación más rica que puntuación Elo única

Trabajo Relacionado

Pruebas Estáticas

  • BigCodeBench: Prueba de referencia de generación de código
  • DevOps-Eval: Evaluación relacionada con DevOps
  • EvalPlus: Marco de evaluación mejorada de código
  • SWE-bench: Referencia de resolución de problemas de GitHub

Plataformas de Comparación Pareada

  • Chatbot Arena: Plataforma de evaluación de chatbot genérica
  • WebDev Arena: Evaluación dedicada a desarrollo web
  • Copilot Arena: Plataforma de evaluación de asistencia de código

Diferenciación Técnica

Las ventajas de SWE-Arena en comparación con trabajos existentes:

  1. Primera plataforma dedicada a IS que admite interacción multironda
  2. Integración de funcionalidad RepoChat con contexto a nivel de repositorio
  3. Sistema de métricas de evaluación multidimensional más rico
  4. Diseño completamente transparente de código abierto

Conclusiones y Discusión

Conclusiones Principales

  1. SWE-Arena llena exitosamente el vacío en evaluación interactiva de modelos en el dominio de IS
  2. La funcionalidad RepoChat mejora efectivamente la autenticidad y practicidad de la evaluación
  3. Las métricas PCM e IEC recientemente propuestas proporcionan nuevas perspectivas para evaluación de modelos
  4. El sistema de evaluación multidimensional proporciona comprensión más completa del modelo que indicadores únicos

Limitaciones

  1. Dependencia de Participación del Usuario: La efectividad de la plataforma depende de una comunidad de usuarios activa
  2. Sesgo de Subjetividad: La evaluación de preferencias humanas contiene subjetividad inherente
  3. Rango de Cobertura de Modelos: Los tipos de modelos actualmente admitidos son relativamente limitados
  4. Requisitos de Mantenimiento a Largo Plazo: Requiere mantenimiento técnico continuo y apoyo comunitario

Direcciones Futuras

El artículo articula claramente cuatro direcciones de desarrollo:

  1. Análisis de Carga de Trabajo de IS Real: Analizar patrones de solicitudes enviadas por usuarios, desarrollar sub-rankings especializados
  2. Participación Comunitaria Mejorada: Promover contribuciones más amplias de la comunidad de investigación y desarrollo
  3. Expansión de Cobertura de MF: Admitir modelos específicos de dominio y modelos fundamentales multimodales
  4. Compresión de Contexto Avanzada: Integrar tecnologías como LongRope, SelfExtend para manejar historiales de interacción largos

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera plataforma de evaluación interactiva dedicada a IS, llena un vacío importante
  2. Tecnología Avanzada: La funcionalidad RepoChat y nuevas métricas de evaluación poseen innovación evidente
  3. Valor Práctico Alto: Sirve directamente a las necesidades reales de la comunidad de IS
  4. Diseño Razonable: El diseño de interacción multironda, evaluación anónima y otros aspectos se alinean con mejores prácticas de evaluación
  5. Transparencia de Código Abierto: El diseño completamente de código abierto promueve desarrollo comunitario e investigación académica

Deficiencias

  1. Falta de Validación a Gran Escala: El artículo no proporciona datos suficientes de uso de usuarios y validación de efectividad
  2. Validación de Métricas de Evaluación Insuficiente: Las métricas PCM e IEC recientemente propuestas carecen de validación de correlación con juicio humano
  3. Consideración de Escalabilidad Insuficiente: Discusión limitada de desafíos técnicos de concurrencia de usuarios a gran escala y operación a largo plazo
  4. Mecanismos de Control de Sesgo: Descripción insuficiente de mecanismos de control para sesgo potencial de usuario y sesgo de modelo

Impacto

  1. Contribución Académica: Proporciona nueva dirección y herramientas para investigación de evaluación de modelos en dominio de IS
  2. Valor Práctico: Puede servir directamente a necesidades de selección y evaluación de modelos de la industria
  3. Construcción Comunitaria: Tiene potencial de convertirse en plataforma comunitaria importante en campo de intersección de IS-IA
  4. Inspiración Metodológica: El diseño de metodologías de evaluación e indicadores puede inspirar investigación similar en otros dominios

Escenarios Aplicables

  1. Desarrolladores de Modelos: Evaluar y mejorar modelos fundamentales relacionados con IS
  2. Ingenieros de Software: Seleccionar modelos óptimos para tareas específicas de IS
  3. Investigadores: Realizar investigación empírica en campo de intersección de IS-IA
  4. Desarrolladores de Herramientas: Integrar capacidades de evaluación en cadenas de herramientas de IS

Referencias

El artículo cita 18 referencias relacionadas, abarcando:

  • Fundamentos teóricos de sistema de puntuación Elo y modelo Bradley-Terry
  • Investigación relacionada con aprendizaje de preferencias humanas e aprendizaje por refuerzo
  • Pruebas de referencia existentes de generación de código y IS
  • Análisis de redes y algoritmos de clasificación
  • Tecnologías de extensión de ventana de contexto

Evaluación General: SWE-Arena representa un progreso importante en evaluación de modelos en el dominio de IS, proporcionando una solución valiosa para abordar limitaciones de marcos de evaluación existentes mediante diseño de plataforma innovador y metodologías de evaluación. Aunque requiere demostración adicional en validación a gran escala y sostenibilidad a largo plazo, su innovación técnica y valor práctico lo posicionan como herramienta potencial importante en este dominio.