2025-11-19T03:28:13.831095

SWE-Arena: An Interactive Platform for Evaluating Foundation Models in Software Engineering

Zhao

Foundation models (FMs), particularly large language models (LLMs), have shown significant promise in various software engineering (SE) tasks, including code generation, debugging, and requirement refinement. Despite these advances, existing evaluation frameworks are insufficient for assessing model performance in iterative, context-rich workflows characteristic of SE activities. To address this limitation, we introduce \emph{SWE-Arena}, an interactive platform designed to evaluate FMs in SE tasks. SWE-Arena provides a transparent, open-source leaderboard, supports multi-round conversational workflows, and enables end-to-end model comparisons. The platform introduces novel metrics, including \emph{model consistency score} that measures the consistency of model outputs through self-play matches, and \emph{conversation efficiency index} that evaluates model performance while accounting for the number of interaction rounds required to reach conclusions. Moreover, SWE-Arena incorporates a new feature called \emph{RepoChat}, which automatically injects repository-related context (e.g., issues, commits, pull requests) into the conversation, further aligning evaluations with real-world development processes. This paper outlines the design and capabilities of SWE-Arena, emphasizing its potential to advance the evaluation and practical application of FMs in software engineering.

academic

SWE-Arena: Una Plataforma Interactiva para Evaluar Modelos Fundamentales en Ingeniería de Software

Información Básica

ID del Artículo: 2502.01860
Título: SWE-Arena: An Interactive Platform for Evaluating Foundation Models in Software Engineering
Autor: Zhimin Zhao (Queen's University)
Clasificación: cs.SE cs.LG
Fecha de Publicación: Preimpresión arXiv (versión v5 más reciente del 10 de octubre de 2025)
Enlace del Artículo: https://arxiv.org/abs/2502.01860v5

Resumen

Los modelos fundamentales (MF), particularmente los modelos de lenguaje de gran escala (LLM), han demostrado un potencial enorme en diversas tareas de ingeniería de software (IS), incluyendo generación de código, depuración y refinamiento de requisitos. A pesar de estos avances, los marcos de evaluación existentes son insuficientes para evaluar el desempeño de los modelos en flujos de trabajo iterativos y ricos en contexto específicos de actividades de IS. Para abordar esta limitación, este artículo introduce SWE-Arena, una plataforma interactiva diseñada específicamente para evaluar MF en tareas de IS. SWE-Arena proporciona un ranking de código abierto transparente, admite flujos de trabajo de conversación multironda e implementa comparación de modelos de extremo a extremo. La plataforma introduce métricas de evaluación novedosas, incluyendo la puntuación de consistencia del modelo que mide la consistencia de salidas del modelo mediante emparejamientos de autojuego, y el índice de eficiencia conversacional que evalúa el desempeño del modelo mientras considera el número de rondas de interacción necesarias para alcanzar conclusiones. Además, SWE-Arena integra una nueva funcionalidad denominada RepoChat, que inyecta automáticamente contexto relacionado con repositorios (como problemas, commits, solicitudes de extracción) en la conversación, alineando aún más la evaluación con procesos de desarrollo del mundo real.

Contexto de Investigación y Motivación

Problemas Centrales

Los marcos de evaluación de modelos fundamentales existentes presentan los siguientes problemas clave en el dominio de la ingeniería de software:

Falta de Soporte Iterativo: Los métodos de evaluación tradicionales no pueden manejar los requisitos de interacción multironda específicos de tareas de IS
Contexto Faltante: Los marcos existentes no pueden integrar efectivamente información de contexto a nivel de repositorio en escenarios de desarrollo reales
Dimensiones de Evaluación Únicas: Plataformas como Chatbot Arena dependen únicamente de puntuaciones Elo y tasas de victoria promedio, perspectivas de evaluación demasiado estrechas
Transparencia Insuficiente: Muchas plataformas existentes no son de código abierto, limitando la innovación impulsada por la comunidad

Importancia del Problema

Las tareas de ingeniería de software poseen las siguientes características que hacen que los métodos de evaluación tradicionales sean inaplicables:

Multidimensionalidad: Abarca múltiples dominios incluyendo ingeniería de requisitos, ingeniería de lanzamiento, gestión de proyectos, etc.
Iteratividad: En sesiones de depuración, por ejemplo, los modelos necesitan optimizar soluciones múltiples veces basándose en retroalimentación del usuario
Dependencia del Contexto: Los flujos de trabajo reales de IS requieren información sustancial de contexto a nivel de repositorio

Limitaciones de Métodos Existentes

Pruebas Estáticas: BigCodeBench, SWE-bench y otros dependen de conjuntos de datos predefinidos, careciendo de adaptabilidad
Plataformas Arena Existentes: Chatbot Arena, WebDev Arena y otros no admiten interacción multironda y tienen métricas de evaluación limitadas
Especificidad de Dominio Insuficiente: Las plataformas de evaluación genéricas no pueden capturar las necesidades únicas de tareas de IS

Contribuciones Principales

Primera Plataforma de Evaluación Interactiva Dedicada a IS: SWE-Arena es la primera plataforma de evaluación de crowdsourcing a gran escala diseñada específicamente para tareas de ingeniería de software
Métricas de Evaluación Innovadoras: Propone dos métricas de evaluación novedosas: puntuación de consistencia del modelo (PCM) e índice de eficiencia conversacional (IEC)
Funcionalidad RepoChat: Inyecta automáticamente contexto a nivel de repositorio, haciendo la evaluación más cercana a escenarios de desarrollo reales
Sistema de Evaluación Multidimensional: Integra métricas tradicionales (Elo, tasa de victoria) y métricas avanzadas (centralidad de vector propio, PageRank, etc.)
Diseño Transparente de Código Abierto: Proporciona un ranking completamente transparente de código abierto y metodologías de evaluación

Explicación Detallada del Método

Definición de Tareas

SWE-Arena tiene como objetivo evaluar el desempeño de modelos fundamentales en tareas de ingeniería de software mediante comparaciones pareadas de preferencias humanas. Las entradas incluyen consultas de IS relacionadas con el usuario y URLs de repositorio opcionales, mientras que las salidas son resultados de comparación de respuestas de dos modelos anónimos.

Diseño de Arquitectura de Plataforma

1. Funcionalidad RepoChat

RepoChat es la funcionalidad de innovación central de SWE-Arena:

Extracción Automática de Contexto: Extrae automáticamente descripciones de repositorio, lenguajes de programación, discusiones de problemas, diferencias de commits y otros metadatos de plataformas como GitHub/GitLab
Inyección Inteligente de Contexto: Fusiona el contexto extraído con la consulta del usuario, formando un indicador integral
Uso Opcional: Los usuarios pueden elegir si proporcionar una URL de repositorio, la plataforma tiene compatibilidad hacia atrás

2. Sistema de Conversación Multironda

Interacción Iterativa: Admite conversación multironda entre usuarios y modelos, evaluando capacidad de procesamiento de contexto a largo plazo
Votación Dinámica: Los usuarios pueden enviar votos en cualquier momento y pueden reevaluar y modificar votos
Gestión de Contexto: Utiliza estrategia FIFO para manejar casos que exceden la ventana de contexto

3. Mecanismos de Garantía de Calidad

Filtrado de Relevancia de IS: Utiliza GPT-5-nano para filtrar automáticamente indicadores no relacionados con IS
Evaluación Anónima: Las identidades de los modelos se ocultan durante todo el proceso de sesión
Límite de Tiempo de Respuesta: Límite de tiempo de respuesta de un minuto para respuestas individuales del modelo

Puntos de Innovación Técnica

1. Puntuación de Consistencia del Modelo (PCM)

PCM = (D/N) × 100%

Donde D representa el número de empates en autojuego y N representa el número total de autojuegos. Esta métrica cuantifica la consistencia de salidas del modelo mediante emparejamientos de autojuego.

2. Índice de Eficiencia Conversacional (IEC)

IEC = Σ(si/ni) / Σ(1/ni)

Donde:

ni: Número de rondas de chat en una conversación individual
si: Puntuación de resultado del voto individual del usuario
Regla de puntuación: Victoria=1, Empate (ambos funcionan bien)=0.3, Empate (ninguno funciona)=-0.3, Derrota=-1

Esta métrica considera integralmente la calidad del resultado y el número de rondas de interacción necesarias para alcanzar el resultado.

3. Sistema de Métricas de Evaluación Multidimensional

Además de las puntuaciones Elo tradicionales y tasas de victoria, integra:

Centralidad de Vector Propio: Mide la posición de dominio global
Puntuación PageRank: Evalúa la importancia del modelo en la red de comparación
Puntuación de Modularidad de Newman: Revela capacidades específicas del dominio

Configuración Experimental

Implementación de Plataforma

Plataforma de Despliegue: Hugging Face Spaces
Dirección de Acceso: https://huggingface.co/spaces/SE-Arena/Software-Engineering-Arena
Características de Código Abierto: Completamente de código abierto, admite contribuciones de la comunidad

Diseño de Interfaz de Usuario

Interfaz de Interacción de Primera Ronda:
- Inicio de sesión del usuario e ingreso de indicador
- Ingreso opcional de URL de repositorio
- Mecanismo de emparejamiento aleatorio de modelos
Interfaz de Conversación Multironda:
- Soporte de conversación continua
- Funcionalidad de votación en tiempo real y reevaluación
- Presentación anónima de modelos

Estrategia de Recopilación de Datos

Evaluación de Crowdsourcing: Recopila datos de preferencia mediante votos de usuarios
Actualización en Tiempo Real: El ranking se actualiza inmediatamente después de que los usuarios envíen votos
Protección de Privacidad: Recopilación de datos anonimizada, los usuarios deben aceptar los términos de uso

Resultados Experimentales

Verificación de Funcionalidad de Plataforma

El artículo presenta principalmente el diseño e implementación de funcionalidad de la plataforma SWE-Arena, en lugar de resultados de comparación experimental en el sentido tradicional. Las verificaciones clave incluyen:

Soporte de Conversación Multironda: Implementación exitosa de evaluación de interacción iterativa
Funcionalidad RepoChat: Capacidad de extraer e inyectar automáticamente contexto de repositorio
Ranking en Tiempo Real: Cálculo y presentación en tiempo real de métricas multidimensionales
Control de Calidad: Filtrado efectivo de consultas no relacionadas con IS

Validez de Métricas de Evaluación

Métrica PCM: Cuantifica efectivamente la consistencia del modelo mediante autojuego
Métrica IEC: Equilibra exitosamente consideraciones de calidad de resultado y eficiencia
Métricas Multidimensionales: Proporciona perspectiva de evaluación más rica que puntuación Elo única

Trabajo Relacionado

Pruebas Estáticas

BigCodeBench: Prueba de referencia de generación de código
DevOps-Eval: Evaluación relacionada con DevOps
EvalPlus: Marco de evaluación mejorada de código
SWE-bench: Referencia de resolución de problemas de GitHub

Plataformas de Comparación Pareada

Chatbot Arena: Plataforma de evaluación de chatbot genérica
WebDev Arena: Evaluación dedicada a desarrollo web
Copilot Arena: Plataforma de evaluación de asistencia de código

Diferenciación Técnica

Las ventajas de SWE-Arena en comparación con trabajos existentes:

Primera plataforma dedicada a IS que admite interacción multironda
Integración de funcionalidad RepoChat con contexto a nivel de repositorio
Sistema de métricas de evaluación multidimensional más rico
Diseño completamente transparente de código abierto

Conclusiones y Discusión

Conclusiones Principales

SWE-Arena llena exitosamente el vacío en evaluación interactiva de modelos en el dominio de IS
La funcionalidad RepoChat mejora efectivamente la autenticidad y practicidad de la evaluación
Las métricas PCM e IEC recientemente propuestas proporcionan nuevas perspectivas para evaluación de modelos
El sistema de evaluación multidimensional proporciona comprensión más completa del modelo que indicadores únicos

Limitaciones

Dependencia de Participación del Usuario: La efectividad de la plataforma depende de una comunidad de usuarios activa
Sesgo de Subjetividad: La evaluación de preferencias humanas contiene subjetividad inherente
Rango de Cobertura de Modelos: Los tipos de modelos actualmente admitidos son relativamente limitados
Requisitos de Mantenimiento a Largo Plazo: Requiere mantenimiento técnico continuo y apoyo comunitario

Direcciones Futuras

El artículo articula claramente cuatro direcciones de desarrollo:

Análisis de Carga de Trabajo de IS Real: Analizar patrones de solicitudes enviadas por usuarios, desarrollar sub-rankings especializados
Participación Comunitaria Mejorada: Promover contribuciones más amplias de la comunidad de investigación y desarrollo
Expansión de Cobertura de MF: Admitir modelos específicos de dominio y modelos fundamentales multimodales
Compresión de Contexto Avanzada: Integrar tecnologías como LongRope, SelfExtend para manejar historiales de interacción largos

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera plataforma de evaluación interactiva dedicada a IS, llena un vacío importante
Tecnología Avanzada: La funcionalidad RepoChat y nuevas métricas de evaluación poseen innovación evidente
Valor Práctico Alto: Sirve directamente a las necesidades reales de la comunidad de IS
Diseño Razonable: El diseño de interacción multironda, evaluación anónima y otros aspectos se alinean con mejores prácticas de evaluación
Transparencia de Código Abierto: El diseño completamente de código abierto promueve desarrollo comunitario e investigación académica

Deficiencias

Falta de Validación a Gran Escala: El artículo no proporciona datos suficientes de uso de usuarios y validación de efectividad
Validación de Métricas de Evaluación Insuficiente: Las métricas PCM e IEC recientemente propuestas carecen de validación de correlación con juicio humano
Consideración de Escalabilidad Insuficiente: Discusión limitada de desafíos técnicos de concurrencia de usuarios a gran escala y operación a largo plazo
Mecanismos de Control de Sesgo: Descripción insuficiente de mecanismos de control para sesgo potencial de usuario y sesgo de modelo

Impacto

Contribución Académica: Proporciona nueva dirección y herramientas para investigación de evaluación de modelos en dominio de IS
Valor Práctico: Puede servir directamente a necesidades de selección y evaluación de modelos de la industria
Construcción Comunitaria: Tiene potencial de convertirse en plataforma comunitaria importante en campo de intersección de IS-IA
Inspiración Metodológica: El diseño de metodologías de evaluación e indicadores puede inspirar investigación similar en otros dominios

Escenarios Aplicables

Desarrolladores de Modelos: Evaluar y mejorar modelos fundamentales relacionados con IS
Ingenieros de Software: Seleccionar modelos óptimos para tareas específicas de IS
Investigadores: Realizar investigación empírica en campo de intersección de IS-IA
Desarrolladores de Herramientas: Integrar capacidades de evaluación en cadenas de herramientas de IS

Referencias

El artículo cita 18 referencias relacionadas, abarcando:

Fundamentos teóricos de sistema de puntuación Elo y modelo Bradley-Terry
Investigación relacionada con aprendizaje de preferencias humanas e aprendizaje por refuerzo
Pruebas de referencia existentes de generación de código y IS
Análisis de redes y algoritmos de clasificación
Tecnologías de extensión de ventana de contexto

Evaluación General: SWE-Arena representa un progreso importante en evaluación de modelos en el dominio de IS, proporcionando una solución valiosa para abordar limitaciones de marcos de evaluación existentes mediante diseño de plataforma innovador y metodologías de evaluación. Aunque requiere demostración adicional en validación a gran escala y sostenibilidad a largo plazo, su innovación técnica y valor práctico lo posicionan como herramienta potencial importante en este dominio.