2025-11-19T03:28:13.831095

SWE-Arena: An Interactive Platform for Evaluating Foundation Models in Software Engineering

Zhao

Foundation models (FMs), particularly large language models (LLMs), have shown significant promise in various software engineering (SE) tasks, including code generation, debugging, and requirement refinement. Despite these advances, existing evaluation frameworks are insufficient for assessing model performance in iterative, context-rich workflows characteristic of SE activities. To address this limitation, we introduce \emph{SWE-Arena}, an interactive platform designed to evaluate FMs in SE tasks. SWE-Arena provides a transparent, open-source leaderboard, supports multi-round conversational workflows, and enables end-to-end model comparisons. The platform introduces novel metrics, including \emph{model consistency score} that measures the consistency of model outputs through self-play matches, and \emph{conversation efficiency index} that evaluates model performance while accounting for the number of interaction rounds required to reach conclusions. Moreover, SWE-Arena incorporates a new feature called \emph{RepoChat}, which automatically injects repository-related context (e.g., issues, commits, pull requests) into the conversation, further aligning evaluations with real-world development processes. This paper outlines the design and capabilities of SWE-Arena, emphasizing its potential to advance the evaluation and practical application of FMs in software engineering.

academic

SWE-Arena : Une Plateforme Interactive pour Évaluer les Modèles Fondamentaux en Ingénierie Logicielle

Informations Fondamentales

ID de l'article : 2502.01860
Titre : SWE-Arena: An Interactive Platform for Evaluating Foundation Models in Software Engineering
Auteur : Zhimin Zhao (Université Queen's)
Classification : cs.SE cs.LG
Date de publication : Prépublication arXiv (version v5 du 10 octobre 2025)
Lien de l'article : https://arxiv.org/abs/2502.01860v5

Résumé

Les modèles fondamentaux (MF), en particulier les grands modèles de langage (LLM), démontrent un potentiel considérable dans diverses tâches d'ingénierie logicielle (IL), notamment la génération de code, le débogage et l'affinage des exigences. Malgré ces progrès, les cadres d'évaluation existants sont insuffisants pour évaluer la performance des modèles dans les flux de travail itératifs et riches en contexte propres aux activités d'IL. Pour remédier à cette limitation, cet article introduit SWE-Arena, une plateforme interactive conçue spécifiquement pour évaluer les MF dans les tâches d'IL. SWE-Arena offre un classement transparent en source ouverte, prend en charge les flux de travail multi-tours et permet la comparaison de modèles de bout en bout. La plateforme introduit des métriques d'évaluation novatrices, notamment le score de cohérence du modèle, mesurant la cohérence des résultats du modèle via des appariements d'auto-jeu, et l'indice d'efficacité conversationnelle, évaluant la performance du modèle tout en tenant compte du nombre de tours d'interaction nécessaires pour parvenir à une conclusion. De plus, SWE-Arena intègre une nouvelle fonctionnalité appelée RepoChat, qui injecte automatiquement le contexte lié au référentiel (comme les problèmes, les commits, les demandes de fusion) dans la conversation, alignant davantage l'évaluation avec les processus de développement du monde réel.

Contexte de Recherche et Motivation

Problèmes Fondamentaux

Les cadres d'évaluation des modèles fondamentaux existants présentent les problèmes clés suivants dans le domaine de l'ingénierie logicielle :

Manque de support itératif : Les méthodes d'évaluation traditionnelles ne peuvent pas traiter les exigences d'interaction multi-tours propres aux tâches d'IL
Contexte manquant : Les cadres existants ne peuvent pas intégrer efficacement les informations de contexte au niveau du référentiel dans les scénarios de développement réels
Dimensions d'évaluation limitées : Des plateformes comme Chatbot Arena s'appuient uniquement sur les scores Elo et les taux de victoire moyens, offrant une perspective d'évaluation trop étroite
Transparence insuffisante : De nombreuses plateformes existantes ne sont pas en source ouverte, limitant l'innovation communautaire

Importance du Problème

Les tâches d'ingénierie logicielle possèdent les caractéristiques suivantes, rendant les méthodes d'évaluation traditionnelles inadéquates :

Multi-dimensionnalité : Couvrant plusieurs domaines tels que l'ingénierie des exigences, l'ingénierie de la distribution et la gestion de projet
Itérativité : Par exemple, dans les sessions de débogage, le modèle doit optimiser la solution plusieurs fois en fonction des commentaires de l'utilisateur
Dépendance contextuelle : Les flux de travail d'IL réels nécessitent une grande quantité d'informations de contexte au niveau du référentiel

Limitations des Approches Existantes

Tests de référence statiques : BigCodeBench, SWE-bench et autres dépendent de jeux de données prédéfinis, manquant d'adaptabilité
Plateformes Arena existantes : Chatbot Arena, WebDev Arena et autres ne prennent pas en charge l'interaction multi-tours et offrent des métriques d'évaluation limitées
Spécificité de domaine insuffisante : Les plateformes d'évaluation génériques ne peuvent pas capturer les besoins uniques des tâches d'IL

Contributions Principales

Première plateforme d'évaluation interactive dédiée à l'IL : SWE-Arena est la première plateforme d'évaluation collaborative à grande échelle conçue spécifiquement pour les tâches d'ingénierie logicielle
Métriques d'évaluation innovantes : Propose deux métriques d'évaluation novatrices : le score de cohérence du modèle (SCM) et l'indice d'efficacité conversationnelle (IEC)
Fonctionnalité RepoChat : Injecte automatiquement le contexte au niveau du référentiel, rapprochant l'évaluation des scénarios de développement réels
Système d'évaluation multi-dimensionnel : Intègre les métriques traditionnelles (Elo, taux de victoire) et les métriques avancées (centralité des vecteurs propres, PageRank, etc.)
Conception transparente en source ouverte : Fournit un classement complètement transparent en source ouverte et des méthodologies d'évaluation

Détails de la Méthode

Définition des Tâches

SWE-Arena vise à évaluer la performance des modèles fondamentaux dans les tâches d'ingénierie logicielle par le biais de comparaisons par paires basées sur les préférences humaines. Les entrées incluent les requêtes d'IL de l'utilisateur et une URL de référentiel optionnelle, tandis que les résultats sont des comparaisons de réponses de deux modèles anonymes.

Conception de l'Architecture de la Plateforme

1. Fonctionnalité RepoChat

RepoChat est la fonctionnalité d'innovation centrale de SWE-Arena :

Extraction de contexte automatique : Extrait automatiquement les métadonnées du référentiel depuis GitHub/GitLab, telles que la description du référentiel, les langages de programmation, les discussions sur les problèmes et les différences de commits
Injection de contexte intelligente : Fusionne le contexte extrait avec la requête de l'utilisateur pour former une invite complète
Utilisation optionnelle : Les utilisateurs peuvent choisir de fournir ou non une URL de référentiel, la plateforme étant rétrocompatible

2. Système de Dialogue Multi-Tours

Interaction itérative : Prend en charge les dialogues multi-tours entre l'utilisateur et le modèle, évaluant la capacité de traitement du contexte à long terme
Vote dynamique : Les utilisateurs peuvent soumettre un vote à tout moment et réévaluer les votes modifiés
Gestion du contexte : Utilise une stratégie FIFO pour traiter les cas dépassant la fenêtre de contexte

3. Mécanismes d'Assurance Qualité

Filtrage de pertinence IL : Utilise GPT-4-nano pour filtrer automatiquement les invites non pertinentes à l'IL
Évaluation anonyme : Les identités des modèles restent masquées tout au long de la session
Limite de temps de réponse : Limite le temps de réponse d'un modèle individuel à 1 minute

Points d'Innovation Technique

1. Score de Cohérence du Modèle (SCM)

SCM = (D/N) × 100%

Où D représente le nombre de matchs nuls lors de l'auto-jeu et N représente le nombre total de matchs d'auto-jeu. Cette métrique quantifie la cohérence de la sortie du modèle par le biais d'appariements d'auto-jeu.

2. Indice d'Efficacité Conversationnelle (IEC)

IEC = Σ(si/ni) / Σ(1/ni)

Où :

ni : Nombre de tours de chat dans une seule conversation
si : Score de résultat du vote utilisateur unique
Règles de notation : Victoire = 1, Match nul (tous deux fonctionnent bien) = 0,3, Match nul (aucun ne fonctionne) = -0,3, Défaite = -1

Cette métrique considère à la fois la qualité des résultats et le nombre de tours d'interaction nécessaires pour atteindre les résultats.

3. Système de Métriques d'Évaluation Multi-Dimensionnel

Au-delà des scores Elo et des taux de victoire traditionnels, il intègre :

Centralité des vecteurs propres : Mesure la domination mondiale
Score PageRank : Évalue l'importance du modèle dans le réseau de comparaison
Score de modularité de Newman : Révèle les capacités spécifiques au domaine

Configuration Expérimentale

Implémentation de la Plateforme

Plateforme de déploiement : Hugging Face Spaces
Adresse d'accès : https://huggingface.co/spaces/SE-Arena/Software-Engineering-Arena
Caractéristiques en source ouverte : Complètement en source ouverte, prenant en charge les contributions communautaires

Conception de l'Interface Utilisateur

Interface de première interaction :
- Connexion utilisateur et entrée d'invite
- Entrée optionnelle d'URL de référentiel
- Mécanisme d'appariement aléatoire de modèles
Interface de dialogue multi-tours :
- Support de conversation continue
- Vote en temps réel et fonctionnalité de réévaluation
- Affichage de modèles anonymes

Stratégie de Collecte de Données

Évaluation collaborative : Collecte les données de préférence via les votes des utilisateurs
Mise à jour en temps réel : Le classement est mis à jour immédiatement après la soumission du vote par l'utilisateur
Protection de la vie privée : Collecte de données anonymisées, les utilisateurs doivent accepter les conditions d'utilisation

Résultats Expérimentaux

Vérification des Fonctionnalités de la Plateforme

L'article présente principalement la conception et l'implémentation des fonctionnalités de la plateforme SWE-Arena, plutôt que des résultats expérimentaux comparatifs traditionnels. Les vérifications clés incluent :

Support du dialogue multi-tours : Implémentation réussie de l'évaluation d'interaction itérative
Fonctionnalité RepoChat : Capable d'extraire et d'injecter automatiquement le contexte du référentiel
Classement en temps réel : Calcul et affichage en temps réel des métriques multi-dimensionnelles
Contrôle de qualité : Filtrage efficace des requêtes non pertinentes à l'IL

Validité des Métriques d'Évaluation

Métrique SCM : Quantifie efficacement la cohérence du modèle via l'auto-jeu
Métrique IEC : Équilibre avec succès la qualité des résultats et les considérations d'efficacité
Métriques multi-dimensionnelles : Offrent une perspective d'évaluation plus riche qu'un simple score Elo

Travaux Connexes

Tests de Référence Statiques

BigCodeBench : Test de référence de génération de code
DevOps-Eval : Évaluation liée à DevOps
EvalPlus : Cadre d'amélioration d'évaluation de code
SWE-bench : Référence de résolution de problèmes GitHub

Plateformes de Comparaison par Paires

Chatbot Arena : Plateforme d'évaluation de chatbot généraliste
WebDev Arena : Évaluation dédiée au développement Web
Copilot Arena : Plateforme d'évaluation d'assistance au code

Différenciation Technique

Les avantages de SWE-Arena par rapport aux travaux existants :

Première plateforme dédiée à l'IL prenant en charge l'interaction multi-tours
Intégration de la fonctionnalité RepoChat avec contexte au niveau du référentiel
Système de métriques d'évaluation multi-dimensionnel plus riche
Conception complètement transparente en source ouverte

Conclusion et Discussion

Conclusions Principales

SWE-Arena comble avec succès le vide dans l'évaluation interactive des modèles dans le domaine de l'IL
La fonctionnalité RepoChat améliore efficacement le réalisme et l'utilité de l'évaluation
Les métriques SCM et IEC nouvellement proposées offrent de nouvelles perspectives pour l'évaluation des modèles
Le système d'évaluation multi-dimensionnel fournit une compréhension plus complète des modèles qu'une métrique unique

Limitations

Dépendance à la participation des utilisateurs : L'efficacité de la plateforme dépend d'une communauté d'utilisateurs active
Biais de subjectivité : L'évaluation des préférences humaines présente une subjectivité inhérente
Couverture limitée des modèles : Les types de modèles actuellement pris en charge sont relativement limités
Besoins de maintenance à long terme : Nécessite une maintenance technique continue et un soutien communautaire

Directions Futures

L'article identifie clairement quatre directions de développement :

Analyse des charges de travail d'IL réelles : Analyser les modèles des requêtes soumises par les utilisateurs et développer des sous-classements spécialisés
Amélioration de la participation communautaire : Promouvoir les contributions plus larges de la communauté de recherche et de développement
Expansion de la couverture des MF : Prendre en charge les modèles spécifiques au domaine et les modèles fondamentaux multimodaux
Compression de contexte avancée : Intégrer des technologies telles que LongRope et SelfExtend pour traiter les historiques d'interaction longs

Évaluation Approfondie

Points Forts

Innovation forte : Première plateforme d'évaluation interactive dédiée à l'IL, comblant un vide important
Technologie avancée : La fonctionnalité RepoChat et les nouvelles métriques d'évaluation présentent une innovation évidente
Valeur pratique élevée : Répond directement aux besoins réels de la communauté d'IL
Conception rationnelle : L'interaction multi-tours, l'évaluation anonyme et d'autres conceptions suivent les meilleures pratiques d'évaluation
Transparence en source ouverte : La conception complètement en source ouverte favorise le développement communautaire et la recherche académique

Insuffisances

Manque de validation à grande échelle : L'article ne fournit pas suffisamment de données d'utilisation et de vérification d'efficacité
Validation insuffisante des métriques d'évaluation : Les métriques SCM et IEC nouvellement proposées manquent de vérification de corrélation avec les jugements humains
Considérations insuffisantes de l'extensibilité : Discussion insuffisante des défis techniques de la concurrence utilisateur à grande échelle et de l'exploitation à long terme
Mécanismes de contrôle des biais : Description insuffisante des mécanismes de contrôle des biais utilisateur potentiels et des biais de modèle

Impact

Contribution académique : Fournit une nouvelle direction et des outils pour la recherche en évaluation de modèles dans le domaine de l'IL
Valeur pratique : Peut servir directement les besoins de sélection et d'évaluation de modèles de l'industrie
Construction communautaire : Potentiel pour devenir une plateforme communautaire importante dans le domaine interdisciplinaire IL-IA
Inspiration méthodologique : Les méthodes d'évaluation et la conception des métriques peuvent inspirer des recherches similaires dans d'autres domaines

Scénarios Applicables

Développeurs de modèles : Évaluer et améliorer les modèles fondamentaux liés à l'IL
Ingénieurs logiciels : Sélectionner le meilleur modèle adapté à des tâches d'IL spécifiques
Chercheurs : Mener des recherches empiriques dans le domaine interdisciplinaire IL-IA
Développeurs d'outils : Intégrer les capacités d'évaluation dans la chaîne d'outils d'IL

Références

L'article cite 18 références pertinentes, couvrant :

Les fondements théoriques du système de notation Elo et du modèle Bradley-Terry
Les recherches connexes sur l'apprentissage des préférences humaines et l'apprentissage par renforcement
Les tests de référence existants de génération de code et d'IL
L'analyse de réseau et les algorithmes de classement
Les technologies d'extension de fenêtre de contexte

Évaluation Générale : SWE-Arena représente un progrès important dans l'évaluation des modèles dans le domaine de l'IL. Grâce à sa conception de plateforme innovante et ses méthodes d'évaluation, elle fournit une solution précieuse pour résoudre les limitations des cadres d'évaluation existants. Bien qu'elle nécessite une validation à plus grande échelle et une démonstration de durabilité à long terme, son innovation technique et sa valeur pratique en font un outil potentiellement important dans ce domaine.