2025-11-19T03:28:13.831095

SWE-Arena: An Interactive Platform for Evaluating Foundation Models in Software Engineering

Zhao
Foundation models (FMs), particularly large language models (LLMs), have shown significant promise in various software engineering (SE) tasks, including code generation, debugging, and requirement refinement. Despite these advances, existing evaluation frameworks are insufficient for assessing model performance in iterative, context-rich workflows characteristic of SE activities. To address this limitation, we introduce \emph{SWE-Arena}, an interactive platform designed to evaluate FMs in SE tasks. SWE-Arena provides a transparent, open-source leaderboard, supports multi-round conversational workflows, and enables end-to-end model comparisons. The platform introduces novel metrics, including \emph{model consistency score} that measures the consistency of model outputs through self-play matches, and \emph{conversation efficiency index} that evaluates model performance while accounting for the number of interaction rounds required to reach conclusions. Moreover, SWE-Arena incorporates a new feature called \emph{RepoChat}, which automatically injects repository-related context (e.g., issues, commits, pull requests) into the conversation, further aligning evaluations with real-world development processes. This paper outlines the design and capabilities of SWE-Arena, emphasizing its potential to advance the evaluation and practical application of FMs in software engineering.
academic

SWE-Arena : Une Plateforme Interactive pour Évaluer les Modèles Fondamentaux en Ingénierie Logicielle

Informations Fondamentales

  • ID de l'article : 2502.01860
  • Titre : SWE-Arena: An Interactive Platform for Evaluating Foundation Models in Software Engineering
  • Auteur : Zhimin Zhao (Université Queen's)
  • Classification : cs.SE cs.LG
  • Date de publication : Prépublication arXiv (version v5 du 10 octobre 2025)
  • Lien de l'article : https://arxiv.org/abs/2502.01860v5

Résumé

Les modèles fondamentaux (MF), en particulier les grands modèles de langage (LLM), démontrent un potentiel considérable dans diverses tâches d'ingénierie logicielle (IL), notamment la génération de code, le débogage et l'affinage des exigences. Malgré ces progrès, les cadres d'évaluation existants sont insuffisants pour évaluer la performance des modèles dans les flux de travail itératifs et riches en contexte propres aux activités d'IL. Pour remédier à cette limitation, cet article introduit SWE-Arena, une plateforme interactive conçue spécifiquement pour évaluer les MF dans les tâches d'IL. SWE-Arena offre un classement transparent en source ouverte, prend en charge les flux de travail multi-tours et permet la comparaison de modèles de bout en bout. La plateforme introduit des métriques d'évaluation novatrices, notamment le score de cohérence du modèle, mesurant la cohérence des résultats du modèle via des appariements d'auto-jeu, et l'indice d'efficacité conversationnelle, évaluant la performance du modèle tout en tenant compte du nombre de tours d'interaction nécessaires pour parvenir à une conclusion. De plus, SWE-Arena intègre une nouvelle fonctionnalité appelée RepoChat, qui injecte automatiquement le contexte lié au référentiel (comme les problèmes, les commits, les demandes de fusion) dans la conversation, alignant davantage l'évaluation avec les processus de développement du monde réel.

Contexte de Recherche et Motivation

Problèmes Fondamentaux

Les cadres d'évaluation des modèles fondamentaux existants présentent les problèmes clés suivants dans le domaine de l'ingénierie logicielle :

  1. Manque de support itératif : Les méthodes d'évaluation traditionnelles ne peuvent pas traiter les exigences d'interaction multi-tours propres aux tâches d'IL
  2. Contexte manquant : Les cadres existants ne peuvent pas intégrer efficacement les informations de contexte au niveau du référentiel dans les scénarios de développement réels
  3. Dimensions d'évaluation limitées : Des plateformes comme Chatbot Arena s'appuient uniquement sur les scores Elo et les taux de victoire moyens, offrant une perspective d'évaluation trop étroite
  4. Transparence insuffisante : De nombreuses plateformes existantes ne sont pas en source ouverte, limitant l'innovation communautaire

Importance du Problème

Les tâches d'ingénierie logicielle possèdent les caractéristiques suivantes, rendant les méthodes d'évaluation traditionnelles inadéquates :

  • Multi-dimensionnalité : Couvrant plusieurs domaines tels que l'ingénierie des exigences, l'ingénierie de la distribution et la gestion de projet
  • Itérativité : Par exemple, dans les sessions de débogage, le modèle doit optimiser la solution plusieurs fois en fonction des commentaires de l'utilisateur
  • Dépendance contextuelle : Les flux de travail d'IL réels nécessitent une grande quantité d'informations de contexte au niveau du référentiel

Limitations des Approches Existantes

  1. Tests de référence statiques : BigCodeBench, SWE-bench et autres dépendent de jeux de données prédéfinis, manquant d'adaptabilité
  2. Plateformes Arena existantes : Chatbot Arena, WebDev Arena et autres ne prennent pas en charge l'interaction multi-tours et offrent des métriques d'évaluation limitées
  3. Spécificité de domaine insuffisante : Les plateformes d'évaluation génériques ne peuvent pas capturer les besoins uniques des tâches d'IL

Contributions Principales

  1. Première plateforme d'évaluation interactive dédiée à l'IL : SWE-Arena est la première plateforme d'évaluation collaborative à grande échelle conçue spécifiquement pour les tâches d'ingénierie logicielle
  2. Métriques d'évaluation innovantes : Propose deux métriques d'évaluation novatrices : le score de cohérence du modèle (SCM) et l'indice d'efficacité conversationnelle (IEC)
  3. Fonctionnalité RepoChat : Injecte automatiquement le contexte au niveau du référentiel, rapprochant l'évaluation des scénarios de développement réels
  4. Système d'évaluation multi-dimensionnel : Intègre les métriques traditionnelles (Elo, taux de victoire) et les métriques avancées (centralité des vecteurs propres, PageRank, etc.)
  5. Conception transparente en source ouverte : Fournit un classement complètement transparent en source ouverte et des méthodologies d'évaluation

Détails de la Méthode

Définition des Tâches

SWE-Arena vise à évaluer la performance des modèles fondamentaux dans les tâches d'ingénierie logicielle par le biais de comparaisons par paires basées sur les préférences humaines. Les entrées incluent les requêtes d'IL de l'utilisateur et une URL de référentiel optionnelle, tandis que les résultats sont des comparaisons de réponses de deux modèles anonymes.

Conception de l'Architecture de la Plateforme

1. Fonctionnalité RepoChat

RepoChat est la fonctionnalité d'innovation centrale de SWE-Arena :

  • Extraction de contexte automatique : Extrait automatiquement les métadonnées du référentiel depuis GitHub/GitLab, telles que la description du référentiel, les langages de programmation, les discussions sur les problèmes et les différences de commits
  • Injection de contexte intelligente : Fusionne le contexte extrait avec la requête de l'utilisateur pour former une invite complète
  • Utilisation optionnelle : Les utilisateurs peuvent choisir de fournir ou non une URL de référentiel, la plateforme étant rétrocompatible

2. Système de Dialogue Multi-Tours

  • Interaction itérative : Prend en charge les dialogues multi-tours entre l'utilisateur et le modèle, évaluant la capacité de traitement du contexte à long terme
  • Vote dynamique : Les utilisateurs peuvent soumettre un vote à tout moment et réévaluer les votes modifiés
  • Gestion du contexte : Utilise une stratégie FIFO pour traiter les cas dépassant la fenêtre de contexte

3. Mécanismes d'Assurance Qualité

  • Filtrage de pertinence IL : Utilise GPT-4-nano pour filtrer automatiquement les invites non pertinentes à l'IL
  • Évaluation anonyme : Les identités des modèles restent masquées tout au long de la session
  • Limite de temps de réponse : Limite le temps de réponse d'un modèle individuel à 1 minute

Points d'Innovation Technique

1. Score de Cohérence du Modèle (SCM)

SCM = (D/N) × 100%

Où D représente le nombre de matchs nuls lors de l'auto-jeu et N représente le nombre total de matchs d'auto-jeu. Cette métrique quantifie la cohérence de la sortie du modèle par le biais d'appariements d'auto-jeu.

2. Indice d'Efficacité Conversationnelle (IEC)

IEC = Σ(si/ni) / Σ(1/ni)

Où :

  • ni : Nombre de tours de chat dans une seule conversation
  • si : Score de résultat du vote utilisateur unique
  • Règles de notation : Victoire = 1, Match nul (tous deux fonctionnent bien) = 0,3, Match nul (aucun ne fonctionne) = -0,3, Défaite = -1

Cette métrique considère à la fois la qualité des résultats et le nombre de tours d'interaction nécessaires pour atteindre les résultats.

3. Système de Métriques d'Évaluation Multi-Dimensionnel

Au-delà des scores Elo et des taux de victoire traditionnels, il intègre :

  • Centralité des vecteurs propres : Mesure la domination mondiale
  • Score PageRank : Évalue l'importance du modèle dans le réseau de comparaison
  • Score de modularité de Newman : Révèle les capacités spécifiques au domaine

Configuration Expérimentale

Implémentation de la Plateforme

Conception de l'Interface Utilisateur

  1. Interface de première interaction :
    • Connexion utilisateur et entrée d'invite
    • Entrée optionnelle d'URL de référentiel
    • Mécanisme d'appariement aléatoire de modèles
  2. Interface de dialogue multi-tours :
    • Support de conversation continue
    • Vote en temps réel et fonctionnalité de réévaluation
    • Affichage de modèles anonymes

Stratégie de Collecte de Données

  • Évaluation collaborative : Collecte les données de préférence via les votes des utilisateurs
  • Mise à jour en temps réel : Le classement est mis à jour immédiatement après la soumission du vote par l'utilisateur
  • Protection de la vie privée : Collecte de données anonymisées, les utilisateurs doivent accepter les conditions d'utilisation

Résultats Expérimentaux

Vérification des Fonctionnalités de la Plateforme

L'article présente principalement la conception et l'implémentation des fonctionnalités de la plateforme SWE-Arena, plutôt que des résultats expérimentaux comparatifs traditionnels. Les vérifications clés incluent :

  1. Support du dialogue multi-tours : Implémentation réussie de l'évaluation d'interaction itérative
  2. Fonctionnalité RepoChat : Capable d'extraire et d'injecter automatiquement le contexte du référentiel
  3. Classement en temps réel : Calcul et affichage en temps réel des métriques multi-dimensionnelles
  4. Contrôle de qualité : Filtrage efficace des requêtes non pertinentes à l'IL

Validité des Métriques d'Évaluation

  • Métrique SCM : Quantifie efficacement la cohérence du modèle via l'auto-jeu
  • Métrique IEC : Équilibre avec succès la qualité des résultats et les considérations d'efficacité
  • Métriques multi-dimensionnelles : Offrent une perspective d'évaluation plus riche qu'un simple score Elo

Travaux Connexes

Tests de Référence Statiques

  • BigCodeBench : Test de référence de génération de code
  • DevOps-Eval : Évaluation liée à DevOps
  • EvalPlus : Cadre d'amélioration d'évaluation de code
  • SWE-bench : Référence de résolution de problèmes GitHub

Plateformes de Comparaison par Paires

  • Chatbot Arena : Plateforme d'évaluation de chatbot généraliste
  • WebDev Arena : Évaluation dédiée au développement Web
  • Copilot Arena : Plateforme d'évaluation d'assistance au code

Différenciation Technique

Les avantages de SWE-Arena par rapport aux travaux existants :

  1. Première plateforme dédiée à l'IL prenant en charge l'interaction multi-tours
  2. Intégration de la fonctionnalité RepoChat avec contexte au niveau du référentiel
  3. Système de métriques d'évaluation multi-dimensionnel plus riche
  4. Conception complètement transparente en source ouverte

Conclusion et Discussion

Conclusions Principales

  1. SWE-Arena comble avec succès le vide dans l'évaluation interactive des modèles dans le domaine de l'IL
  2. La fonctionnalité RepoChat améliore efficacement le réalisme et l'utilité de l'évaluation
  3. Les métriques SCM et IEC nouvellement proposées offrent de nouvelles perspectives pour l'évaluation des modèles
  4. Le système d'évaluation multi-dimensionnel fournit une compréhension plus complète des modèles qu'une métrique unique

Limitations

  1. Dépendance à la participation des utilisateurs : L'efficacité de la plateforme dépend d'une communauté d'utilisateurs active
  2. Biais de subjectivité : L'évaluation des préférences humaines présente une subjectivité inhérente
  3. Couverture limitée des modèles : Les types de modèles actuellement pris en charge sont relativement limités
  4. Besoins de maintenance à long terme : Nécessite une maintenance technique continue et un soutien communautaire

Directions Futures

L'article identifie clairement quatre directions de développement :

  1. Analyse des charges de travail d'IL réelles : Analyser les modèles des requêtes soumises par les utilisateurs et développer des sous-classements spécialisés
  2. Amélioration de la participation communautaire : Promouvoir les contributions plus larges de la communauté de recherche et de développement
  3. Expansion de la couverture des MF : Prendre en charge les modèles spécifiques au domaine et les modèles fondamentaux multimodaux
  4. Compression de contexte avancée : Intégrer des technologies telles que LongRope et SelfExtend pour traiter les historiques d'interaction longs

Évaluation Approfondie

Points Forts

  1. Innovation forte : Première plateforme d'évaluation interactive dédiée à l'IL, comblant un vide important
  2. Technologie avancée : La fonctionnalité RepoChat et les nouvelles métriques d'évaluation présentent une innovation évidente
  3. Valeur pratique élevée : Répond directement aux besoins réels de la communauté d'IL
  4. Conception rationnelle : L'interaction multi-tours, l'évaluation anonyme et d'autres conceptions suivent les meilleures pratiques d'évaluation
  5. Transparence en source ouverte : La conception complètement en source ouverte favorise le développement communautaire et la recherche académique

Insuffisances

  1. Manque de validation à grande échelle : L'article ne fournit pas suffisamment de données d'utilisation et de vérification d'efficacité
  2. Validation insuffisante des métriques d'évaluation : Les métriques SCM et IEC nouvellement proposées manquent de vérification de corrélation avec les jugements humains
  3. Considérations insuffisantes de l'extensibilité : Discussion insuffisante des défis techniques de la concurrence utilisateur à grande échelle et de l'exploitation à long terme
  4. Mécanismes de contrôle des biais : Description insuffisante des mécanismes de contrôle des biais utilisateur potentiels et des biais de modèle

Impact

  1. Contribution académique : Fournit une nouvelle direction et des outils pour la recherche en évaluation de modèles dans le domaine de l'IL
  2. Valeur pratique : Peut servir directement les besoins de sélection et d'évaluation de modèles de l'industrie
  3. Construction communautaire : Potentiel pour devenir une plateforme communautaire importante dans le domaine interdisciplinaire IL-IA
  4. Inspiration méthodologique : Les méthodes d'évaluation et la conception des métriques peuvent inspirer des recherches similaires dans d'autres domaines

Scénarios Applicables

  1. Développeurs de modèles : Évaluer et améliorer les modèles fondamentaux liés à l'IL
  2. Ingénieurs logiciels : Sélectionner le meilleur modèle adapté à des tâches d'IL spécifiques
  3. Chercheurs : Mener des recherches empiriques dans le domaine interdisciplinaire IL-IA
  4. Développeurs d'outils : Intégrer les capacités d'évaluation dans la chaîne d'outils d'IL

Références

L'article cite 18 références pertinentes, couvrant :

  • Les fondements théoriques du système de notation Elo et du modèle Bradley-Terry
  • Les recherches connexes sur l'apprentissage des préférences humaines et l'apprentissage par renforcement
  • Les tests de référence existants de génération de code et d'IL
  • L'analyse de réseau et les algorithmes de classement
  • Les technologies d'extension de fenêtre de contexte

Évaluation Générale : SWE-Arena représente un progrès important dans l'évaluation des modèles dans le domaine de l'IL. Grâce à sa conception de plateforme innovante et ses méthodes d'évaluation, elle fournit une solution précieuse pour résoudre les limitations des cadres d'évaluation existants. Bien qu'elle nécessite une validation à plus grande échelle et une démonstration de durabilité à long terme, son innovation technique et sa valeur pratique en font un outil potentiellement important dans ce domaine.