2025-11-19T03:28:13.831095

SWE-Arena: An Interactive Platform for Evaluating Foundation Models in Software Engineering

Zhao

Foundation models (FMs), particularly large language models (LLMs), have shown significant promise in various software engineering (SE) tasks, including code generation, debugging, and requirement refinement. Despite these advances, existing evaluation frameworks are insufficient for assessing model performance in iterative, context-rich workflows characteristic of SE activities. To address this limitation, we introduce \emph{SWE-Arena}, an interactive platform designed to evaluate FMs in SE tasks. SWE-Arena provides a transparent, open-source leaderboard, supports multi-round conversational workflows, and enables end-to-end model comparisons. The platform introduces novel metrics, including \emph{model consistency score} that measures the consistency of model outputs through self-play matches, and \emph{conversation efficiency index} that evaluates model performance while accounting for the number of interaction rounds required to reach conclusions. Moreover, SWE-Arena incorporates a new feature called \emph{RepoChat}, which automatically injects repository-related context (e.g., issues, commits, pull requests) into the conversation, further aligning evaluations with real-world development processes. This paper outlines the design and capabilities of SWE-Arena, emphasizing its potential to advance the evaluation and practical application of FMs in software engineering.

academic

SWE-Arena: Eine interaktive Plattform zur Bewertung von Grundmodellen in der Softwareentwicklung

Grundlegende Informationen

Papier-ID: 2502.01860
Titel: SWE-Arena: An Interactive Platform for Evaluating Foundation Models in Software Engineering
Autor: Zhimin Zhao (Queen's University)
Klassifizierung: cs.SE cs.LG
Veröffentlichungsdatum: arXiv-Preprint (neueste Version v5 vom 10. Oktober 2025)
Papierlink: https://arxiv.org/abs/2502.01860v5

Zusammenfassung

Grundmodelle (FMs), insbesondere große Sprachmodelle (LLMs), zeigen enormes Potenzial in verschiedenen Aufgaben der Softwareentwicklung (SE), einschließlich Codegenerierung, Debugging und Anforderungsverfeinerung. Trotz dieser Fortschritte sind bestehende Bewertungsrahmen unzureichend, um die Leistung von Modellen in iterativen, kontextreichen Arbeitsabläufen zu bewerten, die für SE-Aktivitäten charakteristisch sind. Um diese Einschränkung zu beheben, wird in diesem Papier SWE-Arena vorgestellt – eine interaktive Plattform, die speziell für die Bewertung von FMs in SE-Aufgaben konzipiert wurde. SWE-Arena bietet ein transparentes Open-Source-Leaderboard, unterstützt mehrrundige Gesprächsabläufe und ermöglicht End-to-End-Modellvergleiche. Die Plattform führt neuartige Bewertungsmetriken ein, darunter die Modellkonsistenz-Punktzahl, die die Konsistenz von Modellausgaben durch Self-Play-Matching misst, und den Gesprächseffizienz-Index, der die Modellleistung unter Berücksichtigung der Anzahl der erforderlichen Interaktionsrunden bewertet. Darüber hinaus integriert SWE-Arena eine neue Funktion namens RepoChat, die automatisch repositoriumbezogene Kontexte (wie Issues, Commits, Pull Requests) in Gespräche einfügt und die Bewertung damit stärker an realen Entwicklungsprozessen ausrichtet.

Forschungshintergrund und Motivation

Kernprobleme

Bestehende Bewertungsrahmen für Grundmodelle weisen im Bereich der Softwareentwicklung folgende kritische Probleme auf:

Mangelnde Unterstützung für Iterativität: Traditionelle Bewertungsmethoden können die mehrrundigen Interaktionsanforderungen, die SE-Aufgaben eigen sind, nicht bewältigen
Fehlender Kontext: Bestehende Rahmen können Informationen auf Repositoriumsebene aus realen Entwicklungsszenarien nicht effektiv integrieren
Eindimensionale Bewertung: Plattformen wie Chatbot Arena verlassen sich nur auf Elo-Bewertungen und durchschnittliche Gewinnquoten, was zu einer zu engen Bewertungsperspektive führt
Unzureichende Transparenz: Viele bestehende Plattformen sind nicht Open-Source, was gemeinschaftsgesteuerte Innovationen einschränkt

Bedeutung des Problems

SE-Aufgaben haben folgende Merkmale, die traditionelle Bewertungsmethoden ungeeignet machen:

Multidimensionalität: Umfasst mehrere Bereiche wie Requirements Engineering, Release Engineering und Projektmanagement
Iterativität: In Debugging-Sitzungen muss das Modell beispielsweise Lösungen mehrfach basierend auf Benutzerfeedback optimieren
Kontextabhängigkeit: Echte SE-Arbeitsabläufe erfordern umfangreiche Informationen auf Repositoriumsebene

Einschränkungen bestehender Methoden

Statische Benchmarks: BigCodeBench, SWE-bench und andere verlassen sich auf vordefinierte Datensätze und mangeln an Adaptivität
Bestehende Arena-Plattformen: Chatbot Arena, WebDev Arena und andere unterstützen keine mehrrundigen Interaktionen und haben begrenzte Bewertungsmetriken
Unzureichende Domänenspezifität: Allgemeine Bewertungsplattformen können die einzigartigen Anforderungen von SE-Aufgaben nicht erfassen

Kernbeiträge

Erste SE-spezifische interaktive Bewertungsplattform: SWE-Arena ist die erste großflächige Crowdsourcing-Bewertungsplattform, die speziell für SE-Aufgaben konzipiert wurde
Innovative Bewertungsmetriken: Führt zwei neuartige Bewertungsmetriken ein – die Modellkonsistenz-Punktzahl (MCS) und den Gesprächseffizienz-Index (CEI)
RepoChat-Funktion: Injiziert automatisch Kontext auf Repositoriumsebene, um die Bewertung näher an realen Entwicklungsszenarien zu bringen
Multidimensionales Bewertungssystem: Integriert traditionelle Metriken (Elo, Gewinnquote) und fortgeschrittene Metriken (Eigenvektorzentralität, PageRank usw.)
Open-Source-Design mit Transparenz: Bietet ein vollständig transparentes Open-Source-Leaderboard und Bewertungsmethoden

Methodische Details

Aufgabendefinition

SWE-Arena zielt darauf ab, Grundmodelle in SE-Aufgaben durch paarweise Vergleiche menschlicher Präferenzen zu bewerten. Die Eingaben umfassen benutzergesteuerte SE-bezogene Anfragen und optionale Repository-URLs, während die Ausgaben Vergleichsergebnisse von zwei anonymisierten Modellreaktionen sind.

Plattformarchitektur-Design

1. RepoChat-Funktion

RepoChat ist die Kernfunktion der Innovation in SWE-Arena:

Automatische Kontextextraktion: Extrahiert automatisch Repositoriumbeschreibungen, Programmiersprachen, Issue-Diskussionen, Commit-Unterschiede und andere Metadaten von GitHub/GitLab und ähnlichen Plattformen
Intelligente Kontexteinspeisung: Kombiniert extrahierte Kontexte mit Benutzeranfragen, um umfassende Prompts zu bilden
Optionale Nutzung: Benutzer können wählen, ob sie eine Repository-URL bereitstellen möchten; die Plattform ist abwärtskompatibel

2. Mehrrundiges Gesprächssystem

Iterative Interaktion: Unterstützt mehrrundige Gespräche zwischen Benutzern und Modellen zur Bewertung der langfristigen Kontextverarbeitungsfähigkeit
Dynamische Abstimmung: Benutzer können jederzeit abstimmen und Abstimmungen neu bewerten
Kontextverwaltung: Verwendet FIFO-Strategie für Fälle, die das Kontextfenster überschreiten

3. Qualitätssicherungsmechanismen

SE-Relevanz-Filterung: Nutzt GPT-5-nano zur automatischen Filterung nicht-SE-bezogener Prompts
Anonymisierte Bewertung: Modellidentitäten werden während der gesamten Sitzung verborgen
Antwortzeitbegrenzung: Maximale Antwortzeit pro Modell beträgt 1 Minute

Technische Innovationen

1. Modellkonsistenz-Punktzahl (MCS)

MCS = (D/N) × 100%

wobei D die Anzahl der Unentschieden beim Self-Play-Matching darstellt und N die Gesamtzahl der Self-Play-Spiele ist. Diese Metrik quantifiziert die Konsistenz von Modellausgaben durch Self-Play-Matching.

2. Gesprächseffizienz-Index (CEI)

CEI = Σ(si/ni) / Σ(1/ni)

wobei:

ni: Anzahl der Chat-Runden in einem einzelnen Gespräch
si: Ergebnis-Punktzahl der Benutzerstimmabgabe
Punktzahlregeln: Sieg=1, Unentschieden (beide funktionieren gut)=0,3, Unentschieden (beide funktionieren nicht)=-0,3, Niederlage=-1

Diese Metrik berücksichtigt sowohl die Ergebnisqualität als auch die Anzahl der erforderlichen Interaktionsrunden.

3. Multidimensionales Bewertungsmetrik-System

Neben traditionellen Elo-Bewertungen und Gewinnquoten integriert es:

Eigenvektorzentralität: Misst globale Dominanz
PageRank-Punktzahl: Bewertet die Bedeutung eines Modells im Vergleichsnetzwerk
Newman-Modularitätspunktzahl: Offenbart domänenspezifische Fähigkeiten

Experimentelle Einrichtung

Plattformimplementierung

Bereitstellungsplattform: Hugging Face Spaces
Zugangsadresse: https://huggingface.co/spaces/SE-Arena/Software-Engineering-Arena
Open-Source-Merkmale: Vollständig Open-Source, unterstützt Gemeinschaftsbeiträge

Benutzeroberflächen-Design

Erste Interaktionsoberfläche:
- Benutzeranmeldung und Prompt-Eingabe
- Optionale Repository-URL-Eingabe
- Zufälliger Modell-Paarungsmechanismus
Mehrrundige Gesprächsoberfläche:
- Unterstützung für fortgesetzte Gespräche
- Echtzeit-Abstimmung und Neubewertungsfunktion
- Anonymisierte Modelldarstellung

Datenerfassungsstrategie

Crowdsourcing-Bewertung: Erfasst Präferenzdaten durch Benutzerstimmabgaben
Echtzeit-Aktualisierung: Leaderboard wird unmittelbar nach Stimmabgabe aktualisiert
Datenschutz: Anonymisierte Datenerfassung, Benutzer müssen Nutzungsbedingungen akzeptieren

Experimentelle Ergebnisse

Plattformfunktionsverifizierung

Das Papier präsentiert hauptsächlich das Design und die Funktionsimplementierung der SWE-Arena-Plattform statt traditioneller experimenteller Vergleichsergebnisse. Wichtige Verifizierungen umfassen:

Mehrrundige Gesprächsunterstützung: Erfolgreiche Implementierung iterativer Interaktionsbewertung
RepoChat-Funktion: Kann Repositoriumkontext automatisch extrahieren und einspeisen
Echtzeit-Leaderboard: Echtzeit-Berechnung und Anzeige multidimensionaler Metriken
Qualitätskontrolle: Effektive Filterung nicht-SE-bezogener Anfragen

Gültigkeit der Bewertungsmetriken

MCS-Metrik: Quantifiziert Modellkonsistenz effektiv durch Self-Play
CEI-Metrik: Balanciert erfolgreich Ergebnisqualität und Effizienzüberlegungen
Multidimensionale Metriken: Bieten reichhaltigere Bewertungsperspektiven als einzelne Elo-Bewertungen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

SWE-Arena füllt erfolgreich die Lücke bei interaktiver Modellbewertung im SE-Bereich
Die RepoChat-Funktion verbessert effektiv die Authentizität und Praktikabilität der Bewertung
Die neu vorgeschlagenen MCS- und CEI-Metriken bieten neue Perspektiven auf Modellbewertung
Das multidimensionale Bewertungssystem bietet umfassenderes Modellverständnis als einzelne Metriken

Einschränkungen

Abhängigkeit von Benutzerbeteiligung: Die Plattformeffektivität hängt von einer aktiven Benutzergemeinschaft ab
Subjektivitätsverzerrung: Menschliche Präferenzbewertungen haben inhärente Subjektivität
Begrenzte Modellabdeckung: Derzeit unterstützte Modelltypen sind relativ begrenzt
Langfristige Wartungsanforderungen: Erfordert kontinuierliche technische Wartung und Gemeinschaftsunterstützung

Zukünftige Richtungen

Das Papier identifiziert vier Entwicklungsrichtungen:

Analyse echter SE-Arbeitslasten: Analysiert Muster eingereichte Anfragen, entwickelt spezialisierte Sub-Leaderboards
Verbesserte Gemeinschaftsbeteiligung: Fördert breitere Beiträge der Forschungs- und Entwicklungsgemeinschaft
Erweiterte FM-Abdeckung: Unterstützt domänenspezifische Modelle und multimodale Grundmodelle
Fortgeschrittene Kontextkompression: Integriert LongRope-, SelfExtend- und ähnliche Techniken zur Verarbeitung langer Interaktionshistorien

Tiefgreifende Bewertung

Stärken

Hohe Innovativität: Erste SE-spezifische interaktive Bewertungsplattform, füllt wichtige Lücke
Technologischer Fortschritt: RepoChat-Funktion und neue Bewertungsmetriken zeigen deutliche Innovativität
Hoher praktischer Wert: Dient direkt den praktischen Anforderungen der SE-Gemeinschaft
Vernünftiges Design: Mehrrundige Interaktionen, anonymisierte Bewertung und andere Designmerkmale folgen Best Practices
Open-Source-Transparenz: Vollständig Open-Source-Design fördert Gemeinschaftsentwicklung und akademische Forschung

Mängel

Mangelnde großflächige Validierung: Papier bietet unzureichende Benutzungsdaten und Effektivitätsvalidierung
Unzureichende Metrik-Validierung: Neu vorgeschlagene MCS- und CEI-Metriken mangelt es an Validierung der Korrelation mit menschlichen Urteilen
Unzureichende Skalierbarkeitsüberlegungen: Technische Herausforderungen bei großflächiger Benutzerkoncurrency und Langzeitbetrieb werden weniger diskutiert
Unzureichende Bias-Kontrollmechanismen: Kontrollmechanismen für potenzielle Benutzer- und Modellverzerrungen sind nicht ausreichend detailliert

Auswirkungen

Akademischer Beitrag: Bietet neue Richtungen und Werkzeuge für Modellbewertungsforschung im SE-Bereich
Praktischer Wert: Kann direkt Anforderungen der Industrie bei Modellauswahl und -bewertung erfüllen
Gemeinschaftsaufbau: Hat Potenzial, eine wichtige Gemeinschaftsplattform im SE-AI-Schnittstellenbereich zu werden
Methodologische Inspiration: Bewertungsmethoden und Metrik-Design können ähnliche Forschung in anderen Bereichen inspirieren

Anwendungsszenarien

Modellentwickler: Bewertung und Verbesserung SE-bezogener Grundmodelle
Softwareentwickler: Auswahl der besten Modelle für spezifische SE-Aufgaben
Forscher: Empirische Forschung im SE-AI-Schnittstellenbereich
Werkzeugentwickler: Integration von Bewertungsfähigkeiten in SE-Toolketten

Referenzen

Das Papier zitiert 18 verwandte Literaturquellen, die folgende Bereiche abdecken:

Theoretische Grundlagen von Elo-Bewertungssystemen und Bradley-Terry-Modellen
Forschung zu menschlichen Präferenzen und verstärktem Lernen
Bestehende Codegenerations- und SE-Benchmarks
Netzwerkanalyse und Ranking-Algorithmen
Kontextfenster-Erweiterungstechniken

Gesamtbewertung: SWE-Arena stellt einen wichtigen Fortschritt in der Modellbewertung im SE-Bereich dar. Durch innovatives Plattform-Design und Bewertungsmethoden bietet es eine wertvolle Lösung zur Behebung der Einschränkungen bestehender Bewertungsrahmen. Obwohl weitere Beweise für großflächige Validierung und langfristige Nachhaltigkeit erforderlich sind, machen seine technologische Innovativität und praktischer Wert es zu einem vielversprechenden Kandidaten, um ein wichtiges Werkzeug in diesem Bereich zu werden.