2025-11-19T03:28:13.831095

SWE-Arena: An Interactive Platform for Evaluating Foundation Models in Software Engineering

Zhao
Foundation models (FMs), particularly large language models (LLMs), have shown significant promise in various software engineering (SE) tasks, including code generation, debugging, and requirement refinement. Despite these advances, existing evaluation frameworks are insufficient for assessing model performance in iterative, context-rich workflows characteristic of SE activities. To address this limitation, we introduce \emph{SWE-Arena}, an interactive platform designed to evaluate FMs in SE tasks. SWE-Arena provides a transparent, open-source leaderboard, supports multi-round conversational workflows, and enables end-to-end model comparisons. The platform introduces novel metrics, including \emph{model consistency score} that measures the consistency of model outputs through self-play matches, and \emph{conversation efficiency index} that evaluates model performance while accounting for the number of interaction rounds required to reach conclusions. Moreover, SWE-Arena incorporates a new feature called \emph{RepoChat}, which automatically injects repository-related context (e.g., issues, commits, pull requests) into the conversation, further aligning evaluations with real-world development processes. This paper outlines the design and capabilities of SWE-Arena, emphasizing its potential to advance the evaluation and practical application of FMs in software engineering.
academic

SWE-Arena: Eine interaktive Plattform zur Bewertung von Grundmodellen in der Softwareentwicklung

Grundlegende Informationen

  • Papier-ID: 2502.01860
  • Titel: SWE-Arena: An Interactive Platform for Evaluating Foundation Models in Software Engineering
  • Autor: Zhimin Zhao (Queen's University)
  • Klassifizierung: cs.SE cs.LG
  • Veröffentlichungsdatum: arXiv-Preprint (neueste Version v5 vom 10. Oktober 2025)
  • Papierlink: https://arxiv.org/abs/2502.01860v5

Zusammenfassung

Grundmodelle (FMs), insbesondere große Sprachmodelle (LLMs), zeigen enormes Potenzial in verschiedenen Aufgaben der Softwareentwicklung (SE), einschließlich Codegenerierung, Debugging und Anforderungsverfeinerung. Trotz dieser Fortschritte sind bestehende Bewertungsrahmen unzureichend, um die Leistung von Modellen in iterativen, kontextreichen Arbeitsabläufen zu bewerten, die für SE-Aktivitäten charakteristisch sind. Um diese Einschränkung zu beheben, wird in diesem Papier SWE-Arena vorgestellt – eine interaktive Plattform, die speziell für die Bewertung von FMs in SE-Aufgaben konzipiert wurde. SWE-Arena bietet ein transparentes Open-Source-Leaderboard, unterstützt mehrrundige Gesprächsabläufe und ermöglicht End-to-End-Modellvergleiche. Die Plattform führt neuartige Bewertungsmetriken ein, darunter die Modellkonsistenz-Punktzahl, die die Konsistenz von Modellausgaben durch Self-Play-Matching misst, und den Gesprächseffizienz-Index, der die Modellleistung unter Berücksichtigung der Anzahl der erforderlichen Interaktionsrunden bewertet. Darüber hinaus integriert SWE-Arena eine neue Funktion namens RepoChat, die automatisch repositoriumbezogene Kontexte (wie Issues, Commits, Pull Requests) in Gespräche einfügt und die Bewertung damit stärker an realen Entwicklungsprozessen ausrichtet.

Forschungshintergrund und Motivation

Kernprobleme

Bestehende Bewertungsrahmen für Grundmodelle weisen im Bereich der Softwareentwicklung folgende kritische Probleme auf:

  1. Mangelnde Unterstützung für Iterativität: Traditionelle Bewertungsmethoden können die mehrrundigen Interaktionsanforderungen, die SE-Aufgaben eigen sind, nicht bewältigen
  2. Fehlender Kontext: Bestehende Rahmen können Informationen auf Repositoriumsebene aus realen Entwicklungsszenarien nicht effektiv integrieren
  3. Eindimensionale Bewertung: Plattformen wie Chatbot Arena verlassen sich nur auf Elo-Bewertungen und durchschnittliche Gewinnquoten, was zu einer zu engen Bewertungsperspektive führt
  4. Unzureichende Transparenz: Viele bestehende Plattformen sind nicht Open-Source, was gemeinschaftsgesteuerte Innovationen einschränkt

Bedeutung des Problems

SE-Aufgaben haben folgende Merkmale, die traditionelle Bewertungsmethoden ungeeignet machen:

  • Multidimensionalität: Umfasst mehrere Bereiche wie Requirements Engineering, Release Engineering und Projektmanagement
  • Iterativität: In Debugging-Sitzungen muss das Modell beispielsweise Lösungen mehrfach basierend auf Benutzerfeedback optimieren
  • Kontextabhängigkeit: Echte SE-Arbeitsabläufe erfordern umfangreiche Informationen auf Repositoriumsebene

Einschränkungen bestehender Methoden

  1. Statische Benchmarks: BigCodeBench, SWE-bench und andere verlassen sich auf vordefinierte Datensätze und mangeln an Adaptivität
  2. Bestehende Arena-Plattformen: Chatbot Arena, WebDev Arena und andere unterstützen keine mehrrundigen Interaktionen und haben begrenzte Bewertungsmetriken
  3. Unzureichende Domänenspezifität: Allgemeine Bewertungsplattformen können die einzigartigen Anforderungen von SE-Aufgaben nicht erfassen

Kernbeiträge

  1. Erste SE-spezifische interaktive Bewertungsplattform: SWE-Arena ist die erste großflächige Crowdsourcing-Bewertungsplattform, die speziell für SE-Aufgaben konzipiert wurde
  2. Innovative Bewertungsmetriken: Führt zwei neuartige Bewertungsmetriken ein – die Modellkonsistenz-Punktzahl (MCS) und den Gesprächseffizienz-Index (CEI)
  3. RepoChat-Funktion: Injiziert automatisch Kontext auf Repositoriumsebene, um die Bewertung näher an realen Entwicklungsszenarien zu bringen
  4. Multidimensionales Bewertungssystem: Integriert traditionelle Metriken (Elo, Gewinnquote) und fortgeschrittene Metriken (Eigenvektorzentralität, PageRank usw.)
  5. Open-Source-Design mit Transparenz: Bietet ein vollständig transparentes Open-Source-Leaderboard und Bewertungsmethoden

Methodische Details

Aufgabendefinition

SWE-Arena zielt darauf ab, Grundmodelle in SE-Aufgaben durch paarweise Vergleiche menschlicher Präferenzen zu bewerten. Die Eingaben umfassen benutzergesteuerte SE-bezogene Anfragen und optionale Repository-URLs, während die Ausgaben Vergleichsergebnisse von zwei anonymisierten Modellreaktionen sind.

Plattformarchitektur-Design

1. RepoChat-Funktion

RepoChat ist die Kernfunktion der Innovation in SWE-Arena:

  • Automatische Kontextextraktion: Extrahiert automatisch Repositoriumbeschreibungen, Programmiersprachen, Issue-Diskussionen, Commit-Unterschiede und andere Metadaten von GitHub/GitLab und ähnlichen Plattformen
  • Intelligente Kontexteinspeisung: Kombiniert extrahierte Kontexte mit Benutzeranfragen, um umfassende Prompts zu bilden
  • Optionale Nutzung: Benutzer können wählen, ob sie eine Repository-URL bereitstellen möchten; die Plattform ist abwärtskompatibel

2. Mehrrundiges Gesprächssystem

  • Iterative Interaktion: Unterstützt mehrrundige Gespräche zwischen Benutzern und Modellen zur Bewertung der langfristigen Kontextverarbeitungsfähigkeit
  • Dynamische Abstimmung: Benutzer können jederzeit abstimmen und Abstimmungen neu bewerten
  • Kontextverwaltung: Verwendet FIFO-Strategie für Fälle, die das Kontextfenster überschreiten

3. Qualitätssicherungsmechanismen

  • SE-Relevanz-Filterung: Nutzt GPT-5-nano zur automatischen Filterung nicht-SE-bezogener Prompts
  • Anonymisierte Bewertung: Modellidentitäten werden während der gesamten Sitzung verborgen
  • Antwortzeitbegrenzung: Maximale Antwortzeit pro Modell beträgt 1 Minute

Technische Innovationen

1. Modellkonsistenz-Punktzahl (MCS)

MCS = (D/N) × 100%

wobei D die Anzahl der Unentschieden beim Self-Play-Matching darstellt und N die Gesamtzahl der Self-Play-Spiele ist. Diese Metrik quantifiziert die Konsistenz von Modellausgaben durch Self-Play-Matching.

2. Gesprächseffizienz-Index (CEI)

CEI = Σ(si/ni) / Σ(1/ni)

wobei:

  • ni: Anzahl der Chat-Runden in einem einzelnen Gespräch
  • si: Ergebnis-Punktzahl der Benutzerstimmabgabe
  • Punktzahlregeln: Sieg=1, Unentschieden (beide funktionieren gut)=0,3, Unentschieden (beide funktionieren nicht)=-0,3, Niederlage=-1

Diese Metrik berücksichtigt sowohl die Ergebnisqualität als auch die Anzahl der erforderlichen Interaktionsrunden.

3. Multidimensionales Bewertungsmetrik-System

Neben traditionellen Elo-Bewertungen und Gewinnquoten integriert es:

  • Eigenvektorzentralität: Misst globale Dominanz
  • PageRank-Punktzahl: Bewertet die Bedeutung eines Modells im Vergleichsnetzwerk
  • Newman-Modularitätspunktzahl: Offenbart domänenspezifische Fähigkeiten

Experimentelle Einrichtung

Plattformimplementierung

Benutzeroberflächen-Design

  1. Erste Interaktionsoberfläche:
    • Benutzeranmeldung und Prompt-Eingabe
    • Optionale Repository-URL-Eingabe
    • Zufälliger Modell-Paarungsmechanismus
  2. Mehrrundige Gesprächsoberfläche:
    • Unterstützung für fortgesetzte Gespräche
    • Echtzeit-Abstimmung und Neubewertungsfunktion
    • Anonymisierte Modelldarstellung

Datenerfassungsstrategie

  • Crowdsourcing-Bewertung: Erfasst Präferenzdaten durch Benutzerstimmabgaben
  • Echtzeit-Aktualisierung: Leaderboard wird unmittelbar nach Stimmabgabe aktualisiert
  • Datenschutz: Anonymisierte Datenerfassung, Benutzer müssen Nutzungsbedingungen akzeptieren

Experimentelle Ergebnisse

Plattformfunktionsverifizierung

Das Papier präsentiert hauptsächlich das Design und die Funktionsimplementierung der SWE-Arena-Plattform statt traditioneller experimenteller Vergleichsergebnisse. Wichtige Verifizierungen umfassen:

  1. Mehrrundige Gesprächsunterstützung: Erfolgreiche Implementierung iterativer Interaktionsbewertung
  2. RepoChat-Funktion: Kann Repositoriumkontext automatisch extrahieren und einspeisen
  3. Echtzeit-Leaderboard: Echtzeit-Berechnung und Anzeige multidimensionaler Metriken
  4. Qualitätskontrolle: Effektive Filterung nicht-SE-bezogener Anfragen

Gültigkeit der Bewertungsmetriken

  • MCS-Metrik: Quantifiziert Modellkonsistenz effektiv durch Self-Play
  • CEI-Metrik: Balanciert erfolgreich Ergebnisqualität und Effizienzüberlegungen
  • Multidimensionale Metriken: Bieten reichhaltigere Bewertungsperspektiven als einzelne Elo-Bewertungen

Verwandte Arbeiten

Statische Benchmarks

  • BigCodeBench: Codegenerations-Benchmark
  • DevOps-Eval: DevOps-bezogene Bewertung
  • EvalPlus: Code-Bewertungs-Verbesserungsrahmen
  • SWE-bench: GitHub-Issues-Lösungs-Benchmark

Paarweise Vergleichsplattformen

  • Chatbot Arena: Allgemeine Chatbot-Bewertungsplattform
  • WebDev Arena: Web-Entwicklungs-spezifische Bewertung
  • Copilot Arena: Code-Assistenz-Bewertungsplattform

Technische Differenzierung

Vorteile von SWE-Arena gegenüber bestehenden Arbeiten:

  1. Erste SE-spezifische Plattform, die mehrrundige Interaktionen unterstützt
  2. Integration von Repositoriumkontext durch RepoChat-Funktion
  3. Umfassenderes multidimensionales Bewertungsmetrik-System
  4. Vollständig transparentes Open-Source-Design

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. SWE-Arena füllt erfolgreich die Lücke bei interaktiver Modellbewertung im SE-Bereich
  2. Die RepoChat-Funktion verbessert effektiv die Authentizität und Praktikabilität der Bewertung
  3. Die neu vorgeschlagenen MCS- und CEI-Metriken bieten neue Perspektiven auf Modellbewertung
  4. Das multidimensionale Bewertungssystem bietet umfassenderes Modellverständnis als einzelne Metriken

Einschränkungen

  1. Abhängigkeit von Benutzerbeteiligung: Die Plattformeffektivität hängt von einer aktiven Benutzergemeinschaft ab
  2. Subjektivitätsverzerrung: Menschliche Präferenzbewertungen haben inhärente Subjektivität
  3. Begrenzte Modellabdeckung: Derzeit unterstützte Modelltypen sind relativ begrenzt
  4. Langfristige Wartungsanforderungen: Erfordert kontinuierliche technische Wartung und Gemeinschaftsunterstützung

Zukünftige Richtungen

Das Papier identifiziert vier Entwicklungsrichtungen:

  1. Analyse echter SE-Arbeitslasten: Analysiert Muster eingereichte Anfragen, entwickelt spezialisierte Sub-Leaderboards
  2. Verbesserte Gemeinschaftsbeteiligung: Fördert breitere Beiträge der Forschungs- und Entwicklungsgemeinschaft
  3. Erweiterte FM-Abdeckung: Unterstützt domänenspezifische Modelle und multimodale Grundmodelle
  4. Fortgeschrittene Kontextkompression: Integriert LongRope-, SelfExtend- und ähnliche Techniken zur Verarbeitung langer Interaktionshistorien

Tiefgreifende Bewertung

Stärken

  1. Hohe Innovativität: Erste SE-spezifische interaktive Bewertungsplattform, füllt wichtige Lücke
  2. Technologischer Fortschritt: RepoChat-Funktion und neue Bewertungsmetriken zeigen deutliche Innovativität
  3. Hoher praktischer Wert: Dient direkt den praktischen Anforderungen der SE-Gemeinschaft
  4. Vernünftiges Design: Mehrrundige Interaktionen, anonymisierte Bewertung und andere Designmerkmale folgen Best Practices
  5. Open-Source-Transparenz: Vollständig Open-Source-Design fördert Gemeinschaftsentwicklung und akademische Forschung

Mängel

  1. Mangelnde großflächige Validierung: Papier bietet unzureichende Benutzungsdaten und Effektivitätsvalidierung
  2. Unzureichende Metrik-Validierung: Neu vorgeschlagene MCS- und CEI-Metriken mangelt es an Validierung der Korrelation mit menschlichen Urteilen
  3. Unzureichende Skalierbarkeitsüberlegungen: Technische Herausforderungen bei großflächiger Benutzerkoncurrency und Langzeitbetrieb werden weniger diskutiert
  4. Unzureichende Bias-Kontrollmechanismen: Kontrollmechanismen für potenzielle Benutzer- und Modellverzerrungen sind nicht ausreichend detailliert

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Richtungen und Werkzeuge für Modellbewertungsforschung im SE-Bereich
  2. Praktischer Wert: Kann direkt Anforderungen der Industrie bei Modellauswahl und -bewertung erfüllen
  3. Gemeinschaftsaufbau: Hat Potenzial, eine wichtige Gemeinschaftsplattform im SE-AI-Schnittstellenbereich zu werden
  4. Methodologische Inspiration: Bewertungsmethoden und Metrik-Design können ähnliche Forschung in anderen Bereichen inspirieren

Anwendungsszenarien

  1. Modellentwickler: Bewertung und Verbesserung SE-bezogener Grundmodelle
  2. Softwareentwickler: Auswahl der besten Modelle für spezifische SE-Aufgaben
  3. Forscher: Empirische Forschung im SE-AI-Schnittstellenbereich
  4. Werkzeugentwickler: Integration von Bewertungsfähigkeiten in SE-Toolketten

Referenzen

Das Papier zitiert 18 verwandte Literaturquellen, die folgende Bereiche abdecken:

  • Theoretische Grundlagen von Elo-Bewertungssystemen und Bradley-Terry-Modellen
  • Forschung zu menschlichen Präferenzen und verstärktem Lernen
  • Bestehende Codegenerations- und SE-Benchmarks
  • Netzwerkanalyse und Ranking-Algorithmen
  • Kontextfenster-Erweiterungstechniken

Gesamtbewertung: SWE-Arena stellt einen wichtigen Fortschritt in der Modellbewertung im SE-Bereich dar. Durch innovatives Plattform-Design und Bewertungsmethoden bietet es eine wertvolle Lösung zur Behebung der Einschränkungen bestehender Bewertungsrahmen. Obwohl weitere Beweise für großflächige Validierung und langfristige Nachhaltigkeit erforderlich sind, machen seine technologische Innovativität und praktischer Wert es zu einem vielversprechenden Kandidaten, um ein wichtiges Werkzeug in diesem Bereich zu werden.