2025-11-19T03:28:13.831095

SWE-Arena: An Interactive Platform for Evaluating Foundation Models in Software Engineering

Zhao
Foundation models (FMs), particularly large language models (LLMs), have shown significant promise in various software engineering (SE) tasks, including code generation, debugging, and requirement refinement. Despite these advances, existing evaluation frameworks are insufficient for assessing model performance in iterative, context-rich workflows characteristic of SE activities. To address this limitation, we introduce \emph{SWE-Arena}, an interactive platform designed to evaluate FMs in SE tasks. SWE-Arena provides a transparent, open-source leaderboard, supports multi-round conversational workflows, and enables end-to-end model comparisons. The platform introduces novel metrics, including \emph{model consistency score} that measures the consistency of model outputs through self-play matches, and \emph{conversation efficiency index} that evaluates model performance while accounting for the number of interaction rounds required to reach conclusions. Moreover, SWE-Arena incorporates a new feature called \emph{RepoChat}, which automatically injects repository-related context (e.g., issues, commits, pull requests) into the conversation, further aligning evaluations with real-world development processes. This paper outlines the design and capabilities of SWE-Arena, emphasizing its potential to advance the evaluation and practical application of FMs in software engineering.
academic

SWE-Arena: Una Piattaforma Interattiva per la Valutazione dei Modelli Fondamentali nell'Ingegneria del Software

Informazioni Fondamentali

  • ID Articolo: 2502.01860
  • Titolo: SWE-Arena: An Interactive Platform for Evaluating Foundation Models in Software Engineering
  • Autore: Zhimin Zhao (Queen's University)
  • Classificazione: cs.SE cs.LG
  • Data di Pubblicazione: Preprint arXiv (versione v5 aggiornata al 10 ottobre 2025)
  • Link Articolo: https://arxiv.org/abs/2502.01860v5

Riassunto

I modelli fondamentali (FM), in particolare i modelli linguistici di grandi dimensioni (LLM), hanno dimostrato un enorme potenziale in vari compiti di ingegneria del software (SE), inclusa la generazione di codice, il debugging e il perfezionamento dei requisiti. Nonostante questi progressi, i framework di valutazione esistenti sono insufficienti per valutare le prestazioni dei modelli nei flussi di lavoro iterativi e ricchi di contesto caratteristici delle attività SE. Per affrontare questa limitazione, il presente articolo introduce SWE-Arena, una piattaforma interattiva progettata specificamente per la valutazione degli FM nei compiti SE. SWE-Arena fornisce una classifica open source trasparente, supporta flussi di lavoro multi-turno e implementa il confronto end-to-end dei modelli. La piattaforma introduce metriche di valutazione innovative, incluso il punteggio di coerenza del modello che misura la coerenza dell'output del modello attraverso il self-play matching, e l'indice di efficienza conversazionale che valuta le prestazioni del modello considerando il numero di turni di interazione necessari per raggiungere una conclusione. Inoltre, SWE-Arena integra una nuova funzionalità denominata RepoChat, che inietta automaticamente il contesto relativo al repository (come issue, commit, pull request) nella conversazione, allineando ulteriormente la valutazione ai processi di sviluppo del mondo reale.

Contesto di Ricerca e Motivazione

Problemi Fondamentali

I framework di valutazione dei modelli fondamentali esistenti presentano i seguenti problemi critici nel dominio dell'ingegneria del software:

  1. Mancanza di supporto iterativo: I metodi di valutazione tradizionali non riescono a gestire i requisiti di interazione multi-turno caratteristici dei compiti SE
  2. Assenza di contesto: I framework esistenti non possono integrare efficacemente le informazioni di contesto a livello di repository negli scenari di sviluppo reali
  3. Dimensioni di valutazione singolari: Piattaforme come Chatbot Arena si basano solo su punteggi Elo e tassi di vittoria medi, offrendo una prospettiva di valutazione troppo ristretta
  4. Trasparenza insufficiente: Molte piattaforme esistenti non sono open source, limitando l'innovazione guidata dalla comunità

Importanza del Problema

I compiti di ingegneria del software presentano le seguenti caratteristiche, che rendono i metodi di valutazione tradizionali inadatti:

  • Multidimensionalità: Coprono più domini inclusi l'ingegneria dei requisiti, l'ingegneria del rilascio e la gestione dei progetti
  • Iteratività: Ad esempio, nelle sessioni di debugging, i modelli devono ottimizzare più volte le soluzioni in base al feedback dell'utente
  • Dipendenza dal contesto: I flussi di lavoro SE reali richiedono una quantità significativa di informazioni di contesto a livello di repository

Limitazioni dei Metodi Esistenti

  1. Benchmark statici: BigCodeBench, SWE-bench e altri si basano su dataset predefiniti, mancando di adattabilità
  2. Piattaforme Arena esistenti: Chatbot Arena, WebDev Arena e altre non supportano interazioni multi-turno e hanno metriche di valutazione limitate
  3. Specificità di dominio insufficiente: Le piattaforme di valutazione generiche non riescono a catturare i requisiti unici dei compiti SE

Contributi Fondamentali

  1. Prima piattaforma di valutazione interattiva dedicata a SE: SWE-Arena è la prima piattaforma di valutazione crowdsourcing su larga scala progettata specificamente per i compiti di ingegneria del software
  2. Metriche di valutazione innovative: Propone due metriche di valutazione innovative: il punteggio di coerenza del modello (MCS) e l'indice di efficienza conversazionale (CEI)
  3. Funzionalità RepoChat: Inietta automaticamente il contesto a livello di repository, rendendo la valutazione più vicina agli scenari di sviluppo reali
  4. Sistema di valutazione multidimensionale: Integra metriche tradizionali (Elo, tasso di vittoria) e metriche avanzate (centralità del vettore proprio, PageRank, ecc.)
  5. Progettazione trasparente e open source: Fornisce una classifica completamente trasparente e open source con metodologie di valutazione

Spiegazione Dettagliata del Metodo

Definizione del Compito

SWE-Arena mira a valutare le prestazioni dei modelli fondamentali nei compiti di ingegneria del software attraverso confronti accoppiati basati sulle preferenze umane. L'input include query SE correlate dell'utente e un URL del repository opzionale, mentre l'output è il risultato del confronto tra le risposte di due modelli anonimi.

Progettazione dell'Architettura della Piattaforma

1. Funzionalità RepoChat

RepoChat è la funzionalità innovativa centrale di SWE-Arena:

  • Estrazione automatica del contesto: Estrae automaticamente metadati del repository da piattaforme come GitHub/GitLab, inclusa la descrizione del repository, i linguaggi di programmazione, le discussioni sulle issue, i diff dei commit, ecc.
  • Iniezione intelligente del contesto: Unisce il contesto estratto con la query dell'utente, formando un prompt completo
  • Utilizzo opzionale: Gli utenti possono scegliere se fornire un URL del repository, con compatibilità retroattiva della piattaforma

2. Sistema di Dialogo Multi-turno

  • Interazione iterativa: Supporta il dialogo multi-turno tra utenti e modelli, valutando la capacità di gestione del contesto a lungo termine
  • Votazione dinamica: Gli utenti possono inviare voti in qualsiasi momento e riconsiderare le loro valutazioni
  • Gestione del contesto: Utilizza una strategia FIFO per gestire i casi che superano la finestra di contesto

3. Meccanismi di Assicurazione della Qualità

  • Filtro di pertinenza SE: Utilizza GPT-5-nano per filtrare automaticamente i prompt non correlati a SE
  • Valutazione anonima: L'identità del modello rimane nascosta durante l'intera sessione
  • Limite di tempo di risposta: Il tempo massimo di risposta per un singolo modello è di 1 minuto

Punti di Innovazione Tecnica

1. Punteggio di Coerenza del Modello (MCS)

MCS = (D/N) × 100%

Dove D rappresenta il numero di pareggi nel self-play e N rappresenta il numero totale di self-play. Questa metrica quantifica la coerenza dell'output del modello attraverso il matching di self-play.

2. Indice di Efficienza Conversazionale (CEI)

CEI = Σ(si/ni) / Σ(1/ni)

Dove:

  • ni: numero di turni di chat in una singola conversazione
  • si: punteggio del risultato del voto dell'utente singolo
  • Regole di punteggio: vittoria=1, pareggio (entrambi funzionano bene)=0.3, pareggio (nessuno funziona)=-0.3, sconfitta=-1

Questa metrica considera sia la qualità del risultato che il numero di turni di interazione necessari per raggiungere il risultato.

3. Sistema di Metriche di Valutazione Multidimensionale

Oltre ai tradizionali punteggi Elo e tassi di vittoria, integra:

  • Centralità del vettore proprio: Misura il predominio globale
  • Punteggio PageRank: Valuta l'importanza del modello nella rete di confronto
  • Punteggio di modularità di Newman: Rivela le capacità specifiche del dominio

Configurazione Sperimentale

Implementazione della Piattaforma

Progettazione dell'Interfaccia Utente

  1. Interfaccia di interazione del primo turno:
    • Accesso utente e input del prompt
    • Input opzionale dell'URL del repository
    • Meccanismo di accoppiamento casuale dei modelli
  2. Interfaccia di dialogo multi-turno:
    • Supporto per dialogo continuo
    • Funzionalità di votazione in tempo reale e rivalutazione
    • Visualizzazione anonima dei modelli

Strategia di Raccolta Dati

  • Valutazione crowdsourcing: Raccoglie dati di preferenza attraverso i voti degli utenti
  • Aggiornamento in tempo reale: La classifica si aggiorna immediatamente dopo l'invio del voto dell'utente
  • Protezione della privacy: Raccolta dati anonimizzata, gli utenti devono accettare i termini di utilizzo

Risultati Sperimentali

Verifica della Funzionalità della Piattaforma

L'articolo presenta principalmente la progettazione e l'implementazione della piattaforma SWE-Arena, piuttosto che risultati di confronto nel senso tradizionale. Le verifiche chiave includono:

  1. Supporto per dialogo multi-turno: Implementazione riuscita della valutazione di interazione iterativa
  2. Funzionalità RepoChat: Capacità di estrarre e iniettare automaticamente il contesto del repository
  3. Classifica in tempo reale: Calcolo e visualizzazione in tempo reale delle metriche multidimensionali
  4. Controllo della qualità: Filtro efficace delle query non correlate a SE

Validità delle Metriche di Valutazione

  • Metrica MCS: Quantifica efficacemente la coerenza del modello attraverso il self-play
  • Metrica CEI: Bilancia con successo la considerazione della qualità dei risultati e dell'efficienza
  • Metriche multidimensionali: Forniscono una prospettiva di valutazione più ricca rispetto al singolo punteggio Elo

Lavori Correlati

Benchmark Statici

  • BigCodeBench: Benchmark per la generazione di codice
  • DevOps-Eval: Valutazione relativa a DevOps
  • EvalPlus: Framework di valutazione potenziato per il codice
  • SWE-bench: Benchmark per la risoluzione di problemi GitHub

Piattaforme di Confronto Accoppiato

  • Chatbot Arena: Piattaforma di valutazione per chatbot generici
  • WebDev Arena: Valutazione dedicata allo sviluppo web
  • Copilot Arena: Piattaforma di valutazione per l'assistenza al codice

Differenziazione Tecnica

I vantaggi di SWE-Arena rispetto ai lavori esistenti:

  1. Prima piattaforma dedicata a SE che supporta interazioni multi-turno
  2. Integrazione della funzionalità RepoChat con contesto a livello di repository
  3. Sistema di metriche di valutazione multidimensionale più ricco
  4. Progettazione completamente trasparente e open source

Conclusioni e Discussione

Conclusioni Principali

  1. SWE-Arena colma con successo il vuoto nella valutazione interattiva dei modelli nel dominio SE
  2. La funzionalità RepoChat migliora efficacemente l'autenticità e l'utilità pratica della valutazione
  3. Le metriche MCS e CEI proposte forniscono nuove prospettive per la valutazione dei modelli
  4. Il sistema di valutazione multidimensionale fornisce una comprensione più completa dei modelli rispetto alle metriche singole

Limitazioni

  1. Dipendenza dalla partecipazione degli utenti: L'efficacia della piattaforma dipende da una comunità di utenti attiva
  2. Bias soggettivo: La valutazione delle preferenze umane presenta una soggettività intrinseca
  3. Copertura limitata dei modelli: I tipi di modelli attualmente supportati sono relativamente limitati
  4. Requisiti di manutenzione a lungo termine: Richiede manutenzione tecnica continua e supporto della comunità

Direzioni Future

L'articolo identifica chiaramente quattro direzioni di sviluppo:

  1. Analisi dei carichi di lavoro SE reali: Analizzare i modelli delle richieste inviate dagli utenti e sviluppare classifiche specializzate per sottocategorie
  2. Potenziamento della partecipazione della comunità: Promuovere contributi più ampi dalla comunità di ricerca e sviluppo
  3. Espansione della copertura FM: Supportare modelli specifici del dominio e modelli fondamentali multimodali
  4. Compressione del contesto avanzata: Integrare tecnologie come LongRope e SelfExtend per gestire lunghe cronologie di interazione

Valutazione Approfondita

Punti di Forza

  1. Forte innovatività: Prima piattaforma di valutazione interattiva dedicata a SE, colma un vuoto importante
  2. Tecnologia avanzata: La funzionalità RepoChat e le nuove metriche di valutazione presentano chiaramente innovazione
  3. Alto valore pratico: Serve direttamente alle esigenze reali della comunità SE
  4. Progettazione razionale: Il dialogo multi-turno, la valutazione anonima e altri aspetti della progettazione seguono le migliori pratiche di valutazione
  5. Trasparenza open source: La progettazione completamente open source promuove lo sviluppo della comunità e la ricerca accademica

Insufficienze

  1. Mancanza di validazione su larga scala: L'articolo non fornisce dati sufficienti sull'utilizzo da parte degli utenti e sulla verifica dell'efficacia
  2. Validazione insufficiente delle metriche di valutazione: Le metriche MCS e CEI proposte mancano di validazione della correlazione con il giudizio umano
  3. Considerazione insufficiente della scalabilità: Discussione limitata sulle sfide tecniche della concorrenza di utenti su larga scala e dell'operazione a lungo termine
  4. Meccanismi di controllo del bias: I meccanismi di controllo per i potenziali bias degli utenti e dei modelli sono descritti in modo insufficiente

Impatto

  1. Contributo accademico: Fornisce nuove direzioni e strumenti per la ricerca sulla valutazione dei modelli nel dominio SE
  2. Valore pratico: Può servire direttamente alle esigenze dell'industria nella selezione e valutazione dei modelli
  3. Costruzione della comunità: Ha il potenziale di diventare una piattaforma comunitaria importante nell'intersezione tra SE e AI
  4. Ispirazione metodologica: La progettazione delle metriche e dei metodi di valutazione può ispirare ricerche simili in altri domini

Scenari Applicabili

  1. Sviluppatori di modelli: Valutare e migliorare i modelli fondamentali correlati a SE
  2. Ingegneri del software: Selezionare i modelli migliori per compiti SE specifici
  3. Ricercatori: Condurre ricerca empirica nell'intersezione tra SE e AI
  4. Sviluppatori di strumenti: Integrare capacità di valutazione nelle catene di strumenti SE

Riferimenti Bibliografici

L'articolo cita 18 riferimenti correlati, che coprono:

  • Fondamenti teorici del sistema di punteggio Elo e del modello Bradley-Terry
  • Ricerca sull'apprendimento delle preferenze umane e sull'apprendimento per rinforzo
  • Benchmark e test di generazione di codice e SE esistenti
  • Analisi di rete e algoritmi di ranking
  • Tecnologie di estensione della finestra di contesto

Valutazione Complessiva: SWE-Arena rappresenta un progresso importante nella valutazione dei modelli nel dominio SE, fornendo una soluzione preziosa per affrontare le limitazioni dei framework di valutazione esistenti attraverso la progettazione innovativa della piattaforma e i metodi di valutazione. Sebbene sia necessaria ulteriore validazione su larga scala e dimostrazione della sostenibilità a lungo termine, la sua innovazione tecnica e il valore pratico lo rendono potenzialmente uno strumento importante in questo dominio.