2025-11-19T03:28:13.831095

SWE-Arena: An Interactive Platform for Evaluating Foundation Models in Software Engineering

Zhao

Foundation models (FMs), particularly large language models (LLMs), have shown significant promise in various software engineering (SE) tasks, including code generation, debugging, and requirement refinement. Despite these advances, existing evaluation frameworks are insufficient for assessing model performance in iterative, context-rich workflows characteristic of SE activities. To address this limitation, we introduce \emph{SWE-Arena}, an interactive platform designed to evaluate FMs in SE tasks. SWE-Arena provides a transparent, open-source leaderboard, supports multi-round conversational workflows, and enables end-to-end model comparisons. The platform introduces novel metrics, including \emph{model consistency score} that measures the consistency of model outputs through self-play matches, and \emph{conversation efficiency index} that evaluates model performance while accounting for the number of interaction rounds required to reach conclusions. Moreover, SWE-Arena incorporates a new feature called \emph{RepoChat}, which automatically injects repository-related context (e.g., issues, commits, pull requests) into the conversation, further aligning evaluations with real-world development processes. This paper outlines the design and capabilities of SWE-Arena, emphasizing its potential to advance the evaluation and practical application of FMs in software engineering.

academic

SWE-Arena: Una Piattaforma Interattiva per la Valutazione dei Modelli Fondamentali nell'Ingegneria del Software

Informazioni Fondamentali

ID Articolo: 2502.01860
Titolo: SWE-Arena: An Interactive Platform for Evaluating Foundation Models in Software Engineering
Autore: Zhimin Zhao (Queen's University)
Classificazione: cs.SE cs.LG
Data di Pubblicazione: Preprint arXiv (versione v5 aggiornata al 10 ottobre 2025)
Link Articolo: https://arxiv.org/abs/2502.01860v5

Riassunto

I modelli fondamentali (FM), in particolare i modelli linguistici di grandi dimensioni (LLM), hanno dimostrato un enorme potenziale in vari compiti di ingegneria del software (SE), inclusa la generazione di codice, il debugging e il perfezionamento dei requisiti. Nonostante questi progressi, i framework di valutazione esistenti sono insufficienti per valutare le prestazioni dei modelli nei flussi di lavoro iterativi e ricchi di contesto caratteristici delle attività SE. Per affrontare questa limitazione, il presente articolo introduce SWE-Arena, una piattaforma interattiva progettata specificamente per la valutazione degli FM nei compiti SE. SWE-Arena fornisce una classifica open source trasparente, supporta flussi di lavoro multi-turno e implementa il confronto end-to-end dei modelli. La piattaforma introduce metriche di valutazione innovative, incluso il punteggio di coerenza del modello che misura la coerenza dell'output del modello attraverso il self-play matching, e l'indice di efficienza conversazionale che valuta le prestazioni del modello considerando il numero di turni di interazione necessari per raggiungere una conclusione. Inoltre, SWE-Arena integra una nuova funzionalità denominata RepoChat, che inietta automaticamente il contesto relativo al repository (come issue, commit, pull request) nella conversazione, allineando ulteriormente la valutazione ai processi di sviluppo del mondo reale.

Contesto di Ricerca e Motivazione

Problemi Fondamentali

I framework di valutazione dei modelli fondamentali esistenti presentano i seguenti problemi critici nel dominio dell'ingegneria del software:

Mancanza di supporto iterativo: I metodi di valutazione tradizionali non riescono a gestire i requisiti di interazione multi-turno caratteristici dei compiti SE
Assenza di contesto: I framework esistenti non possono integrare efficacemente le informazioni di contesto a livello di repository negli scenari di sviluppo reali
Dimensioni di valutazione singolari: Piattaforme come Chatbot Arena si basano solo su punteggi Elo e tassi di vittoria medi, offrendo una prospettiva di valutazione troppo ristretta
Trasparenza insufficiente: Molte piattaforme esistenti non sono open source, limitando l'innovazione guidata dalla comunità

Importanza del Problema

I compiti di ingegneria del software presentano le seguenti caratteristiche, che rendono i metodi di valutazione tradizionali inadatti:

Multidimensionalità: Coprono più domini inclusi l'ingegneria dei requisiti, l'ingegneria del rilascio e la gestione dei progetti
Iteratività: Ad esempio, nelle sessioni di debugging, i modelli devono ottimizzare più volte le soluzioni in base al feedback dell'utente
Dipendenza dal contesto: I flussi di lavoro SE reali richiedono una quantità significativa di informazioni di contesto a livello di repository

Limitazioni dei Metodi Esistenti

Benchmark statici: BigCodeBench, SWE-bench e altri si basano su dataset predefiniti, mancando di adattabilità
Piattaforme Arena esistenti: Chatbot Arena, WebDev Arena e altre non supportano interazioni multi-turno e hanno metriche di valutazione limitate
Specificità di dominio insufficiente: Le piattaforme di valutazione generiche non riescono a catturare i requisiti unici dei compiti SE

Contributi Fondamentali

Prima piattaforma di valutazione interattiva dedicata a SE: SWE-Arena è la prima piattaforma di valutazione crowdsourcing su larga scala progettata specificamente per i compiti di ingegneria del software
Metriche di valutazione innovative: Propone due metriche di valutazione innovative: il punteggio di coerenza del modello (MCS) e l'indice di efficienza conversazionale (CEI)
Funzionalità RepoChat: Inietta automaticamente il contesto a livello di repository, rendendo la valutazione più vicina agli scenari di sviluppo reali
Sistema di valutazione multidimensionale: Integra metriche tradizionali (Elo, tasso di vittoria) e metriche avanzate (centralità del vettore proprio, PageRank, ecc.)
Progettazione trasparente e open source: Fornisce una classifica completamente trasparente e open source con metodologie di valutazione

Spiegazione Dettagliata del Metodo

Definizione del Compito

SWE-Arena mira a valutare le prestazioni dei modelli fondamentali nei compiti di ingegneria del software attraverso confronti accoppiati basati sulle preferenze umane. L'input include query SE correlate dell'utente e un URL del repository opzionale, mentre l'output è il risultato del confronto tra le risposte di due modelli anonimi.

Progettazione dell'Architettura della Piattaforma

1. Funzionalità RepoChat

RepoChat è la funzionalità innovativa centrale di SWE-Arena:

Estrazione automatica del contesto: Estrae automaticamente metadati del repository da piattaforme come GitHub/GitLab, inclusa la descrizione del repository, i linguaggi di programmazione, le discussioni sulle issue, i diff dei commit, ecc.
Iniezione intelligente del contesto: Unisce il contesto estratto con la query dell'utente, formando un prompt completo
Utilizzo opzionale: Gli utenti possono scegliere se fornire un URL del repository, con compatibilità retroattiva della piattaforma

2. Sistema di Dialogo Multi-turno

Interazione iterativa: Supporta il dialogo multi-turno tra utenti e modelli, valutando la capacità di gestione del contesto a lungo termine
Votazione dinamica: Gli utenti possono inviare voti in qualsiasi momento e riconsiderare le loro valutazioni
Gestione del contesto: Utilizza una strategia FIFO per gestire i casi che superano la finestra di contesto

3. Meccanismi di Assicurazione della Qualità

Filtro di pertinenza SE: Utilizza GPT-5-nano per filtrare automaticamente i prompt non correlati a SE
Valutazione anonima: L'identità del modello rimane nascosta durante l'intera sessione
Limite di tempo di risposta: Il tempo massimo di risposta per un singolo modello è di 1 minuto

Punti di Innovazione Tecnica

1. Punteggio di Coerenza del Modello (MCS)

MCS = (D/N) × 100%

Dove D rappresenta il numero di pareggi nel self-play e N rappresenta il numero totale di self-play. Questa metrica quantifica la coerenza dell'output del modello attraverso il matching di self-play.

2. Indice di Efficienza Conversazionale (CEI)

CEI = Σ(si/ni) / Σ(1/ni)

Dove:

ni: numero di turni di chat in una singola conversazione
si: punteggio del risultato del voto dell'utente singolo
Regole di punteggio: vittoria=1, pareggio (entrambi funzionano bene)=0.3, pareggio (nessuno funziona)=-0.3, sconfitta=-1

Questa metrica considera sia la qualità del risultato che il numero di turni di interazione necessari per raggiungere il risultato.

3. Sistema di Metriche di Valutazione Multidimensionale

Oltre ai tradizionali punteggi Elo e tassi di vittoria, integra:

Centralità del vettore proprio: Misura il predominio globale
Punteggio PageRank: Valuta l'importanza del modello nella rete di confronto
Punteggio di modularità di Newman: Rivela le capacità specifiche del dominio

Configurazione Sperimentale

Implementazione della Piattaforma

Piattaforma di distribuzione: Hugging Face Spaces
Indirizzo di accesso: https://huggingface.co/spaces/SE-Arena/Software-Engineering-Arena
Caratteristiche open source: Completamente open source, supporta i contributi della comunità

Progettazione dell'Interfaccia Utente

Interfaccia di interazione del primo turno:
- Accesso utente e input del prompt
- Input opzionale dell'URL del repository
- Meccanismo di accoppiamento casuale dei modelli
Interfaccia di dialogo multi-turno:
- Supporto per dialogo continuo
- Funzionalità di votazione in tempo reale e rivalutazione
- Visualizzazione anonima dei modelli

Strategia di Raccolta Dati

Valutazione crowdsourcing: Raccoglie dati di preferenza attraverso i voti degli utenti
Aggiornamento in tempo reale: La classifica si aggiorna immediatamente dopo l'invio del voto dell'utente
Protezione della privacy: Raccolta dati anonimizzata, gli utenti devono accettare i termini di utilizzo

Risultati Sperimentali

Verifica della Funzionalità della Piattaforma

L'articolo presenta principalmente la progettazione e l'implementazione della piattaforma SWE-Arena, piuttosto che risultati di confronto nel senso tradizionale. Le verifiche chiave includono:

Supporto per dialogo multi-turno: Implementazione riuscita della valutazione di interazione iterativa
Funzionalità RepoChat: Capacità di estrarre e iniettare automaticamente il contesto del repository
Classifica in tempo reale: Calcolo e visualizzazione in tempo reale delle metriche multidimensionali
Controllo della qualità: Filtro efficace delle query non correlate a SE

Validità delle Metriche di Valutazione

Metrica MCS: Quantifica efficacemente la coerenza del modello attraverso il self-play
Metrica CEI: Bilancia con successo la considerazione della qualità dei risultati e dell'efficienza
Metriche multidimensionali: Forniscono una prospettiva di valutazione più ricca rispetto al singolo punteggio Elo

Lavori Correlati

Benchmark Statici

BigCodeBench: Benchmark per la generazione di codice
DevOps-Eval: Valutazione relativa a DevOps
EvalPlus: Framework di valutazione potenziato per il codice
SWE-bench: Benchmark per la risoluzione di problemi GitHub

Piattaforme di Confronto Accoppiato

Chatbot Arena: Piattaforma di valutazione per chatbot generici
WebDev Arena: Valutazione dedicata allo sviluppo web
Copilot Arena: Piattaforma di valutazione per l'assistenza al codice

Differenziazione Tecnica

I vantaggi di SWE-Arena rispetto ai lavori esistenti:

Prima piattaforma dedicata a SE che supporta interazioni multi-turno
Integrazione della funzionalità RepoChat con contesto a livello di repository
Sistema di metriche di valutazione multidimensionale più ricco
Progettazione completamente trasparente e open source

Conclusioni e Discussione

Conclusioni Principali

SWE-Arena colma con successo il vuoto nella valutazione interattiva dei modelli nel dominio SE
La funzionalità RepoChat migliora efficacemente l'autenticità e l'utilità pratica della valutazione
Le metriche MCS e CEI proposte forniscono nuove prospettive per la valutazione dei modelli
Il sistema di valutazione multidimensionale fornisce una comprensione più completa dei modelli rispetto alle metriche singole

Limitazioni

Dipendenza dalla partecipazione degli utenti: L'efficacia della piattaforma dipende da una comunità di utenti attiva
Bias soggettivo: La valutazione delle preferenze umane presenta una soggettività intrinseca
Copertura limitata dei modelli: I tipi di modelli attualmente supportati sono relativamente limitati
Requisiti di manutenzione a lungo termine: Richiede manutenzione tecnica continua e supporto della comunità

Direzioni Future

L'articolo identifica chiaramente quattro direzioni di sviluppo:

Analisi dei carichi di lavoro SE reali: Analizzare i modelli delle richieste inviate dagli utenti e sviluppare classifiche specializzate per sottocategorie
Potenziamento della partecipazione della comunità: Promuovere contributi più ampi dalla comunità di ricerca e sviluppo
Espansione della copertura FM: Supportare modelli specifici del dominio e modelli fondamentali multimodali
Compressione del contesto avanzata: Integrare tecnologie come LongRope e SelfExtend per gestire lunghe cronologie di interazione

Valutazione Approfondita

Punti di Forza

Forte innovatività: Prima piattaforma di valutazione interattiva dedicata a SE, colma un vuoto importante
Tecnologia avanzata: La funzionalità RepoChat e le nuove metriche di valutazione presentano chiaramente innovazione
Alto valore pratico: Serve direttamente alle esigenze reali della comunità SE
Progettazione razionale: Il dialogo multi-turno, la valutazione anonima e altri aspetti della progettazione seguono le migliori pratiche di valutazione
Trasparenza open source: La progettazione completamente open source promuove lo sviluppo della comunità e la ricerca accademica

Insufficienze

Mancanza di validazione su larga scala: L'articolo non fornisce dati sufficienti sull'utilizzo da parte degli utenti e sulla verifica dell'efficacia
Validazione insufficiente delle metriche di valutazione: Le metriche MCS e CEI proposte mancano di validazione della correlazione con il giudizio umano
Considerazione insufficiente della scalabilità: Discussione limitata sulle sfide tecniche della concorrenza di utenti su larga scala e dell'operazione a lungo termine
Meccanismi di controllo del bias: I meccanismi di controllo per i potenziali bias degli utenti e dei modelli sono descritti in modo insufficiente

Impatto

Contributo accademico: Fornisce nuove direzioni e strumenti per la ricerca sulla valutazione dei modelli nel dominio SE
Valore pratico: Può servire direttamente alle esigenze dell'industria nella selezione e valutazione dei modelli
Costruzione della comunità: Ha il potenziale di diventare una piattaforma comunitaria importante nell'intersezione tra SE e AI
Ispirazione metodologica: La progettazione delle metriche e dei metodi di valutazione può ispirare ricerche simili in altri domini

Scenari Applicabili

Sviluppatori di modelli: Valutare e migliorare i modelli fondamentali correlati a SE
Ingegneri del software: Selezionare i modelli migliori per compiti SE specifici
Ricercatori: Condurre ricerca empirica nell'intersezione tra SE e AI
Sviluppatori di strumenti: Integrare capacità di valutazione nelle catene di strumenti SE

Riferimenti Bibliografici

L'articolo cita 18 riferimenti correlati, che coprono:

Fondamenti teorici del sistema di punteggio Elo e del modello Bradley-Terry
Ricerca sull'apprendimento delle preferenze umane e sull'apprendimento per rinforzo
Benchmark e test di generazione di codice e SE esistenti
Analisi di rete e algoritmi di ranking
Tecnologie di estensione della finestra di contesto

Valutazione Complessiva: SWE-Arena rappresenta un progresso importante nella valutazione dei modelli nel dominio SE, fornendo una soluzione preziosa per affrontare le limitazioni dei framework di valutazione esistenti attraverso la progettazione innovativa della piattaforma e i metodi di valutazione. Sebbene sia necessaria ulteriore validazione su larga scala e dimostrazione della sostenibilità a lungo termine, la sua innovazione tecnica e il valore pratico lo rendono potenzialmente uno strumento importante in questo dominio.