2025-11-19T03:28:13.831095

SWE-Arena: An Interactive Platform for Evaluating Foundation Models in Software Engineering

Zhao

Foundation models (FMs), particularly large language models (LLMs), have shown significant promise in various software engineering (SE) tasks, including code generation, debugging, and requirement refinement. Despite these advances, existing evaluation frameworks are insufficient for assessing model performance in iterative, context-rich workflows characteristic of SE activities. To address this limitation, we introduce \emph{SWE-Arena}, an interactive platform designed to evaluate FMs in SE tasks. SWE-Arena provides a transparent, open-source leaderboard, supports multi-round conversational workflows, and enables end-to-end model comparisons. The platform introduces novel metrics, including \emph{model consistency score} that measures the consistency of model outputs through self-play matches, and \emph{conversation efficiency index} that evaluates model performance while accounting for the number of interaction rounds required to reach conclusions. Moreover, SWE-Arena incorporates a new feature called \emph{RepoChat}, which automatically injects repository-related context (e.g., issues, commits, pull requests) into the conversation, further aligning evaluations with real-world development processes. This paper outlines the design and capabilities of SWE-Arena, emphasizing its potential to advance the evaluation and practical application of FMs in software engineering.

academic

SWE-Arena: Интерактивная платформа для оценки фундаментальных моделей в разработке программного обеспечения

Основная информация

ID статьи: 2502.01860
Название: SWE-Arena: An Interactive Platform for Evaluating Foundation Models in Software Engineering
Автор: Zhimin Zhao (Queen's University)
Классификация: cs.SE cs.LG
Дата публикации: препринт arXiv (последняя версия v5 от 10 октября 2025 г.)
Ссылка на статью: https://arxiv.org/abs/2502.01860v5

Аннотация

Фундаментальные модели (FM), в частности большие языковые модели (LLM), демонстрируют огромный потенциал в различных задачах разработки программного обеспечения (SE), включая генерацию кода, отладку и уточнение требований. Несмотря на эти достижения, существующие платформы оценки недостаточны для оценки производительности моделей в итеративных, контекстно-насыщенных рабочих процессах, характерных для деятельности в области SE. Для решения этого ограничения в статье представляется SWE-Arena — интерактивная платформа, специально разработанная для оценки FM в задачах SE. SWE-Arena предоставляет прозрачный рейтинг с открытым исходным кодом, поддерживает многораундовые диалоговые рабочие процессы и реализует сквозное сравнение моделей. Платформа вводит новые метрики оценки, включая оценку согласованности модели, которая измеряет согласованность выходных данных модели посредством самоигровых матчей, и индекс эффективности диалога, который оценивает производительность модели с учетом количества раундов взаимодействия, необходимых для достижения заключения. Кроме того, SWE-Arena интегрирует новую функцию под названием RepoChat, которая автоматически внедряет контекст репозитория (такой как проблемы, коммиты, запросы на слияние) в диалог, дополнительно согласуя оценку с реальными процессами разработки.

Исследовательский контекст и мотивация

Основные проблемы

Существующие платформы оценки фундаментальных моделей имеют следующие ключевые проблемы в области разработки программного обеспечения:

Отсутствие поддержки итеративности: традиционные методы оценки не могут обрабатывать многораундовые требования взаимодействия, характерные для задач SE
Отсутствие контекста: существующие платформы не могут эффективно интегрировать информацию контекста уровня репозитория из реальных сценариев разработки
Одномерность оценки: такие платформы как Chatbot Arena полагаются только на рейтинги Elo и среднюю процентную долю побед, что обеспечивает слишком узкую перспективу оценки
Недостаточная прозрачность: многие существующие платформы не имеют открытого исходного кода, что ограничивает инновации, управляемые сообществом

Важность проблемы

Задачи разработки программного обеспечения имеют следующие характеристики, которые делают традиционные методы оценки неприменимыми:

Многомерность: охватывает инженерию требований, инженерию выпуска, управление проектами и другие области
Итеративность: например, в сеансах отладки модель должна многократно оптимизировать решение на основе обратной связи пользователя
Зависимость от контекста: реальные рабочие процессы SE требуют значительного объема информации контекста уровня репозитория

Ограничения существующих подходов

Статические тесты производительности: BigCodeBench, SWE-bench и другие полагаются на предопределенные наборы данных и не обладают адаптивностью
Существующие платформы Arena: Chatbot Arena, WebDev Arena и другие не поддерживают многораундовое взаимодействие и имеют ограниченные метрики оценки
Недостаточная специфичность для области: универсальные платформы оценки не могут охватить уникальные требования задач SE

Основные вклады

Первая интерактивная платформа оценки, специализированная на SE: SWE-Arena является первой крупномасштабной платформой краудсорсинговой оценки, специально разработанной для задач разработки программного обеспечения
Инновационные метрики оценки: предложены две новые метрики оценки — оценка согласованности модели (MCS) и индекс эффективности диалога (CEI)
Функция RepoChat: автоматически внедряет контекст уровня репозитория, делая оценку более близкой к реальным сценариям разработки
Многомерная система оценки: интегрирует традиционные метрики (Elo, процентная доля побед) и продвинутые метрики (центральность собственного вектора, PageRank и другие)
Открытый и прозрачный дизайн: предоставляет полностью прозрачный рейтинг с открытым исходным кодом и методы оценки

Подробное описание методов

Определение задачи

SWE-Arena направлена на оценку производительности фундаментальных моделей в задачах разработки программного обеспечения посредством попарного сравнения человеческих предпочтений. Входные данные включают запросы пользователя, связанные с SE, и дополнительный URL репозитория, а выходные данные представляют результаты сравнения ответов двух анонимных моделей.

Архитектура платформы

1. Функция RepoChat

RepoChat является основной инновационной функцией SWE-Arena:

Автоматическое извлечение контекста: автоматически извлекает описание репозитория, языки программирования, обсуждения проблем, различия коммитов и другие метаданные с платформ GitHub/GitLab
Интеллектуальное внедрение контекста: объединяет извлеченный контекст с запросом пользователя для формирования комплексного приглашения
Дополнительное использование: пользователи могут выбрать, предоставлять ли URL репозитория, платформа обладает обратной совместимостью

2. Многораундовая диалоговая система

Итеративное взаимодействие: поддерживает многораундовые диалоги между пользователем и моделью для оценки долгосрочной способности обработки контекста
Динамическое голосование: пользователи могут голосовать в любой момент и переоценивать свои голоса
Управление контекстом: использует стратегию FIFO для обработки случаев, когда контекст превышает размер окна контекста

3. Механизмы обеспечения качества

Фильтрация релевантности SE: использует GPT-5-nano для автоматической фильтрации приглашений, не связанных с SE
Анонимная оценка: идентификация модели скрывается на протяжении всего сеанса
Ограничение времени ответа: максимальное время ответа одной модели составляет 1 минуту

Технические инновации

1. Оценка согласованности модели (MCS)

MCS = (D/N) × 100%

где D представляет количество ничьих в самоигровых матчах, а N представляет общее количество самоигровых матчей. Эта метрика количественно определяет согласованность выходных данных модели посредством самоигровых матчей.

2. Индекс эффективности диалога (CEI)

CEI = Σ(si/ni) / Σ(1/ni)

где:

ni: количество раундов чата в одном диалоге
si: оценка результата одного голоса пользователя
Правила оценки: победа = 1, ничья (оба работают хорошо) = 0,3, ничья (оба не работают) = -0,3, поражение = -1

Эта метрика комплексно рассматривает качество результата и количество раундов взаимодействия, необходимых для достижения результата.

3. Многомерная система метрик оценки

Помимо традиционных рейтингов Elo и процентной доли побед, интегрирует:

Центральность собственного вектора: измеряет глобальное доминирование
Оценка PageRank: оценивает важность модели в сети сравнения
Оценка модульности Newman: раскрывает способности, специфичные для области

Экспериментальная установка

Реализация платформы

Платформа развертывания: Hugging Face Spaces
Адрес доступа: https://huggingface.co/spaces/SE-Arena/Software-Engineering-Arena
Характеристики открытого исходного кода: полностью открытый исходный код, поддерживает вклады сообщества

Дизайн пользовательского интерфейса

Интерфейс первого раунда взаимодействия:
- Вход пользователя и ввод приглашения
- Дополнительный ввод URL репозитория
- Механизм случайного спаривания моделей
Интерфейс многораундового диалога:
- Поддержка непрерывного диалога
- Функции голосования в реальном времени и переоценки
- Анонимное отображение моделей

Стратегия сбора данных

Краудсорсинговая оценка: сбор данных предпочтений посредством голосования пользователей
Обновление в реальном времени: рейтинг обновляется сразу после отправки голоса пользователем
Защита конфиденциальности: анонимизированный сбор данных, пользователи должны согласиться с условиями использования

Результаты экспериментов

Проверка функциональности платформы

Статья в основном демонстрирует дизайн и реализацию функций платформы SWE-Arena, а не традиционные сравнительные результаты экспериментов. Ключевые проверки включают:

Поддержка многораундового диалога: успешная реализация итеративной оценки взаимодействия
Функция RepoChat: способность автоматически извлекать и внедрять контекст репозитория
Рейтинг в реальном времени: вычисление и отображение многомерных метрик в реальном времени
Контроль качества: эффективная фильтрация запросов, не связанных с SE

Валидность метрик оценки

Метрика MCS: эффективно количественно определяет согласованность модели посредством самоигровых матчей
Метрика CEI: успешно балансирует качество результата и соображения эффективности
Многомерные метрики: предоставляют более богатую перспективу оценки по сравнению с единственным рейтингом Elo

Связанные работы

Статические тесты производительности

BigCodeBench: тест производительности генерации кода
DevOps-Eval: оценка, связанная с DevOps
EvalPlus: структура расширения оценки кода
SWE-bench: тест производительности решения проблем GitHub

Платформы попарного сравнения

Chatbot Arena: универсальная платформа оценки чат-ботов
WebDev Arena: оценка, специализированная на веб-разработке
Copilot Arena: платформа оценки помощников по кодированию

Технические различия

Преимущества SWE-Arena по сравнению с существующими работами:

Первая платформа SE, поддерживающая многораундовое взаимодействие
Функция RepoChat, интегрирующая контекст уровня репозитория
Более богатая многомерная система метрик оценки
Полностью открытый и прозрачный дизайн

Выводы и обсуждение

Основные выводы

SWE-Arena успешно заполняет пробел в интерактивной оценке моделей в области SE
Функция RepoChat эффективно повышает реалистичность и практичность оценки
Вновь предложенные метрики MCS и CEI предоставляют новые перспективы для оценки моделей
Многомерная система оценки обеспечивает более полное понимание моделей по сравнению с единственной метрикой

Ограничения

Зависимость от участия пользователей: эффективность платформы зависит от активного сообщества пользователей
Смещение субъективности: оценка человеческих предпочтений имеет присущую субъективность
Ограниченный охват моделей: текущий спектр поддерживаемых типов моделей относительно ограничен
Требования долгосрочного обслуживания: требуется постоянное техническое обслуживание и поддержка сообщества

Будущие направления

Статья четко определяет четыре направления развития:

Анализ реальных рабочих нагрузок SE: анализ моделей запросов, отправляемых пользователями, разработка специализированных подрейтингов
Расширение участия сообщества: содействие более широким вкладам исследовательского и разработческого сообщества
Расширение охвата FM: поддержка моделей, специфичных для области, и многомодальных фундаментальных моделей
Продвинутое сжатие контекста: интеграция технологий LongRope, SelfExtend и других для обработки длинной истории взаимодействия

Глубокая оценка

Преимущества

Высокая инновационность: первая интерактивная платформа оценки, специализированная на SE, заполняет важный пробел
Продвинутые технологии: функция RepoChat и новые метрики оценки обладают явной инновационностью
Высокая практическая ценность: непосредственно служит практическим потребностям сообщества SE
Разумный дизайн: многораундовое взаимодействие, анонимная оценка и другие проектные решения соответствуют лучшим практикам оценки
Открытость и прозрачность: полностью открытый дизайн способствует развитию сообщества и академическим исследованиям

Недостатки

Отсутствие крупномасштабной валидации: статья не предоставляет достаточных данных об использовании пользователями и проверке эффективности
Недостаточная валидация метрик оценки: вновь предложенные метрики MCS и CEI не имеют достаточной валидации корреляции с человеческими суждениями
Недостаточное рассмотрение масштабируемости: недостаточное обсуждение технических проблем параллелизма крупномасштабных пользователей и долгосрочной эксплуатации
Недостаточные механизмы контроля смещения: описание механизмов контроля потенциального смещения пользователей и моделей недостаточно детально

Влияние

Академический вклад: предоставляет новые направления и инструменты для исследований оценки моделей в области SE
Практическая ценность: может непосредственно служить потребностям промышленности в выборе и оценке моделей
Построение сообщества: имеет потенциал стать важной платформой сообщества в области пересечения SE-AI
Методологическое вдохновение: дизайн методов оценки и метрик может вдохновить аналогичные исследования в других областях

Применимые сценарии

Разработчики моделей: оценка и улучшение фундаментальных моделей, связанных с SE
Инженеры программного обеспечения: выбор оптимальных моделей для конкретных задач SE
Исследователи: проведение эмпирических исследований в области пересечения SE-AI
Разработчики инструментов: интеграция возможностей оценки в цепочку инструментов SE

Список литературы

Статья цитирует 18 связанных работ, охватывающих:

Теоретические основы системы рейтинга Elo и модели Bradley-Terry
Исследования обучения человеческим предпочтениям и обучение с подкреплением
Существующие тесты производительности генерации кода и SE
Анализ сетей и алгоритмы ранжирования
Технологии расширения контекстного окна

Общая оценка: SWE-Arena представляет важный прогресс в оценке моделей в области SE, предоставляя ценное решение для решения ограничений существующих платформ оценки посредством инновационного дизайна платформы и методов оценки. Хотя требуется дальнейшее доказательство в крупномасштабной валидации и долгосрочной устойчивости, его техническая инновационность и практическая ценность делают его потенциально важным инструментом в этой области.