Foundation models (FMs), particularly large language models (LLMs), have shown significant promise in various software engineering (SE) tasks, including code generation, debugging, and requirement refinement. Despite these advances, existing evaluation frameworks are insufficient for assessing model performance in iterative, context-rich workflows characteristic of SE activities. To address this limitation, we introduce \emph{SWE-Arena}, an interactive platform designed to evaluate FMs in SE tasks. SWE-Arena provides a transparent, open-source leaderboard, supports multi-round conversational workflows, and enables end-to-end model comparisons. The platform introduces novel metrics, including \emph{model consistency score} that measures the consistency of model outputs through self-play matches, and \emph{conversation efficiency index} that evaluates model performance while accounting for the number of interaction rounds required to reach conclusions. Moreover, SWE-Arena incorporates a new feature called \emph{RepoChat}, which automatically injects repository-related context (e.g., issues, commits, pull requests) into the conversation, further aligning evaluations with real-world development processes. This paper outlines the design and capabilities of SWE-Arena, emphasizing its potential to advance the evaluation and practical application of FMs in software engineering.
academic- 논문 ID: 2502.01860
- 제목: SWE-Arena: An Interactive Platform for Evaluating Foundation Models in Software Engineering
- 저자: Zhimin Zhao (Queen's University)
- 분류: cs.SE cs.LG
- 발표 시간: arXiv 사전인쇄본 (2025년 10월 10일 최신 버전 v5)
- 논문 링크: https://arxiv.org/abs/2502.01860v5
기초 모델(FM), 특히 대규모 언어 모델(LLM)은 코드 생성, 디버깅, 요구사항 정제를 포함한 다양한 소프트웨어 엔지니어링(SE) 작업에서 막대한 잠재력을 보여주고 있습니다. 이러한 진전에도 불구하고, 기존 평가 프레임워크는 SE 활동에 고유한 반복적이고 맥락이 풍부한 워크플로우에서 모델의 성능을 평가하기에 충분하지 않습니다. 이러한 한계를 해결하기 위해 본 논문은 SE 작업에서 FM을 평가하기 위해 특별히 설계된 대화형 플랫폼인 SWE-Arena을 소개합니다. SWE-Arena은 투명한 오픈소스 리더보드를 제공하며, 다중 라운드 대화 워크플로우를 지원하고, 엔드-투-엔드 모델 비교를 구현합니다. 이 플랫폼은 자체 대전 매칭을 통해 모델 출력 일관성을 측정하는 **모델 일관성 점수(MCS)**와 결론에 도달하는 데 필요한 상호작용 라운드 수를 고려하면서 모델 성능을 평가하는 **대화 효율 지수(CEI)**를 포함한 새로운 평가 지표를 도입합니다. 또한 SWE-Arena은 RepoChat이라는 새로운 기능을 통합하여 저장소 관련 맥락(이슈, 커밋, 풀 요청 등)을 자동으로 대화에 주입하여 평가를 실제 개발 프로세스와 더욱 일치시킵니다.
기존 기초 모델 평가 프레임워크는 소프트웨어 엔지니어링 분야에서 다음과 같은 주요 문제를 가지고 있습니다:
- 반복성 지원 부족: 전통적인 평가 방법은 SE 작업에 고유한 다중 라운드 상호작용 요구사항을 처리할 수 없습니다
- 맥락 부재: 기존 프레임워크는 실제 개발 시나리오의 저장소 수준 맥락 정보를 효과적으로 통합할 수 없습니다
- 평가 차원의 단일성: Chatbot Arena와 같은 플랫폼은 Elo 평점과 평균 승률에만 의존하여 평가 관점이 너무 좁습니다
- 투명성 부족: 많은 기존 플랫폼이 오픈소스가 아니어서 커뮤니티 주도 혁신을 제한합니다
소프트웨어 엔지니어링 작업은 다음과 같은 특성을 가지고 있어 전통적인 평가 방법이 부적절합니다:
- 다차원성: 요구사항 엔지니어링, 릴리스 엔지니어링, 프로젝트 관리 등 여러 분야를 포함합니다
- 반복성: 디버깅 세션과 같이 모델이 사용자 피드백에 따라 솔루션을 여러 번 최적화해야 합니다
- 맥락 의존성: 실제 SE 워크플로우는 대량의 저장소 수준 맥락 정보가 필요합니다
- 정적 벤치마크: BigCodeBench, SWE-bench 등은 사전 정의된 데이터셋에 의존하여 적응성이 부족합니다
- 기존 Arena 플랫폼: Chatbot Arena, WebDev Arena 등은 다중 라운드 상호작용을 지원하지 않으며 평가 지표가 제한적입니다
- 도메인 특이성 부족: 범용 평가 플랫폼은 SE 작업의 고유한 요구사항을 포착할 수 없습니다
- 첫 번째 SE 전용 대화형 평가 플랫폼: SWE-Arena은 소프트웨어 엔지니어링 작업을 위해 특별히 설계된 첫 번째 대규모 크라우드소싱 평가 플랫폼입니다
- 혁신적인 평가 지표: 모델 일관성 점수(MCS)와 대화 효율 지수(CEI)라는 두 가지 새로운 평가 지표를 제안합니다
- RepoChat 기능: 저장소 수준 맥락을 자동으로 주입하여 평가를 실제 개발 시나리오에 더 가깝게 만듭니다
- 다차원 평가 체계: 전통적인 지표(Elo, 승률)와 고급 지표(고유벡터 중심성, PageRank 등)를 통합합니다
- 오픈소스 투명 설계: 완전히 투명한 오픈소스 리더보드 및 평가 방법을 제공합니다
SWE-Arena은 인간 선호도의 쌍별 비교를 통해 소프트웨어 엔지니어링 작업에서 기초 모델의 성능을 평가하는 것을 목표로 합니다. 입력은 사용자 SE 관련 쿼리와 선택적 저장소 URL을 포함하며, 출력은 두 개의 익명 모델 응답 비교 결과입니다.
RepoChat은 SWE-Arena의 핵심 혁신 기능입니다:
- 자동 맥락 추출: GitHub/GitLab 등 플랫폼에서 저장소 설명, 프로그래밍 언어, 이슈 토론, 커밋 차이 등의 메타데이터를 자동으로 추출합니다
- 지능형 맥락 주입: 추출된 맥락을 사용자 쿼리와 병합하여 종합 프롬프트를 형성합니다
- 선택적 사용: 사용자는 저장소 URL 제공 여부를 선택할 수 있으며, 플랫폼은 하위 호환성을 갖습니다
- 반복적 상호작용: 사용자와 모델 간의 다중 라운드 대화를 지원하여 장기 맥락 처리 능력을 평가합니다
- 동적 투표: 사용자는 언제든지 투표를 제출할 수 있으며 투표를 재평가하고 수정할 수 있습니다
- 맥락 관리: 맥락 윈도우를 초과하는 경우 FIFO 전략을 사용합니다
- SE 관련성 필터링: GPT-4o-mini를 사용하여 SE와 무관한 프롬프트를 자동으로 필터링합니다
- 익명 평가: 전체 세션 동안 모델 신원을 숨깁니다
- 응답 시간 제한: 개별 모델 응답 시간 상한선은 1분입니다
여기서 D는 자체 대전에서의 무승부 수, N은 자체 대전 총 수입니다. 이 지표는 자체 대전 매칭을 통해 모델 출력의 일관성을 정량화합니다.
여기서:
- ni: 단일 대화의 채팅 라운드 수
- si: 단일 사용자 투표의 결과 점수
- 점수 규칙: 승리=1, 무승부(둘 다 잘 작동)=0.3, 무승부(둘 다 작동하지 않음)=-0.3, 패배=-1
이 지표는 결과 품질과 결과에 도달하는 데 필요한 상호작용 라운드 수를 종합적으로 고려합니다.
전통적인 Elo 평점 및 승률 외에도 다음을 통합합니다:
- 고유벡터 중심성: 전역 우위를 측정합니다
- PageRank 점수: 비교 네트워크에서 모델의 중요성을 평가합니다
- Newman 모듈화 점수: 도메인 특정 능력을 드러냅니다
- 첫 번째 라운드 상호작용 인터페이스:
- 사용자 로그인 및 프롬프트 입력
- 선택적 저장소 URL 입력
- 무작위 모델 페어링 메커니즘
- 다중 라운드 대화 인터페이스:
- 지속적인 대화 지원
- 실시간 투표 및 재평가 기능
- 익명 모델 표시
- 크라우드소싱 평가: 사용자 투표를 통한 선호도 데이터 수집
- 실시간 업데이트: 사용자가 투표를 제출한 후 리더보드가 즉시 업데이트됩니다
- 개인정보 보호: 익명화된 데이터 수집, 사용자는 이용약관에 동의해야 합니다
논문은 주로 SWE-Arena 플랫폼의 설계 및 기능 구현을 보여주며, 전통적인 의미의 실험 결과 비교는 아닙니다. 주요 검증 사항은 다음과 같습니다:
- 다중 라운드 대화 지원: 반복적 상호작용 평가 성공적으로 구현
- RepoChat 기능: 저장소 맥락을 자동으로 추출하고 주입할 수 있습니다
- 실시간 리더보드: 다차원 지표의 실시간 계산 및 표시
- 품질 관리: SE와 무관한 쿼리를 효과적으로 필터링합니다
- MCS 지표: 자체 대전을 통해 모델 일관성을 효과적으로 정량화합니다
- CEI 지표: 결과 품질과 효율성 고려를 성공적으로 균형 있게 조정합니다
- 다차원 지표: 단일 Elo 평점보다 더 풍부한 평가 관점을 제공합니다
- BigCodeBench: 코드 생성 벤치마크
- DevOps-Eval: DevOps 관련 평가
- EvalPlus: 코드 평가 향상 프레임워크
- SWE-bench: GitHub 이슈 해결 벤치마크
- Chatbot Arena: 범용 챗봇 평가 플랫폼
- WebDev Arena: 웹 개발 전용 평가
- Copilot Arena: 코드 보조 평가 플랫폼
SWE-Arena이 기존 연구에 비한 장점:
- 다중 라운드 상호작용을 지원하는 첫 번째 SE 전용 플랫폼
- 저장소 수준 맥락을 통합하는 RepoChat 기능
- 더 풍부한 다차원 평가 지표 체계
- 완전히 오픈소스 투명한 설계
- SWE-Arena은 SE 분야의 대화형 모델 평가 공백을 성공적으로 채웁니다
- RepoChat 기능은 평가의 현실성과 실용성을 효과적으로 향상시킵니다
- 새로 제안된 MCS 및 CEI 지표는 모델 평가에 새로운 관점을 제공합니다
- 다차원 평가 체계는 단일 지표보다 더 포괄적인 모델 이해를 제공합니다
- 사용자 참여도 의존성: 플랫폼 효과는 활동적인 사용자 커뮤니티에 의존합니다
- 주관성 편향: 인간 선호도 평가는 고유한 주관성을 가집니다
- 모델 커버리지 범위: 현재 지원되는 모델 유형이 상대적으로 제한적입니다
- 장기 유지보수 요구사항: 지속적인 기술 유지보수 및 커뮤니티 지원이 필요합니다
논문은 네 가지 발전 방향을 명확히 제시합니다:
- 실제 SE 워크로드 분석: 사용자 제출 요청의 패턴을 분석하고 전문화된 하위 리더보드를 개발합니다
- 커뮤니티 참여 강화: 더 광범위한 연구 개발 커뮤니티 기여를 촉진합니다
- FM 커버리지 확장: 도메인 특정 모델 및 다중 모달 기초 모델을 지원합니다
- 고급 맥락 압축: LongRope, SelfExtend 등의 기술을 통합하여 긴 상호작용 이력을 처리합니다
- 높은 혁신성: 첫 번째 SE 전용 대화형 평가 플랫폼으로 중요한 공백을 채웁니다
- 기술 선진성: RepoChat 기능 및 새로운 평가 지표는 명백한 혁신성을 가집니다
- 높은 실용 가치: SE 커뮤니티의 실제 요구사항을 직접 충족합니다
- 합리적인 설계: 다중 라운드 상호작용, 익명 평가 등의 설계는 평가 모범 사례를 따릅니다
- 오픈소스 투명성: 완전 오픈소스 설계는 커뮤니티 발전 및 학술 연구를 촉진합니다
- 대규모 검증 부족: 논문은 충분한 사용자 사용 데이터 및 효과 검증을 제공하지 않습니다
- 평가 지표 검증 부족: 새로 제안된 MCS 및 CEI 지표는 인간 판단과의 상관성 검증이 부족합니다
- 확장성 고려 부족: 대규모 사용자 동시성 및 장기 운영의 기술적 과제에 대한 논의가 부족합니다
- 편향 제어 메커니즘: 잠재적 사용자 편향 및 모델 편향의 제어 메커니즘 설명이 충분하지 않습니다
- 학술 기여: SE 분야의 모델 평가 연구에 새로운 방향과 도구를 제공합니다
- 실무 가치: 산업계의 모델 선택 및 평가 요구사항을 직접 충족할 수 있습니다
- 커뮤니티 구축: SE-AI 교차 분야의 중요한 커뮤니티 플랫폼이 될 가능성이 있습니다
- 방법론 영감: 평가 방법 및 지표 설계는 다른 분야의 유사 연구에 영감을 줄 수 있습니다
- 모델 개발자: SE 관련 기초 모델 평가 및 개선
- 소프트웨어 엔지니어: 특정 SE 작업에 적합한 최고의 모델 선택
- 연구자: SE-AI 교차 분야의 실증 연구 수행
- 도구 개발자: SE 도구 체인에 평가 능력 통합
논문은 다음을 포함하는 18개의 관련 문헌을 인용합니다:
- Elo 평점 시스템 및 Bradley-Terry 모델의 이론적 기초
- 인간 선호도 학습 및 강화학습 관련 연구
- 기존 코드 생성 및 SE 벤치마크
- 네트워크 분석 및 순위 알고리즘
- 맥락 윈도우 확장 기술
종합 평가: SWE-Arena은 SE 분야의 모델 평가에 있어 중요한 진전을 나타내며, 혁신적인 플랫폼 설계와 평가 방법을 통해 기존 평가 프레임워크의 한계를 해결하기 위한 가치 있는 솔루션을 제공합니다. 대규모 검증 및 장기 지속 가능성 측면에서 추가 증명이 필요하지만, 기술 혁신성과 실용 가치는 이를 해당 분야의 중요한 도구가 될 수 있는 잠재력을 갖게 합니다.