Foundation models (FMs), particularly large language models (LLMs), have shown significant promise in various software engineering (SE) tasks, including code generation, debugging, and requirement refinement. Despite these advances, existing evaluation frameworks are insufficient for assessing model performance in iterative, context-rich workflows characteristic of SE activities. To address this limitation, we introduce \emph{SWE-Arena}, an interactive platform designed to evaluate FMs in SE tasks. SWE-Arena provides a transparent, open-source leaderboard, supports multi-round conversational workflows, and enables end-to-end model comparisons. The platform introduces novel metrics, including \emph{model consistency score} that measures the consistency of model outputs through self-play matches, and \emph{conversation efficiency index} that evaluates model performance while accounting for the number of interaction rounds required to reach conclusions. Moreover, SWE-Arena incorporates a new feature called \emph{RepoChat}, which automatically injects repository-related context (e.g., issues, commits, pull requests) into the conversation, further aligning evaluations with real-world development processes. This paper outlines the design and capabilities of SWE-Arena, emphasizing its potential to advance the evaluation and practical application of FMs in software engineering.
academic- 论文ID: 2502.01860
- 标题: SWE-Arena: An Interactive Platform for Evaluating Foundation Models in Software Engineering
- 作者: Zhimin Zhao (Queen's University)
- 分类: cs.SE cs.LG
- 发表时间: arXiv预印本 (2025年10月10日最新版本v5)
- 论文链接: https://arxiv.org/abs/2502.01860v5
基础模型(FMs),特别是大型语言模型(LLMs),在各种软件工程(SE)任务中表现出巨大潜力,包括代码生成、调试和需求细化。尽管取得了这些进展,现有的评估框架不足以评估模型在SE活动特有的迭代、上下文丰富工作流中的性能。为解决这一局限性,本文引入SWE-Arena,一个专为评估SE任务中FMs而设计的交互式平台。SWE-Arena提供透明的开源排行榜,支持多轮对话工作流,并实现端到端模型比较。该平台引入了新颖的评估指标,包括通过自对弈匹配测量模型输出一致性的模型一致性得分,以及在考虑达成结论所需交互轮数的同时评估模型性能的对话效率指数。此外,SWE-Arena集成了名为RepoChat的新功能,可自动将仓库相关上下文(如issues、commits、pull requests)注入对话中,进一步使评估与真实世界开发流程保持一致。
现有的基础模型评估框架在软件工程领域存在以下关键问题:
- 缺乏迭代性支持:传统评估方法无法处理SE任务特有的多轮交互需求
- 上下文缺失:现有框架不能有效整合真实开发场景中的仓库级上下文信息
- 评估维度单一:如Chatbot Arena仅依赖Elo评分和平均胜率,评估视角过于狭窄
- 透明度不足:许多现有平台不开源,限制了社区驱动的创新
软件工程任务具有以下特点,使得传统评估方法不适用:
- 多维性:涵盖需求工程、发布工程、项目管理等多个领域
- 迭代性:如调试会话中,模型需要根据用户反馈多次优化解决方案
- 上下文依赖性:真实SE工作流需要大量仓库级上下文信息
- 静态基准测试:BigCodeBench、SWE-bench等依赖预定义数据集,缺乏适应性
- 现有Arena平台:Chatbot Arena、WebDev Arena等不支持多轮交互,且评估指标有限
- 领域特异性不足:通用评估平台无法捕捉SE任务的独特需求
- 首个SE专用交互式评估平台:SWE-Arena是第一个专门为软件工程任务设计的大规模众包评估平台
- 创新评估指标:提出模型一致性得分(MCS)和对话效率指数(CEI)两个新颖评估指标
- RepoChat功能:自动注入仓库级上下文,使评估更贴近真实开发场景
- 多维评估体系:整合传统指标(Elo、胜率)和高级指标(特征向量中心性、PageRank等)
- 开源透明设计:提供完全透明的开源排行榜和评估方法
SWE-Arena旨在通过人类偏好的成对比较来评估基础模型在软件工程任务中的表现。输入包括用户SE相关查询和可选的仓库URL,输出为两个匿名模型的响应比较结果。
RepoChat是SWE-Arena的核心创新功能:
- 自动上下文提取:从GitHub/GitLab等平台自动提取仓库描述、编程语言、issue讨论、commit差异等元数据
- 智能上下文注入:将提取的上下文与用户查询合并,形成综合提示
- 可选使用:用户可选择是否提供仓库URL,平台具有向后兼容性
- 迭代交互:支持用户与模型进行多轮对话,评估长期上下文处理能力
- 动态投票:用户可在任何时候提交投票,并可重新评估修改投票
- 上下文管理:采用FIFO策略处理超出上下文窗口的情况
- SE相关性过滤:使用GPT-5-nano自动过滤非SE相关提示
- 匿名评估:整个会话过程中隐藏模型身份
- 响应时间限制:单个模型响应时间上限为1分钟
其中D表示自对弈中的平局数,N表示自对弈总数。该指标通过自对弈匹配量化模型输出的一致性。
其中:
- ni:单次对话的聊天轮数
- si:单次用户投票的结果得分
- 得分规则:胜利=1,平局(都工作良好)=0.3,平局(都不工作)=-0.3,失败=-1
该指标综合考虑结果质量和达成结果所需的交互轮数。
除传统的Elo评分和胜率外,还集成:
- 特征向量中心性:衡量全局主导地位
- PageRank得分:评估模型在比较网络中的重要性
- Newman模块化得分:揭示领域特定能力
- 首轮交互界面:
- 用户登录和提示输入
- 可选仓库URL输入
- 随机模型配对机制
- 多轮对话界面:
- 众包评估:通过用户投票收集偏好数据
- 实时更新:排行榜在用户提交投票后立即更新
- 隐私保护:匿名化数据收集,用户需同意使用条款
论文主要展示了SWE-Arena平台的设计和功能实现,而非传统意义上的实验结果对比。关键验证包括:
- 多轮对话支持:成功实现迭代交互评估
- RepoChat功能:能够自动提取和注入仓库上下文
- 实时排行榜:多维指标的实时计算和展示
- 质量控制:有效过滤非SE相关查询
- MCS指标:通过自对弈有效量化模型一致性
- CEI指标:成功平衡结果质量和效率考量
- 多维指标:提供比单一Elo评分更丰富的评估视角
- BigCodeBench:代码生成基准测试
- DevOps-Eval:DevOps相关评估
- EvalPlus:代码评估增强框架
- SWE-bench:GitHub问题解决基准
- Chatbot Arena:通用聊天机器人评估平台
- WebDev Arena:Web开发专用评估
- Copilot Arena:代码辅助评估平台
SWE-Arena相比现有工作的优势:
- 首个支持多轮交互的SE专用平台
- 集成仓库级上下文的RepoChat功能
- 更丰富的多维评估指标体系
- 完全开源透明的设计
- SWE-Arena成功填补了SE领域交互式模型评估的空白
- RepoChat功能有效提升了评估的真实性和实用性
- 新提出的MCS和CEI指标为模型评估提供了新的视角
- 多维评估体系比单一指标提供更全面的模型理解
- 用户参与度依赖:平台效果依赖于活跃的用户社区
- 主观性偏差:人类偏好评估存在固有的主观性
- 模型覆盖范围:当前支持的模型类型相对有限
- 长期维护需求:需要持续的技术维护和社区支持
论文明确提出四个发展方向:
- 真实SE工作负载分析:分析用户提交请求的模式,开发专门的子排行榜
- 增强社区参与:促进更广泛的研究开发社区贡献
- 扩展FM覆盖:支持领域特定模型和多模态基础模型
- 高级上下文压缩:集成LongRope、SelfExtend等技术处理长交互历史
- 创新性强:首个SE专用的交互式评估平台,填补重要空白
- 技术先进:RepoChat功能和新评估指标具有明显创新性
- 实用价值高:直接服务于SE社区的实际需求
- 设计合理:多轮交互、匿名评估等设计符合评估最佳实践
- 开源透明:完全开源设计促进社区发展和学术研究
- 缺乏大规模验证:论文未提供充分的用户使用数据和效果验证
- 评估指标验证不足:新提出的MCS和CEI指标缺乏与人类判断的相关性验证
- 可扩展性考虑不足:对大规模用户并发和长期运营的技术挑战讨论较少
- 偏差控制机制:对潜在的用户偏差和模型偏差的控制机制描述不够详细
- 学术贡献:为SE领域的模型评估研究提供新的方向和工具
- 实践价值:可直接服务于工业界的模型选择和评估需求
- 社区建设:有潜力成为SE-AI交叉领域的重要社区平台
- 方法论启发:评估方法和指标设计可启发其他领域的类似研究
- 模型开发者:评估和改进SE相关的基础模型
- 软件工程师:选择适合特定SE任务的最佳模型
- 研究人员:进行SE-AI交叉领域的实证研究
- 工具开发者:集成评估能力到SE工具链中
论文引用了18篇相关文献,涵盖:
- Elo评分系统和Bradley-Terry模型的理论基础
- 人类偏好学习和强化学习相关研究
- 现有的代码生成和SE基准测试
- 网络分析和排名算法
- 上下文窗口扩展技术
总体评价:SWE-Arena代表了SE领域模型评估的重要进展,通过创新的平台设计和评估方法,为解决现有评估框架的局限性提供了有价值的解决方案。尽管在大规模验证和长期可持续性方面还需要进一步证明,但其技术创新性和实用价值使其具有成为该领域重要工具的潜力。