Foundation models (FMs), particularly large language models (LLMs), have shown significant promise in various software engineering (SE) tasks, including code generation, debugging, and requirement refinement. Despite these advances, existing evaluation frameworks are insufficient for assessing model performance in iterative, context-rich workflows characteristic of SE activities. To address this limitation, we introduce \emph{SWE-Arena}, an interactive platform designed to evaluate FMs in SE tasks. SWE-Arena provides a transparent, open-source leaderboard, supports multi-round conversational workflows, and enables end-to-end model comparisons. The platform introduces novel metrics, including \emph{model consistency score} that measures the consistency of model outputs through self-play matches, and \emph{conversation efficiency index} that evaluates model performance while accounting for the number of interaction rounds required to reach conclusions. Moreover, SWE-Arena incorporates a new feature called \emph{RepoChat}, which automatically injects repository-related context (e.g., issues, commits, pull requests) into the conversation, further aligning evaluations with real-world development processes. This paper outlines the design and capabilities of SWE-Arena, emphasizing its potential to advance the evaluation and practical application of FMs in software engineering.
- पेपर ID: 2502.01860
- शीर्षक: SWE-Arena: सॉफ्टवेयर इंजीनियरिंग में फाउंडेशन मॉडल्स का मूल्यांकन करने के लिए एक इंटरैक्टिव प्लेटफॉर्म
- लेखक: Zhimin Zhao (Queen's University)
- वर्गीकरण: cs.SE cs.LG
- प्रकाशन समय: arXiv प्रीप्रिंट (25 अक्टूबर 2025 को नवीनतम संस्करण v5)
- पेपर लिंक: https://arxiv.org/abs/2502.01860v5
फाउंडेशन मॉडल्स (FMs), विशेषकर बड़े भाषा मॉडल्स (LLMs), कोड जनरेशन, डिबगिंग और आवश्यकता परिशोधन सहित विभिन्न सॉफ्टवेयर इंजीनियरिंग (SE) कार्यों में विशाल संभावनाएं प्रदर्शित करते हैं। इन प्रगतियों के बावजूद, मौजूदा मूल्यांकन ढांचे SE गतिविधियों के लिए विशिष्ट पुनरावृत्तिमूलक, संदर्भ-समृद्ध कार्यप्रवाह में मॉडल के प्रदर्शन का मूल्यांकन करने के लिए अपर्याप्त हैं। इस सीमा को संबोधित करने के लिए, यह पेपर SWE-Arena प्रस्तुत करता है, जो SE कार्यों में FMs का मूल्यांकन करने के लिए विशेष रूप से डिज़ाइन किया गया एक इंटरैक्टिव प्लेटफॉर्म है। SWE-Arena एक पारदर्शी ओपन-सोर्स लीडरबोर्ड प्रदान करता है, बहु-दौर संवाद कार्यप्रवाह का समर्थन करता है, और अंत-से-अंत मॉडल तुलना को सक्षम करता है। यह प्लेटफॉर्म नई मूल्यांकन मेट्रिक्स प्रस्तुत करता है, जिसमें मॉडल सामंजस्य स्कोर (स्व-खेल मैचों के माध्यम से मॉडल आउटपुट सामंजस्य को मापना) और संवाद दक्षता सूचकांक (निष्कर्ष तक पहुंचने के लिए आवश्यक इंटरैक्शन दौरों को ध्यान में रखते हुए मॉडल प्रदर्शन का मूल्यांकन करना) शामिल हैं। इसके अलावा, SWE-Arena RepoChat नामक एक नई सुविधा को एकीकृत करता है, जो स्वचालित रूप से रिपोजिटरी-संबंधित संदर्भ (जैसे issues, commits, pull requests) को संवाद में इंजेक्ट करता है, जिससे मूल्यांकन को वास्तविक-विश्व विकास प्रक्रिया के साथ और अधिक संरेखित किया जाता है।
मौजूदा फाउंडेशन मॉडल मूल्यांकन ढांचे सॉफ्टवेयर इंजीनियरिंग क्षेत्र में निम्नलिखित मुख्य समस्याओं का सामना करते हैं:
- पुनरावृत्तिमूलक समर्थन की कमी: पारंपरिक मूल्यांकन विधियां SE कार्यों के लिए विशिष्ट बहु-दौर इंटरैक्शन आवश्यकताओं को संभाल नहीं सकती हैं
- संदर्भ की कमी: मौजूदा ढांचे वास्तविक विकास परिदृश्यों में रिपोजिटरी-स्तरीय संदर्भ जानकारी को प्रभावी ढंग से एकीकृत नहीं कर सकते हैं
- मूल्यांकन आयामों की एकरूपता: Chatbot Arena जैसे प्लेटफॉर्म केवल Elo स्कोरिंग और औसत जीत दर पर निर्भर करते हैं, मूल्यांकन दृष्टिकोण बहुत संकीर्ण है
- पारदर्शिता की कमी: कई मौजूदा प्लेटफॉर्म ओपन-सोर्स नहीं हैं, जो सामुदायिक-संचालित नवाचार को सीमित करते हैं
सॉफ्टवेयर इंजीनियरिंग कार्यों में निम्नलिखित विशेषताएं हैं, जो पारंपरिक मूल्यांकन विधियों को अनुपयुक्त बनाती हैं:
- बहु-आयामीता: आवश्यकता इंजीनियरिंग, रिलीज इंजीनियरिंग, प्रोजेक्ट प्रबंधन आदि कई क्षेत्रों को शामिल करता है
- पुनरावृत्तिमूलकता: जैसे डिबगिंग सत्रों में, मॉडल को उपयोगकर्ता प्रतिक्रिया के आधार पर समाधान को कई बार अनुकूलित करने की आवश्यकता होती है
- संदर्भ निर्भरता: वास्तविक SE कार्यप्रवाह को बड़ी मात्रा में रिपोजिटरी-स्तरीय संदर्भ जानकारी की आवश्यकता होती है
- स्थिर बेंचमार्क परीक्षण: BigCodeBench, SWE-bench आदि पूर्वनिर्धारित डेटासेट पर निर्भर करते हैं, अनुकूलन क्षमता की कमी है
- मौजूदा Arena प्लेटफॉर्म: Chatbot Arena, WebDev Arena आदि बहु-दौर इंटरैक्शन का समर्थन नहीं करते हैं, और मूल्यांकन मेट्रिक्स सीमित हैं
- डोमेन-विशिष्टता की कमी: सामान्य मूल्यांकन प्लेटफॉर्म SE कार्यों की अद्वितीय आवश्यकताओं को कैप्चर नहीं कर सकते हैं
- पहला SE-विशिष्ट इंटरैक्टिव मूल्यांकन प्लेटफॉर्म: SWE-Arena सॉफ्टवेयर इंजीनियरिंग कार्यों के लिए विशेष रूप से डिज़ाइन किया गया पहला बड़े पैमाने पर क्राउडसोर्स मूल्यांकन प्लेटफॉर्म है
- नवीन मूल्यांकन मेट्रिक्स: मॉडल सामंजस्य स्कोर (MCS) और संवाद दक्षता सूचकांक (CEI) दो नई मूल्यांकन मेट्रिक्स प्रस्तावित करता है
- RepoChat सुविधा: स्वचालित रूप से रिपोजिटरी-स्तरीय संदर्भ इंजेक्ट करता है, जिससे मूल्यांकन वास्तविक विकास परिदृश्य के करीब होता है
- बहु-आयामी मूल्यांकन प्रणाली: पारंपरिक मेट्रिक्स (Elo, जीत दर) और उन्नत मेट्रिक्स (eigenvector केंद्रीयता, PageRank आदि) को एकीकृत करता है
- ओपन-सोर्स पारदर्शी डिज़ाइन: पूरी तरह से पारदर्शी ओपन-सोर्स लीडरबोर्ड और मूल्यांकन विधियां प्रदान करता है
SWE-Arena मानव वरीयता के आधार पर युग्मित तुलना के माध्यम से सॉफ्टवेयर इंजीनियरिंग कार्यों में फाउंडेशन मॉडल्स के प्रदर्शन का मूल्यांकन करने का लक्ष्य रखता है। इनपुट में उपयोगकर्ता SE-संबंधित क्वेरी और वैकल्पिक रिपोजिटरी URL शामिल हैं, आउटपुट दो अनाम मॉडल्स की प्रतिक्रियाओं की तुलना परिणाम हैं।
RepoChat SWE-Arena की मुख्य नवीन सुविधा है:
- स्वचालित संदर्भ निष्कर्षण: GitHub/GitLab आदि प्लेटफॉर्म से स्वचालित रूप से रिपोजिटरी विवरण, प्रोग्रामिंग भाषा, issue चर्चा, commit अंतर आदि मेटाडेटा निकालता है
- बुद्धिमान संदर्भ इंजेक्शन: निकाले गए संदर्भ को उपयोगकर्ता क्वेरी के साथ मर्ज करता है, एक व्यापक प्रॉम्प्ट बनाता है
- वैकल्पिक उपयोग: उपयोगकर्ता रिपोजिटरी URL प्रदान करना चुन सकते हैं, प्लेटफॉर्म पिछड़ी संगतता रखता है
- पुनरावृत्तिमूलक इंटरैक्शन: उपयोगकर्ता और मॉडल के बीच बहु-दौर संवाद का समर्थन करता है, दीर्घकालीन संदर्भ प्रसंस्करण क्षमता का मूल्यांकन करता है
- गतिशील मतदान: उपयोगकर्ता किसी भी समय मतदान जमा कर सकते हैं, और मतदान को पुनः मूल्यांकन कर सकते हैं
- संदर्भ प्रबंधन: संदर्भ विंडो से अधिक मामलों को संभालने के लिए FIFO रणनीति का उपयोग करता है
- SE प्रासंगिकता फ़िल्टरिंग: गैर-SE संबंधित प्रॉम्प्ट को स्वचालित रूप से फ़िल्टर करने के लिए GPT-5-nano का उपयोग करता है
- अनाम मूल्यांकन: पूरे सत्र के दौरान मॉडल पहचान को छिपाता है
- प्रतिक्रिया समय सीमा: एकल मॉडल प्रतिक्रिया समय की ऊपरी सीमा 1 मिनट है
जहां D स्व-खेल में ड्रॉ की संख्या को दर्शाता है, N स्व-खेल की कुल संख्या है। यह मेट्रिक स्व-खेल मैचों के माध्यम से मॉडल आउटपुट की सामंजस्यता को मापता है।
जहां:
- ni: एकल संवाद में चैट दौरों की संख्या
- si: एकल उपयोगकर्ता मतदान के परिणाम स्कोर
- स्कोरिंग नियम: जीत=1, ड्रॉ (दोनों अच्छी तरह काम करते हैं)=0.3, ड्रॉ (दोनों काम नहीं करते)=-0.3, हार=-1
यह मेट्रिक परिणाम गुणवत्ता और निष्कर्ष तक पहुंचने के लिए आवश्यक इंटरैक्शन दौरों दोनों को ध्यान में रखता है।
पारंपरिक Elo स्कोरिंग और जीत दर के अलावा, निम्नलिखित को एकीकृत करता है:
- Eigenvector केंद्रीयता: वैश्विक प्रभुत्व को मापता है
- PageRank स्कोर: तुलना नेटवर्क में मॉडल की महत्ता का मूल्यांकन करता है
- Newman मॉड्यूलेरिटी स्कोर: डोमेन-विशिष्ट क्षमताओं को प्रकट करता है
- तैनाती प्लेटफॉर्म: Hugging Face Spaces
- पहुंच पता: https://huggingface.co/spaces/SE-Arena/Software-Engineering-Arena
- ओपन-सोर्स विशेषता: पूरी तरह से ओपन-सोर्स, सामुदायिक योगदान का समर्थन करता है
- पहले दौर का इंटरैक्शन इंटरफेस:
- उपयोगकर्ता लॉगिन और प्रॉम्प्ट इनपुट
- वैकल्पिक रिपोजिटरी URL इनपुट
- यादृच्छिक मॉडल पेयरिंग तंत्र
- बहु-दौर संवाद इंटरफेस:
- निरंतर संवाद समर्थन
- रीयल-टाइम मतदान और पुनः मूल्यांकन कार्यक्षमता
- अनाम मॉडल प्रदर्शन
- क्राउडसोर्स मूल्यांकन: उपयोगकर्ता मतदान के माध्यम से वरीयता डेटा संग्रहीत करता है
- रीयल-टाइम अपडेट: उपयोगकर्ता मतदान जमा करने के बाद लीडरबोर्ड तुरंत अपडेट होता है
- गोपनीयता संरक्षण: अनाम डेटा संग्रह, उपयोगकर्ताओं को उपयोग की शर्तों से सहमत होना आवश्यक है
पेपर मुख्य रूप से SWE-Arena प्लेटफॉर्म के डिज़ाइन और कार्यान्वयन को प्रदर्शित करता है, न कि पारंपरिक अर्थ में तुलनात्मक प्रयोग परिणाम। मुख्य सत्यापन में शामिल हैं:
- बहु-दौर संवाद समर्थन: पुनरावृत्तिमूलक इंटरैक्शन मूल्यांकन को सफलतापूर्वक लागू करता है
- RepoChat कार्यक्षमता: स्वचालित रूप से रिपोजिटरी संदर्भ निकाल और इंजेक्ट कर सकता है
- रीयल-टाइम लीडरबोर्ड: बहु-आयामी मेट्रिक्स की रीयल-टाइम गणना और प्रदर्शन
- गुणवत्ता नियंत्रण: गैर-SE संबंधित क्वेरी को प्रभावी ढंग से फ़िल्टर करता है
- MCS मेट्रिक: स्व-खेल के माध्यम से मॉडल सामंजस्य को प्रभावी ढंग से मापता है
- CEI मेट्रिक: परिणाम गुणवत्ता और दक्षता विचार को सफलतापूर्वक संतुलित करता है
- बहु-आयामी मेट्रिक्स: एकल Elo स्कोरिंग की तुलना में अधिक समृद्ध मूल्यांकन दृष्टिकोण प्रदान करता है
- BigCodeBench: कोड जनरेशन बेंचमार्क परीक्षण
- DevOps-Eval: DevOps संबंधित मूल्यांकन
- EvalPlus: कोड मूल्यांकन वृद्धि ढांचा
- SWE-bench: GitHub समस्या समाधान बेंचमार्क
- Chatbot Arena: सामान्य चैटबॉट मूल्यांकन प्लेटफॉर्म
- WebDev Arena: वेब विकास विशेष मूल्यांकन
- Copilot Arena: कोड सहायता मूल्यांकन प्लेटफॉर्म
SWE-Arena की मौजूदा कार्यों की तुलना में श्रेष्ठता:
- बहु-दौर इंटरैक्शन का समर्थन करने वाला पहला SE-विशिष्ट प्लेटफॉर्म
- रिपोजिटरी-स्तरीय संदर्भ एकीकृत करने वाली RepoChat कार्यक्षमता
- अधिक समृद्ध बहु-आयामी मूल्यांकन मेट्रिक्स प्रणाली
- पूरी तरह से ओपन-सोर्स पारदर्शी डिज़ाइन
- SWE-Arena ने SE क्षेत्र में इंटरैक्टिव मॉडल मूल्यांकन के रिक्त स्थान को सफलतापूर्वक भरा है
- RepoChat कार्यक्षमता मूल्यांकन की वास्तविकता और व्यावहारिकता को प्रभावी ढंग से बढ़ाती है
- नई प्रस्तावित MCS और CEI मेट्रिक्स मॉडल मूल्यांकन के लिए नए दृष्टिकोण प्रदान करती हैं
- बहु-आयामी मूल्यांकन प्रणाली एकल मेट्रिक की तुलना में अधिक व्यापक मॉडल समझ प्रदान करती है
- उपयोगकर्ता भागीदारी निर्भरता: प्लेटफॉर्म प्रभाव सक्रिय उपयोगकर्ता समुदाय पर निर्भर करता है
- व्यक्तिपरक पूर्वाग्रह: मानव वरीयता मूल्यांकन में अंतर्निहित व्यक्तिपरकता होती है
- मॉडल कवरेज सीमा: वर्तमान में समर्थित मॉडल प्रकार अपेक्षाकृत सीमित हैं
- दीर्घकालीन रखरखाव आवश्यकता: निरंतर तकनीकी रखरखाव और सामुदायिक समर्थन की आवश्यकता है
पेपर स्पष्ट रूप से चार विकास दिशाएं प्रस्तावित करता है:
- वास्तविक SE कार्यभार विश्लेषण: उपयोगकर्ता द्वारा प्रस्तुत अनुरोधों के पैटर्न का विश्लेषण करना, विशेष उप-लीडरबोर्ड विकसित करना
- सामुदायिक भागीदारी में वृद्धि: व्यापक अनुसंधान विकास समुदाय योगदान को बढ़ावा देना
- FM कवरेज का विस्तार: डोमेन-विशिष्ट मॉडल और मल्टीमॉडल फाउंडेशन मॉडल्स का समर्थन करना
- उन्नत संदर्भ संपीड़न: LongRope, SelfExtend आदि तकनीकों को एकीकृत करके लंबे इंटरैक्शन इतिहास को संभालना
- मजबूत नवाचार: पहला SE-विशिष्ट इंटरैक्टिव मूल्यांकन प्लेटफॉर्म, महत्वपूर्ण रिक्त स्थान को भरता है
- उन्नत तकनीक: RepoChat कार्यक्षमता और नई मूल्यांकन मेट्रिक्स में स्पष्ट नवाचार है
- उच्च व्यावहारिक मूल्य: SE समुदाय की वास्तविक आवश्यकताओं को सीधे पूरा करता है
- तर्कसंगत डिज़ाइन: बहु-दौर इंटरैक्शन, अनाम मूल्यांकन आदि डिज़ाइन मूल्यांकन सर्वोत्तम प्रथाओं के अनुरूप हैं
- ओपन-सोर्स पारदर्शिता: पूरी तरह से ओपन-सोर्स डिज़ाइन सामुदायिक विकास और शैक्षणिक अनुसंधान को बढ़ावा देता है
- बड़े पैमाने पर सत्यापन की कमी: पेपर पर्याप्त उपयोगकर्ता उपयोग डेटा और प्रभाव सत्यापन प्रदान नहीं करता है
- मूल्यांकन मेट्रिक्स सत्यापन अपर्याप्त: नई प्रस्तावित MCS और CEI मेट्रिक्स में मानव निर्णय के साथ सहसंबंध सत्यापन की कमी है
- स्केलेबिलिटी विचार अपर्याप्त: बड़े पैमाने पर उपयोगकर्ता समवर्ती और दीर्घकालीन संचालन की तकनीकी चुनौतियों पर चर्चा कम है
- पूर्वाग्रह नियंत्रण तंत्र: संभावित उपयोगकर्ता पूर्वाग्रह और मॉडल पूर्वाग्रह के नियंत्रण तंत्र का विवरण पर्याप्त नहीं है
- शैक्षणिक योगदान: SE क्षेत्र में मॉडल मूल्यांकन अनुसंधान के लिए नई दिशा और उपकरण प्रदान करता है
- व्यावहारिक मूल्य: औद्योगिक क्षेत्र की मॉडल चयन और मूल्यांकन आवश्यकताओं को सीधे पूरा कर सकता है
- सामुदायिक निर्माण: SE-AI क्रॉस-डोमेन का एक महत्वपूर्ण सामुदायिक प्लेटफॉर्म बनने की संभावना है
- पद्धति संबंधी प्रेरणा: मूल्यांकन विधि और मेट्रिक्स डिज़ाइन अन्य क्षेत्रों में समान अनुसंधान को प्रेरित कर सकते हैं
- मॉडल विकासकर्ता: SE संबंधित फाउंडेशन मॉडल्स का मूल्यांकन और सुधार करना
- सॉफ्टवेयर इंजीनियर: विशिष्ट SE कार्यों के लिए सर्वोत्तम मॉडल का चयन करना
- शोधकर्ता: SE-AI क्रॉस-डोमेन में अनुभवजन्य अनुसंधान करना
- उपकरण विकासकर्ता: SE टूल चेन में मूल्यांकन क्षमता को एकीकृत करना
पेपर 18 संबंधित संदर्भों का हवाला देता है, जिसमें शामिल हैं:
- Elo स्कोरिंग प्रणाली और Bradley-Terry मॉडल का सैद्धांतिक आधार
- मानव वरीयता सीखने और सुदृढ़ीकरण सीखने संबंधित अनुसंधान
- मौजूदा कोड जनरेशन और SE बेंचमार्क परीक्षण
- नेटवर्क विश्लेषण और रैंकिंग एल्गोरिदम
- संदर्भ विंडो विस्तार तकनीकें
कुल मूल्यांकन: SWE-Arena SE क्षेत्र में मॉडल मूल्यांकन की महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है। नवीन प्लेटफॉर्म डिज़ाइन और मूल्यांकन विधियों के माध्यम से, यह मौजूदा मूल्यांकन ढांचे की सीमाओं को हल करने के लिए मूल्यवान समाधान प्रदान करता है। हालांकि बड़े पैमाने पर सत्यापन और दीर्घकालीन स्थायित्व के संदर्भ में आगे के प्रमाण की आवश्यकता है, लेकिन इसकी तकनीकी नवाचार और व्यावहारिक मूल्य इसे इस क्षेत्र का एक महत्वपूर्ण उपकरण बनने की संभावना देते हैं।