Operand Quant: A Single-Agent Architecture for Autonomous Machine Learning Engineering
Sahney, Gorthi, Åastowski et al.
We present Operand Quant, a single-agent, IDE-based architecture for autonomous machine learning engineering (MLE). Operand Quant departs from conventional multi-agent orchestration frameworks by consolidating all MLE lifecycle stages -- exploration, modeling, experimentation, and deployment -- within a single, context-aware agent. On the MLE-Benchmark (2025), Operand Quant achieved a new state-of-the-art (SOTA) result, with an overall medal rate of 0.3956 +/- 0.0565 across 75 problems -- the highest recorded performance among all evaluated systems to date. The architecture demonstrates that a linear, non-blocking agent, operating autonomously within a controlled IDE environment, can outperform multi-agent and orchestrated systems under identical constraints.
academic
ऑपरेंड क्वांट: स्वायत्त मशीन लर्निंग इंजीनियरिंग के लिए एक एकल-एजेंट आर्किटेक्चर
यह पेपर ऑपरेंड क्वांट प्रस्तुत करता है, जो IDE-आधारित एकल-एजेंट स्वायत्त मशीन लर्निंग इंजीनियरिंग आर्किटेक्चर है। पारंपरिक बहु-एजेंट ऑर्केस्ट्रेशन फ्रेमवर्क के विपरीत, ऑपरेंड क्वांट मशीन लर्निंग इंजीनियरिंग जीवनचक्र के सभी चरणों—अन्वेषण, मॉडलिंग, प्रयोग और तैनाती—को एक एकल संदर्भ-जागरूक एजेंट में एकीकृत करता है। MLE-बेंचमार्क (2025) पर, ऑपरेंड क्वांट ने नए अत्याधुनिक परिणाम प्राप्त किए हैं, 75 समस्याओं पर कुल पदक दर 0.3956 ± 0.0565 है, जो अब तक सभी मूल्यांकित प्रणालियों में दर्ज सर्वोच्च प्रदर्शन है। यह आर्किटेक्चर साबित करता है कि नियंत्रित IDE वातावरण में स्वायत्त रूप से चलने वाला रैखिक, गैर-अवरुद्ध एजेंट समान बाधाओं के तहत बहु-एजेंट और ऑर्केस्ट्रेशन प्रणालियों को पार कर सकता है।
मशीन लर्निंग इंजीनियरिंग (MLE) पाइपलाइन का स्वचालन एजेंट AI अनुसंधान का मुख्य लक्ष्य बन गया है। मौजूदा प्रणालियां मुख्य रूप से बहु-एजेंट ऑर्केस्ट्रेशन पर निर्भर करती हैं, जहां विशेष एजेंट डेटा विश्लेषण, मॉडलिंग, मूल्यांकन और तैनाती जैसे कार्यों को स्वतंत्र रूप से संभालते हैं।
ऑपरेंड क्वांट एक वैकल्पिक प्रतिमान की खोज करता है: एक एकल स्वायत्त एजेंट अपने एकीकृत विकास वातावरण (IDE) के भीतर लगातार अवलोकन, योजना, संपादन, निष्पादन और मूल्यांकन करता है। यह डिज़ाइन मानता है कि अंत-से-अंत संदर्भ निरंतरता वितरित ऑर्केस्ट्रेशन की आवश्यकता के बिना विश्वसनीय और कुशल प्रदर्शन उत्पन्न कर सकती है।
इनपुट: मशीन लर्निंग समस्या विवरण और डेटासेट
आउटपुट: संपूर्ण ML समाधान, जिसमें डेटा विश्लेषण, मॉडल प्रशिक्षण, मूल्यांकन और अंतिम भविष्यवाणी शामिल है
बाधाएं: 24 घंटे निष्पादन समय, कोई नेटवर्क पहुंच नहीं, मानकीकृत हार्डवेयर वातावरण
बड़े भाषा मॉडल संदर्भ पूर्वाग्रह प्रदर्शित करते हैं, अर्थात् प्रॉम्प्ट लंबाई बढ़ने के साथ अनुमान लचीलापन घटता है। लंबे अनुमान सत्रों में, मॉडल सुरंग दृष्टि उत्पन्न कर सकता है, डिबगिंग या पूर्व मान्यताओं का पुनर्मूल्यांकन करने की क्षमता को कम करता है।
जब एजेंट को अनुमान बाधा का सामना करना पड़ता है, तो समस्या को उच्च क्षमता मॉडल एकीकरण को सौंपता है:
GPT-5
Claude-4.1 Opus
Grok-4
Gemini 2.5 Pro
ये मॉडल स्वतंत्र रूप से विश्लेषण या परिकल्पना उत्पन्न करते हैं, फिर आउटपुट को एकीकृत "विशेषज्ञ समीक्षा" में संश्लेषित किया जाता है, जिसे परामर्श इनपुट के रूप में एजेंट के अनुमान संदर्भ में पुनः पेश किया जाता है।
ऑपरेंड क्वांट स्वायत्त मशीन लर्निंग इंजीनियरिंग क्षेत्र में नया अत्याधुनिक स्तर स्थापित करता है। कुल स्कोर 0.3956 ± 0.0565 इसे MLE-बेंचमार्क 2025 लीडरबोर्ड पर पहले स्थान पर रखता है, समान शासन शर्तों के तहत एकल-एजेंट और बहु-एजेंट आधारभूत को पार करता है। सफलतापूर्वक साबित किया कि स्वायत्त MLE प्रणालियां निरंतर तर्क, समवर्ती निष्पादन और संरचित संदर्भ प्रबंधन के आधार पर एकीकृत एकल-एजेंट आर्किटेक्चर का उपयोग करके अग्रणी प्रदर्शन प्राप्त कर सकती हैं।
पेपर संबंधित क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें MLE-बेंचमार्क बेंचमार्क, AutoML-GPT श्रृंखला, SWE-agent, विभिन्न एजेंट फ्रेमवर्क आदि शामिल हैं, जो अनुसंधान के लिए ठोस सैद्धांतिक आधार और तुलना आधारभूत प्रदान करते हैं।
समग्र मूल्यांकन: यह स्वायत्त मशीन लर्निंग इंजीनियरिंग क्षेत्र में महत्वपूर्ण योगदान वाला एक पेपर है। चतुर एकल-एजेंट आर्किटेक्चर डिज़ाइन और कठोर प्रयोग सत्यापन के माध्यम से, सफलतापूर्वक बहु-एजेंट प्रतिमान के प्रभुत्व को चुनौती दी, इस क्षेत्र के विकास के लिए नई सोच और दिशा प्रदान की। कुछ सीमाओं के बावजूद, इसकी तकनीकी नवाचार और प्रदर्शन सुधार इसे इस क्षेत्र का एक महत्वपूर्ण मील का पत्थर बनाते हैं।