2025-11-20T06:40:14.795821

Operand Quant: A Single-Agent Architecture for Autonomous Machine Learning Engineering

Sahney, Gorthi, Åastowski et al.

We present Operand Quant, a single-agent, IDE-based architecture for autonomous machine learning engineering (MLE). Operand Quant departs from conventional multi-agent orchestration frameworks by consolidating all MLE lifecycle stages -- exploration, modeling, experimentation, and deployment -- within a single, context-aware agent. On the MLE-Benchmark (2025), Operand Quant achieved a new state-of-the-art (SOTA) result, with an overall medal rate of 0.3956 +/- 0.0565 across 75 problems -- the highest recorded performance among all evaluated systems to date. The architecture demonstrates that a linear, non-blocking agent, operating autonomously within a controlled IDE environment, can outperform multi-agent and orchestrated systems under identical constraints.

academic

ऑपरेंड क्वांट: स्वायत्त मशीन लर्निंग इंजीनियरिंग के लिए एक एकल-एजेंट आर्किटेक्चर

बुनियादी जानकारी

पेपर ID: 2510.11694
शीर्षक: ऑपरेंड क्वांट: स्वायत्त मशीन लर्निंग इंजीनियरिंग के लिए एक एकल-एजेंट आर्किटेक्चर
लेखक: अर्जुन साहनी, राम गोर्थी, सेज़री लास्टोव्स्की, जेवियर वेगा (ऑपरेंड रिसर्च)
वर्गीकरण: cs.AI
प्रकाशन समय: अक्टूबर 2025
पेपर लिंक: https://arxiv.org/abs/2510.11694

सारांश

यह पेपर ऑपरेंड क्वांट प्रस्तुत करता है, जो IDE-आधारित एकल-एजेंट स्वायत्त मशीन लर्निंग इंजीनियरिंग आर्किटेक्चर है। पारंपरिक बहु-एजेंट ऑर्केस्ट्रेशन फ्रेमवर्क के विपरीत, ऑपरेंड क्वांट मशीन लर्निंग इंजीनियरिंग जीवनचक्र के सभी चरणों—अन्वेषण, मॉडलिंग, प्रयोग और तैनाती—को एक एकल संदर्भ-जागरूक एजेंट में एकीकृत करता है। MLE-बेंचमार्क (2025) पर, ऑपरेंड क्वांट ने नए अत्याधुनिक परिणाम प्राप्त किए हैं, 75 समस्याओं पर कुल पदक दर 0.3956 ± 0.0565 है, जो अब तक सभी मूल्यांकित प्रणालियों में दर्ज सर्वोच्च प्रदर्शन है। यह आर्किटेक्चर साबित करता है कि नियंत्रित IDE वातावरण में स्वायत्त रूप से चलने वाला रैखिक, गैर-अवरुद्ध एजेंट समान बाधाओं के तहत बहु-एजेंट और ऑर्केस्ट्रेशन प्रणालियों को पार कर सकता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मशीन लर्निंग इंजीनियरिंग (MLE) पाइपलाइन का स्वचालन एजेंट AI अनुसंधान का मुख्य लक्ष्य बन गया है। मौजूदा प्रणालियां मुख्य रूप से बहु-एजेंट ऑर्केस्ट्रेशन पर निर्भर करती हैं, जहां विशेष एजेंट डेटा विश्लेषण, मॉडलिंग, मूल्यांकन और तैनाती जैसे कार्यों को स्वतंत्र रूप से संभालते हैं।

मौजूदा विधियों की सीमाएं

उच्च समन्वय लागत: बहु-एजेंट फ्रेमवर्क कार्य को समानांतर कर सकते हैं, लेकिन अक्सर समन्वय लागत उत्पन्न करते हैं
संदर्भ विखंडन: एजेंटों के बीच संदर्भ स्थानांतरण से जानकारी हानि हो सकती है
सिंक्रोनाइज़ेशन त्रुटियां: वितरित प्रणालियों में सिंक्रोनाइज़ेशन समस्याएं समग्र प्रदर्शन को प्रभावित करती हैं
स्थिति असंगति: कई एजेंट अलग-अलग स्थिति दृश्य बनाए रखते हैं

अनुसंधान प्रेरणा

ऑपरेंड क्वांट एक वैकल्पिक प्रतिमान की खोज करता है: एक एकल स्वायत्त एजेंट अपने एकीकृत विकास वातावरण (IDE) के भीतर लगातार अवलोकन, योजना, संपादन, निष्पादन और मूल्यांकन करता है। यह डिज़ाइन मानता है कि अंत-से-अंत संदर्भ निरंतरता वितरित ऑर्केस्ट्रेशन की आवश्यकता के बिना विश्वसनीय और कुशल प्रदर्शन उत्पन्न कर सकती है।

मुख्य योगदान

एकल-एजेंट MLE आर्किटेक्चर प्रस्तावित किया: पहली बार व्यवस्थित रूप से साबित किया कि एकल एजेंट MLE कार्यों पर बहु-एजेंट प्रणालियों को पार कर सकता है
गैर-अवरुद्ध निष्पादन तंत्र डिज़ाइन किया: समवर्ती प्रसंस्करण क्षमता लागू की, अतुल्यकालिक नोटबुक और स्क्रिप्ट निष्पादन का समर्थन करता है
गहन विचार एकीकरण पेश किया: बहु-मॉडल एकीकरण के माध्यम से लंबे अनुमान सत्रों में संदर्भ पूर्वाग्रह को कम करता है
SOTA प्रदर्शन प्राप्त किया: MLE-बेंचमार्क 2025 पर नया उच्च रिकॉर्ड बनाया (39.56% पदक दर)
पूर्ण पुनरुत्पादनीयता प्रदान की: सभी प्रयोग लॉग, कोड और मूल्यांकन सामग्री सार्वजनिक की

विधि विवरण

कार्य परिभाषा

इनपुट: मशीन लर्निंग समस्या विवरण और डेटासेट आउटपुट: संपूर्ण ML समाधान, जिसमें डेटा विश्लेषण, मॉडल प्रशिक्षण, मूल्यांकन और अंतिम भविष्यवाणी शामिल है बाधाएं: 24 घंटे निष्पादन समय, कोई नेटवर्क पहुंच नहीं, मानकीकृत हार्डवेयर वातावरण

मॉडल आर्किटेक्चर

1. एकल-एजेंट मुख्य लूप

प्रत्येक अनुमान चक्र निम्नलिखित चरणों में शामिल है:

अवलोकन: वर्तमान IDE स्थिति प्राप्त करें (खुली फाइलें, कर्नेल स्थिति, सक्रिय प्रक्रियाएं और आउटपुट)
निर्णय: सत्यापन पैटर्न के अनुरूप संरचित JSON कमांड उत्पन्न करें
निष्पादन: निर्दिष्ट संचालन को अतुल्यकालिक रूप से सत्यापित और निष्पादित करें
स्थायित्व: परिणामों को डिस्क पर सहेजें और इतिहास में एकीकृत करें
संपीड़न: यदि संदर्भ लंबाई सीमा के करीब हो तो संपीड़न ट्रिगर करें

2. गैर-अवरुद्ध समवर्ती निष्पादन

if primary_notebook and primary_notebook.is_cell_executing():
    continue_result = primary_notebook.continue_execution_if_running()
    if continue_result["status"] == "completed":
        final_output = continue_result.get("output", "[No Output]")
    elif continue_result["status"] == "still_executing":
        current_output = continue_result["current_output"]
        duration = continue_result["execution_duration_seconds"]

यह एजेंट को प्रशिक्षण चलाने के दौरान संपादन, योजना या आउटपुट विश्लेषण जारी रखने की अनुमति देता है।

3. गतिशील बाधा तर्क

निष्पादन प्रक्रिया निम्नलिखित परिस्थितियों में बाधित होती है:

हानि या सत्यापन मेट्रिक्स से अभिसरण का पता लगाना
मेमोरी या रनटाइम थ्रेसहोल्ड से अधिक होना
लॉग या त्रुटियों में गैर-अभिसरण पैटर्न दिखना

4. स्थिति स्थायित्व और संपीड़न

स्तरीय मेमोरी संपीड़न रणनीति का उपयोग करता है:

लंबी नोटबुक सामग्री को बाहर करें
पुराने दौरों को सारांशित करने के लिए समर्पित उपकरण का उपयोग करें
सारांश की सटीकता सत्यापित करें
सफल सत्यापन के बाद मूल इतिहास को प्रतिस्थापित करें

गहन विचार एकीकरण तंत्र

प्रेरणा

बड़े भाषा मॉडल संदर्भ पूर्वाग्रह प्रदर्शित करते हैं, अर्थात् प्रॉम्प्ट लंबाई बढ़ने के साथ अनुमान लचीलापन घटता है। लंबे अनुमान सत्रों में, मॉडल सुरंग दृष्टि उत्पन्न कर सकता है, डिबगिंग या पूर्व मान्यताओं का पुनर्मूल्यांकन करने की क्षमता को कम करता है।

एकीकरण अनुमान

जब एजेंट को अनुमान बाधा का सामना करना पड़ता है, तो समस्या को उच्च क्षमता मॉडल एकीकरण को सौंपता है:

GPT-5
Claude-4.1 Opus
Grok-4
Gemini 2.5 Pro

ये मॉडल स्वतंत्र रूप से विश्लेषण या परिकल्पना उत्पन्न करते हैं, फिर आउटपुट को एकीकृत "विशेषज्ञ समीक्षा" में संश्लेषित किया जाता है, जिसे परामर्श इनपुट के रूप में एजेंट के अनुमान संदर्भ में पुनः पेश किया जाता है।

प्रयोग सेटअप

डेटासेट

MLE-बेंचमार्क 2025: 75 मशीन लर्निंग समस्याओं को शामिल करता है, तीन कठिनाई स्तरों में विभाजित:

लाइट: 22 समस्याएं
मध्यम: 38 समस्याएं
कठिन: 15 समस्याएं

मूल्यांकन मेट्रिक्स

पदक दर (Medal Rate): समस्याओं को सफलतापूर्वक हल करने और पदक प्राप्त करने का अनुपात, मुख्य मूल्यांकन मेट्रिक के रूप में

बेंचमार्क शासन

MLE-बेंचमार्क 2025 शासन आवश्यकताओं का कड़ाई से पालन:

कोई इंटरनेट या API पहुंच नहीं
उपकरण केवल स्थानीय वातावरण तक सीमित
submit_final_answer एंडपॉइंट के माध्यम से मानकीकृत सबमिशन
24 घंटे निष्पादन विंडो सीमा

हार्डवेयर कॉन्फ़िगरेशन

लाइट सबसेट: GCP VM (234 GB RAM, 36 vCPUs, Tesla T4)
मध्यम/कठिन सबसेट: Azure NV36AdsA10v5 (आधिकारिक MLE हार्डवेयर)

तुलना विधियां

InternAgent (DeepSeek-R1)
R&D-Agent (GPT-5)
Neo Multi-Agent
R&D-Agent (o3 + GPT-4.1)

प्रयोग परिणाम

मुख्य परिणाम

सबसेट	पदक दर (औसत ± मानक विचलन)	समस्याओं की संख्या
कुल	0.3956 ± 0.0565	75
लाइट	0.6364 ± 0.1050	22
मध्यम	0.3333 ± 0.0765	38
कठिन	0.2000 ± 0.1069	15

लीडरबोर्ड तुलना

एजेंट	लाइट	मध्य	कठिन	कुल	घंटे	तारीख
ऑपरेंड क्वांट	63.64	33.33	20.00	39.56	24	09-28
InternAgent (DeepSeek-R1)	62.12	26.32	24.44	36.44	12	09-12
R&D-Agent (GPT-5)	68.18	21.05	22.22	35.11	12	09-26
Neo Multi-Agent	48.48	29.82	24.44	34.22	36	07-28
R&D-Agent (o3 + GPT-4.1)	51.52	19.30	26.67	30.22	24	08-15

विफलता केस विश्लेषण

निम्नलिखित कार्य डेटा या वातावरण समस्याओं के कारण विफल रहे, सभी बीजों में "कोई पदक नहीं" के रूप में रिपोर्ट किए गए:

स्वायत्त वाहनों के लिए 3D ऑब्जेक्ट डिटेक्शन
AI4Code
बिलियन वर्ड इम्प्यूटेशन
BMS आणविक अनुवाद
गूगल रिसर्च कॉन्ट्रेल्स की पहचान करें
HMS हानिकारक मस्तिष्क गतिविधि वर्गीकरण
आदि 11 कार्य

एक आउटलायर—मल्टी-मोडल जेस्चर रिकग्निशन—डेटासेट लीक त्रुटि का पता लगाने के कारण बाहर रखा गया था जो अमान्य परिपूर्ण स्कोर का कारण बनता था।

प्रयोग निष्कर्ष

एकल-एजेंट लाभ: एकीकृत संदर्भ तर्क और निर्धारक स्थिति स्थायित्व वितरित समन्वय पर निर्भर किए बिना प्रतिस्पर्धी प्रदर्शन प्राप्त करने के लिए पर्याप्त है
गैर-अवरुद्ध निष्पादन प्रभाव: समवर्ती प्रसंस्करण क्षमता संसाधन उपयोग दक्षता में काफी सुधार करती है
गहन विचार एकीकरण मूल्य: बहु-मॉडल एकीकरण लंबे अनुमान सत्रों में संदर्भ पूर्वाग्रह को प्रभावी ढंग से कम करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

ऑपरेंड क्वांट स्वायत्त मशीन लर्निंग इंजीनियरिंग क्षेत्र में नया अत्याधुनिक स्तर स्थापित करता है। कुल स्कोर 0.3956 ± 0.0565 इसे MLE-बेंचमार्क 2025 लीडरबोर्ड पर पहले स्थान पर रखता है, समान शासन शर्तों के तहत एकल-एजेंट और बहु-एजेंट आधारभूत को पार करता है। सफलतापूर्वक साबित किया कि स्वायत्त MLE प्रणालियां निरंतर तर्क, समवर्ती निष्पादन और संरचित संदर्भ प्रबंधन के आधार पर एकीकृत एकल-एजेंट आर्किटेक्चर का उपयोग करके अग्रणी प्रदर्शन प्राप्त कर सकती हैं।

सीमाएं

संदर्भ क्षरण: संपीड़न तंत्र के बावजूद, लंबे समय तक तर्क संदर्भ गुणवत्ता में गिरावट का कारण बन सकता है
अभिव्यक्ति क्षमता सीमाएं: प्रति दौर एकल-उपकरण नियम जटिल संचालन की अभिव्यक्ति को सीमित करता है
उच्च कम्प्यूटेशनल लागत: 24 घंटे की रन उच्च कम्प्यूटेशनल लागत लाती है
अपर्याप्त त्रुटि सहनशीलता: वातावरण या कर्नेल त्रुटियों के लिए त्रुटि सहनशीलता क्षमता सीमित है

भविष्य की दिशाएं

अनुकूली एकीकरण तर्क: एकीकरण रणनीति को गतिशील रूप से समायोजित करें
गतिशील संपीड़न: अधिक बुद्धिमान संदर्भ प्रबंधन
त्रुटि-सहनशील निष्पादन: प्रणाली मजबूती बढ़ाएं

गहन मूल्यांकन

शक्तियां

मजबूत आर्किटेक्चर नवाचार: पहली बार व्यवस्थित रूप से MLE कार्यों पर एकल-एजेंट लाभ साबित किया, बहु-एजेंट प्रतिमान के प्रभुत्व को चुनौती दी
चतुर तकनीकी डिज़ाइन: गैर-अवरुद्ध निष्पादन, गहन विचार एकीकरण आदि तंत्र उचित रूप से डिज़ाइन किए गए, व्यावहारिक समस्याओं को प्रभावी ढंग से हल करते हैं
पर्याप्त कठोर प्रयोग: बेंचमार्क प्रोटोकॉल का कड़ाई से पालन, परिणाम अत्यधिक प्रेरक हैं
उत्कृष्ट पुनरुत्पादनीयता: पूर्ण लॉग, कोड और मूल्यांकन सामग्री प्रदान की
महत्वपूर्ण प्रदर्शन सुधार: मानक बेंचमार्क पर स्पष्ट SOTA परिणाम प्राप्त किए

कमियां

अपर्याप्त सैद्धांतिक विश्लेषण: यह समझाने में कमी कि एकल-एजेंट बहु-एजेंट से बेहतर क्यों है
अज्ञात सामान्यीकरण क्षमता: केवल MLE-बेंचमार्क पर मूल्यांकित, अन्य क्षेत्रों में प्रदर्शन अज्ञात है
कम्प्यूटेशनल दक्षता समस्या: 24 घंटे की रन समय कुछ आधारभूत विधियों की तुलना में लंबा है, दक्षता में सुधार की आवश्यकता है
सरल त्रुटि हैंडलिंग तंत्र: सिस्टम विफलता के लिए हैंडलिंग रणनीति अपेक्षाकृत सरल है
एकीकरण तंत्र निर्भरता: गहन विचार एकीकरण कई बड़े मॉडलों पर निर्भर करता है, सिस्टम जटिलता बढ़ाता है

प्रभाव

शैक्षणिक योगदान: एजेंट आर्किटेक्चर डिज़ाइन के लिए नई सोच प्रदान करता है, भविष्य के अनुसंधान दिशा को प्रभावित कर सकता है
व्यावहारिक मूल्य: स्वचालित मशीन लर्निंग इंजीनियरिंग में सीधा अनुप्रयोग मूल्य है
पद्धतिगत महत्व: साबित करता है कि कुछ कार्यों में, सरलीकृत आर्किटेक्चर जटिल ऑर्केस्ट्रेशन से अधिक प्रभावी हो सकता है

लागू परिदृश्य

स्वचालित ML इंजीनियरिंग: अंत-से-अंत ML समाधान की आवश्यकता वाले परिदृश्यों के लिए उपयुक्त
अनुसंधान प्रयोग: तेज़ प्रोटोटाइपिंग और प्रयोग के लिए उपयोग किया जा सकता है
शिक्षा प्रशिक्षण: ML इंजीनियरिंग स्वचालन के संदर्भ कार्यान्वयन के रूप में
प्रतिबंधित वातावरण: नेटवर्क पहुंच के बिना ऑफ़लाइन वातावरण के लिए उपयुक्त

संदर्भ

पेपर संबंधित क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें MLE-बेंचमार्क बेंचमार्क, AutoML-GPT श्रृंखला, SWE-agent, विभिन्न एजेंट फ्रेमवर्क आदि शामिल हैं, जो अनुसंधान के लिए ठोस सैद्धांतिक आधार और तुलना आधारभूत प्रदान करते हैं।

समग्र मूल्यांकन: यह स्वायत्त मशीन लर्निंग इंजीनियरिंग क्षेत्र में महत्वपूर्ण योगदान वाला एक पेपर है। चतुर एकल-एजेंट आर्किटेक्चर डिज़ाइन और कठोर प्रयोग सत्यापन के माध्यम से, सफलतापूर्वक बहु-एजेंट प्रतिमान के प्रभुत्व को चुनौती दी, इस क्षेत्र के विकास के लिए नई सोच और दिशा प्रदान की। कुछ सीमाओं के बावजूद, इसकी तकनीकी नवाचार और प्रदर्शन सुधार इसे इस क्षेत्र का एक महत्वपूर्ण मील का पत्थर बनाते हैं।