Operand Quant: A Single-Agent Architecture for Autonomous Machine Learning Engineering
Sahney, Gorthi, Åastowski et al.
We present Operand Quant, a single-agent, IDE-based architecture for autonomous machine learning engineering (MLE). Operand Quant departs from conventional multi-agent orchestration frameworks by consolidating all MLE lifecycle stages -- exploration, modeling, experimentation, and deployment -- within a single, context-aware agent. On the MLE-Benchmark (2025), Operand Quant achieved a new state-of-the-art (SOTA) result, with an overall medal rate of 0.3956 +/- 0.0565 across 75 problems -- the highest recorded performance among all evaluated systems to date. The architecture demonstrates that a linear, non-blocking agent, operating autonomously within a controlled IDE environment, can outperform multi-agent and orchestrated systems under identical constraints.
academic
Operand Quant: Eine Single-Agent-Architektur für autonomes Machine-Learning-Engineering
Dieser Artikel präsentiert Operand Quant, eine IDE-basierte Single-Agent-Architektur für autonomes Machine-Learning-Engineering. Im Gegensatz zu traditionellen Multi-Agent-Orchestrierungsframeworks integriert Operand Quant alle Phasen des ML-Engineering-Lebenszyklus – Exploration, Modellierung, Experimente und Deployment – in einen einzelnen kontextbewussten Agenten. Auf dem MLE-Benchmark (2025) erreicht Operand Quant neue State-of-the-Art-Ergebnisse mit einer Gesamtmedaillenquote von 0,3956 ± 0,0565 bei 75 Problemen, was die höchste jemals in allen bewerteten Systemen dokumentierte Leistung darstellt. Die Architektur demonstriert, dass ein linearer, nicht-blockierender Agent, der in einer kontrollierten IDE-Umgebung autonom läuft, Multi-Agent- und Orchestrierungssysteme unter denselben Einschränkungen übertreffen kann.
Die Automatisierung von Machine-Learning-Engineering (MLE)-Pipelines ist zu einem Kernziel der Agent-AI-Forschung geworden. Bestehende Systeme verlassen sich hauptsächlich auf Multi-Agent-Orchestrierung, bei der spezialisierte Agenten unabhängig Aufgaben wie Datenanalyse, Modellierung, Evaluierung und Deployment bearbeiten.
Operand Quant erforscht ein alternatives Paradigma: Ein einzelner autonomer Agent beobachtet, plant, bearbeitet, führt aus und evaluiert kontinuierlich innerhalb seiner integrierten Entwicklungsumgebung (IDE). Das Designkonzept geht davon aus, dass End-to-End-Kontextkontinuität zuverlässige und effiziente Leistung ohne verteilte Orchestrierung ermöglichen kann.
Vorschlag einer Single-Agent-MLE-Architektur: Erstmals systematisch nachgewiesen, dass ein Single-Agent Multi-Agent-Systeme bei MLE-Aufgaben übertreffen kann
Entwurf eines nicht-blockierenden Ausführungsmechanismus: Implementierung von Concurrent-Processing-Fähigkeiten mit Unterstützung für asynchrone Notebooks und Skriptausführung
Einführung der Deep-Thinking-Integration: Linderung von Kontextabweichungen in langen Inferenzsitzungen durch Multi-Modell-Integration
Erreichung von SOTA-Leistung: Neuer Höchststand auf MLE-Benchmark 2025 (39,56% Medaillenquote)
Vollständige Reproduzierbarkeit: Veröffentlichung aller Experimentprotokolle, Code und Evaluierungsmaterialien
Große Sprachmodelle zeigen Kontextabweichungen, d.h. abnehmende Inferenzflexibilität mit zunehmender Prompt-Länge. In langen Inferenzsitzungen können Modelle Tunnelblick entwickeln und die Fähigkeit zum Debuggen oder Neubewertung früherer Annahmen verringern.
Wenn der Agent auf Inferenzengpässe trifft, delegiert er das Problem an eine hochkapazitive Modellintegration:
GPT-5
Claude-4.1 Opus
Grok-4
Gemini 2.5 Pro
Diese Modelle generieren unabhängig Analysen oder Hypothesen, deren Ausgaben dann zu einer einheitlichen "Expertenbewertung" synthetisiert werden, die als Beratungseingabe in den Inferenzkontext des Agenten reintegriert wird.
Die folgenden Aufgaben schlugen aufgrund von Daten- oder Umgebungsproblemen fehl und werden in allen Seeds als "Keine Medaille" gemeldet:
3D Object Detection for Autonomous Vehicles
AI4Code
Billion Word Imputation
BMS Molecular Translation
Google Research Identify Contrails
HMS Harmful Brain Activity Classification
Und 11 weitere Aufgaben
Ein Ausreißer – Multi-Modal Gesture Recognition – wurde ausgeschlossen, da ein Datensatz-Leak-Fehler erkannt wurde, der zu ungültigen perfekten Scores führte.
Single-Agent-Vorteile: Einheitliche Kontextinferenz und deterministische Zustandspersistierung sind ausreichend für wettbewerbsfähige Leistung ohne verteilte Koordination
Effektivität nicht-blockierender Ausführung: Parallele Verarbeitungsfähigkeiten verbessern die Ressourcennutzungseffizienz erheblich
Wert der Deep-Thinking-Integration: Multi-Modell-Integration lindert effektiv Kontextabweichungen in langen Inferenzsitzungen
Operand Quant etabliert einen neuen State-of-the-Art im Bereich des autonomen Machine-Learning-Engineering. Die Gesamtpunktzahl von 0,3956 ± 0,0565 platziert es an der Spitze der MLE-Benchmark-2025-Rangliste und übertrifft Single-Agent- und Multi-Agent-Baselines unter identischen Governance-Bedingungen. Der Erfolg demonstriert, dass autonome MLE-Systeme führende Leistung mit einer einheitlichen Single-Agent-Architektur basierend auf kontinuierlicher Inferenz, paralleler Ausführung und strukturiertem Kontextmanagement erreichen können.
Starke Architektur-Innovation: Erstmals systematisch nachgewiesen, dass Single-Agents bei MLE-Aufgaben überlegen sind, was das Multi-Agent-Paradigma in Frage stellt
Durchdachtes technisches Design: Nicht-blockierende Ausführung, Deep-Thinking-Integration und andere Mechanismen sind gut durchdacht und lösen praktische Probleme effektiv
Umfangreiche und strenge Experimente: Strikte Einhaltung von Benchmark-Protokollen mit überzeugenden Ergebnissen
Ausgezeichnete Reproduzierbarkeit: Vollständige Bereitstellung von Protokollen, Code und Evaluierungsmaterialien
Signifikante Leistungsverbesserung: Deutliche SOTA-Ergebnisse auf Standard-Benchmarks
Der Artikel zitiert wichtige Arbeiten im relevanten Bereich, einschließlich MLE-Benchmark-Tests, AutoML-GPT-Serie, SWE-agent, verschiedene Agent-Frameworks und bietet damit eine solide theoretische Grundlage und Vergleichsbaselines.
Gesamtbewertung: Dies ist ein Artikel mit bedeutenden Beiträgen im Bereich des autonomen Machine-Learning-Engineering. Durch durchdachtes Single-Agent-Architektur-Design und strenge experimentelle Validierung stellt er erfolgreich das Multi-Agent-Paradigma in Frage und bietet neue Perspektiven für die Entwicklung dieses Feldes. Trotz einiger Einschränkungen machen die technologischen Innovationen und Leistungsverbesserungen ihn zu einem wichtigen Meilenstein im Bereich.