Operand Quant: A Single-Agent Architecture for Autonomous Machine Learning Engineering
Sahney, Gorthi, Åastowski et al.
We present Operand Quant, a single-agent, IDE-based architecture for autonomous machine learning engineering (MLE). Operand Quant departs from conventional multi-agent orchestration frameworks by consolidating all MLE lifecycle stages -- exploration, modeling, experimentation, and deployment -- within a single, context-aware agent. On the MLE-Benchmark (2025), Operand Quant achieved a new state-of-the-art (SOTA) result, with an overall medal rate of 0.3956 +/- 0.0565 across 75 problems -- the highest recorded performance among all evaluated systems to date. The architecture demonstrates that a linear, non-blocking agent, operating autonomously within a controlled IDE environment, can outperform multi-agent and orchestrated systems under identical constraints.
academic
Operand Quant : Une Architecture Mono-Agent pour l'Ingénierie Autonome du Machine Learning
Cet article propose Operand Quant, une architecture mono-agent autonome basée sur IDE pour l'ingénierie du machine learning. Contrairement aux cadres d'orchestration multi-agents traditionnels, Operand Quant intègre toutes les phases du cycle de vie de l'ingénierie du machine learning — exploration, modélisation, expérimentation et déploiement — au sein d'un agent unique conscient du contexte. Sur MLE-Benchmark (2025), Operand Quant atteint des résultats à l'état de l'art, avec un taux de médailles global de 0,3956 ± 0,0565 sur 75 problèmes, représentant la performance la plus élevée jamais enregistrée parmi tous les systèmes évalués. Cette architecture démontre qu'un agent linéaire et non-bloquant s'exécutant de manière autonome dans un environnement IDE contrôlé peut surpasser les systèmes multi-agents et d'orchestration dans les mêmes contraintes.
L'automatisation des pipelines d'ingénierie du machine learning (MLE) est devenue un objectif central de la recherche en IA multi-agents. Les systèmes existants s'appuient principalement sur l'orchestration multi-agents, où des agents spécialisés traitent indépendamment des tâches telles que l'analyse de données, la modélisation, l'évaluation et le déploiement.
Coûts de coordination élevés : Bien que les cadres multi-agents permettent la parallélisation, ils génèrent souvent des frais de coordination importants
Fragmentation contextuelle : La transmission de contexte entre agents entraîne facilement une perte d'information
Erreurs de synchronisation : Les problèmes de synchronisation dans les systèmes distribués affectent les performances globales
Incohérence d'état : Plusieurs agents maintiennent des vues d'état différentes
Operand Quant explore un paradigme alternatif : un agent autonome unique qui observe, planifie, édite, exécute et évalue continuellement au sein de son environnement de développement intégré (IDE). Cette conception repose sur l'hypothèse que la continuité contextuelle de bout en bout peut produire des performances fiables et efficaces sans nécessiter d'orchestration distribuée.
Proposition d'une architecture mono-agent pour MLE : Première démonstration systématique qu'un agent unique peut surpasser les systèmes multi-agents sur les tâches MLE
Conception d'un mécanisme d'exécution non-bloquant : Implémentation de capacités de traitement concurrent supportant l'exécution asynchrone de notebooks et de scripts
Introduction d'une intégration de réflexion profonde : Atténuation des biais contextuels dans les sessions de raisonnement long par intégration multi-modèles
Réalisation de performances SOTA : Établissement d'un nouveau record sur MLE-Benchmark 2025 (taux de médailles de 39,56%)
Fourniture d'une reproductibilité complète : Publication de tous les journaux d'expérimentation, du code et des matériaux d'évaluation
Entrée : Description d'un problème de machine learning et ensemble de données
Sortie : Solution ML complète incluant l'analyse de données, l'entraînement du modèle, l'évaluation et les prédictions finales
Contraintes : Temps d'exécution de 24 heures, pas d'accès réseau, environnement matériel standardisé
Les grands modèles de langage présentent un biais contextuel, c'est-à-dire une réduction de la flexibilité du raisonnement à mesure que la longueur du prompt augmente. Dans les sessions de raisonnement long, le modèle peut développer une vision en tunnel, réduisant la capacité de débogage ou de réévaluation des hypothèses antérieures.
Lorsque l'agent rencontre un goulot d'étranglement de raisonnement, le problème est délégué à une intégration de modèles haute capacité :
GPT-5
Claude-4.1 Opus
Grok-4
Gemini 2.5 Pro
Ces modèles génèrent indépendamment des analyses ou des hypothèses, dont les sorties sont synthétisées en un « examen d'experts » unifié, réintroduit comme entrée consultative dans le contexte de raisonnement de l'agent.
Les tâches suivantes ont échoué en raison de problèmes de données ou d'environnement, signalées comme « sans médaille » dans toutes les graines :
3D Object Detection for Autonomous Vehicles
AI4Code
Billion Word Imputation
BMS Molecular Translation
Google Research Identify Contrails
HMS Harmful Brain Activity Classification
Et 11 autres tâches
Une valeur aberrante — Multi-Modal Gesture Recognition — a été exclue en raison de la détection d'une erreur de fuite de données entraînant un score parfait invalide.
Avantages du mono-agent : Le raisonnement contextuel unifié et la persistance d'état déterministe suffisent à obtenir des performances compétitives sans dépendre de la coordination distribuée
Efficacité de l'exécution non-bloquante : Les capacités de traitement concurrent améliorent significativement l'utilisation des ressources
Valeur de l'intégration de réflexion profonde : L'intégration multi-modèles atténue efficacement les biais contextuels dans les sessions de raisonnement long
Operand Quant établit un nouvel état de l'art dans le domaine de l'ingénierie autonome du machine learning. Un score global de 0,3956 ± 0,0565 le place en première position du classement MLE-Benchmark 2025, surpassant les lignes de base mono-agents et multi-agents dans les mêmes conditions de gouvernance. Le succès démontre que les systèmes MLE autonomes peuvent atteindre des performances de pointe en utilisant une architecture mono-agent unifiée basée sur le raisonnement continu, l'exécution concurrente et la gestion contextuelle structurée.
Innovation architecturale forte : Première démonstration systématique de la supériorité du mono-agent sur les tâches MLE, remettant en question la domination du paradigme multi-agents
Conception technique ingénieuse : Mécanismes tels que l'exécution non-bloquante et l'intégration de réflexion profonde bien conçus et résolvant efficacement les problèmes pratiques
Expérimentation suffisamment rigoureuse : Respect strict des protocoles de benchmark, résultats hautement convaincants
Reproductibilité excellente : Fourniture complète de journaux, code et matériaux d'évaluation
Amélioration de performance significative : Résultats SOTA clairs sur le benchmark standard
Contribution académique : Fournit de nouvelles perspectives pour la conception d'architectures d'agents, susceptible d'influencer les directions de recherche futures
Valeur pratique : Application directe dans l'automatisation de l'ingénierie du machine learning
Signification méthodologique : Démontre que dans certaines tâches, une architecture simplifiée peut être plus efficace qu'une orchestration complexe
L'article cite les travaux importants du domaine connexe, y compris le benchmark MLE-Benchmark, la série AutoML-GPT, SWE-agent, divers cadres d'agents, etc., fournissant une base théorique solide et des lignes de base de comparaison.
Évaluation Globale : Cet article apporte une contribution importante au domaine de l'ingénierie autonome du machine learning. Par une conception architecturale ingénieuse du mono-agent et une validation expérimentale rigoureuse, il remet avec succès en question la domination du paradigme multi-agents, offrant de nouvelles perspectives et directions pour le développement du domaine. Malgré certaines limitations, ses innovations techniques et améliorations de performance en font un jalon important du domaine.