2025-11-20T06:40:14.795821

Operand Quant: A Single-Agent Architecture for Autonomous Machine Learning Engineering

Sahney, Gorthi, Åastowski et al.

We present Operand Quant, a single-agent, IDE-based architecture for autonomous machine learning engineering (MLE). Operand Quant departs from conventional multi-agent orchestration frameworks by consolidating all MLE lifecycle stages -- exploration, modeling, experimentation, and deployment -- within a single, context-aware agent. On the MLE-Benchmark (2025), Operand Quant achieved a new state-of-the-art (SOTA) result, with an overall medal rate of 0.3956 +/- 0.0565 across 75 problems -- the highest recorded performance among all evaluated systems to date. The architecture demonstrates that a linear, non-blocking agent, operating autonomously within a controlled IDE environment, can outperform multi-agent and orchestrated systems under identical constraints.

academic

Operand Quant : Une Architecture Mono-Agent pour l'Ingénierie Autonome du Machine Learning

Informations Fondamentales

ID de l'article : 2510.11694
Titre : Operand Quant: A Single-Agent Architecture for Autonomous Machine Learning Engineering
Auteurs : Arjun Sahney, Ram Gorthi, Cezary Łastowski, Javier Vega (Operand Research)
Classification : cs.AI
Date de publication : Octobre 2025
Lien de l'article : https://arxiv.org/abs/2510.11694

Résumé

Cet article propose Operand Quant, une architecture mono-agent autonome basée sur IDE pour l'ingénierie du machine learning. Contrairement aux cadres d'orchestration multi-agents traditionnels, Operand Quant intègre toutes les phases du cycle de vie de l'ingénierie du machine learning — exploration, modélisation, expérimentation et déploiement — au sein d'un agent unique conscient du contexte. Sur MLE-Benchmark (2025), Operand Quant atteint des résultats à l'état de l'art, avec un taux de médailles global de 0,3956 ± 0,0565 sur 75 problèmes, représentant la performance la plus élevée jamais enregistrée parmi tous les systèmes évalués. Cette architecture démontre qu'un agent linéaire et non-bloquant s'exécutant de manière autonome dans un environnement IDE contrôlé peut surpasser les systèmes multi-agents et d'orchestration dans les mêmes contraintes.

Contexte et Motivation de la Recherche

Définition du Problème

L'automatisation des pipelines d'ingénierie du machine learning (MLE) est devenue un objectif central de la recherche en IA multi-agents. Les systèmes existants s'appuient principalement sur l'orchestration multi-agents, où des agents spécialisés traitent indépendamment des tâches telles que l'analyse de données, la modélisation, l'évaluation et le déploiement.

Limitations des Approches Existantes

Coûts de coordination élevés : Bien que les cadres multi-agents permettent la parallélisation, ils génèrent souvent des frais de coordination importants
Fragmentation contextuelle : La transmission de contexte entre agents entraîne facilement une perte d'information
Erreurs de synchronisation : Les problèmes de synchronisation dans les systèmes distribués affectent les performances globales
Incohérence d'état : Plusieurs agents maintiennent des vues d'état différentes

Motivation de la Recherche

Operand Quant explore un paradigme alternatif : un agent autonome unique qui observe, planifie, édite, exécute et évalue continuellement au sein de son environnement de développement intégré (IDE). Cette conception repose sur l'hypothèse que la continuité contextuelle de bout en bout peut produire des performances fiables et efficaces sans nécessiter d'orchestration distribuée.

Contributions Principales

Proposition d'une architecture mono-agent pour MLE : Première démonstration systématique qu'un agent unique peut surpasser les systèmes multi-agents sur les tâches MLE
Conception d'un mécanisme d'exécution non-bloquant : Implémentation de capacités de traitement concurrent supportant l'exécution asynchrone de notebooks et de scripts
Introduction d'une intégration de réflexion profonde : Atténuation des biais contextuels dans les sessions de raisonnement long par intégration multi-modèles
Réalisation de performances SOTA : Établissement d'un nouveau record sur MLE-Benchmark 2025 (taux de médailles de 39,56%)
Fourniture d'une reproductibilité complète : Publication de tous les journaux d'expérimentation, du code et des matériaux d'évaluation

Détails de la Méthode

Définition de la Tâche

Entrée : Description d'un problème de machine learning et ensemble de données Sortie : Solution ML complète incluant l'analyse de données, l'entraînement du modèle, l'évaluation et les prédictions finales Contraintes : Temps d'exécution de 24 heures, pas d'accès réseau, environnement matériel standardisé

Architecture du Modèle

1. Boucle Principale du Mono-Agent

Chaque cycle d'inférence comprend les étapes suivantes :

Observation : Acquisition de l'état actuel de l'IDE (fichiers ouverts, état du noyau, processus actifs et sorties)
Décision : Génération de commandes JSON structurées conformes aux schémas de validation
Exécution : Validation asynchrone et exécution des opérations spécifiées
Persistance : Sauvegarde des résultats sur disque et intégration à l'historique
Compression : Déclenchement de la compression si la limite de longueur contextuelle est approchée

2. Exécution Concurrente Non-Bloquante

if primary_notebook and primary_notebook.is_cell_executing():
    continue_result = primary_notebook.continue_execution_if_running()
    if continue_result["status"] == "completed":
        final_output = continue_result.get("output", "[No Output]")
    elif continue_result["status"] == "still_executing":
        current_output = continue_result["current_output"]
        duration = continue_result["execution_duration_seconds"]

Cela permet à l'agent de continuer l'édition, la planification ou l'analyse des sorties pendant l'exécution de l'entraînement.

3. Logique d'Interruption Dynamique

L'exécution est interrompue dans les cas suivants :

Détection de convergence à partir de métriques de perte ou de validation
Dépassement des seuils de mémoire ou de temps d'exécution
Apparition de motifs de non-convergence dans les journaux ou erreurs

4. Persistance d'État et Compression

Adoption d'une stratégie de compression mémoire hiérarchisée :

Exclusion du contenu volumineux des notebooks
Utilisation d'outils dédiés pour résumer les anciens tours
Vérification de l'exactitude des résumés
Remplacement de l'historique original après vérification réussie

Mécanisme d'Intégration de Réflexion Profonde

Motivation

Les grands modèles de langage présentent un biais contextuel, c'est-à-dire une réduction de la flexibilité du raisonnement à mesure que la longueur du prompt augmente. Dans les sessions de raisonnement long, le modèle peut développer une vision en tunnel, réduisant la capacité de débogage ou de réévaluation des hypothèses antérieures.

Raisonnement Intégré

Lorsque l'agent rencontre un goulot d'étranglement de raisonnement, le problème est délégué à une intégration de modèles haute capacité :

GPT-5
Claude-4.1 Opus
Grok-4
Gemini 2.5 Pro

Ces modèles génèrent indépendamment des analyses ou des hypothèses, dont les sorties sont synthétisées en un « examen d'experts » unifié, réintroduit comme entrée consultative dans le contexte de raisonnement de l'agent.

Configuration Expérimentale

Ensemble de Données

MLE-Benchmark 2025 : Contient 75 problèmes de machine learning répartis en trois niveaux de difficulté :

Lite : 22 problèmes
Medium : 38 problèmes
Hard : 15 problèmes

Métriques d'Évaluation

Taux de Médailles (Medal Rate) : Proportion de problèmes résolus avec succès et obtenant une médaille, utilisée comme métrique d'évaluation principale

Gouvernance du Benchmark

Respect strict des exigences de gouvernance de MLE-Benchmark 2025 :

Pas d'accès Internet ou API
Outils limités à l'environnement local
Soumission standardisée via le point d'accès submit_final_answer
Fenêtre d'exécution limitée à 24 heures

Configuration Matérielle

Sous-ensemble Lite : VM GCP (234 GB RAM, 36 vCPUs, Tesla T4)
Sous-ensembles Medium/Hard : Azure NV36AdsA10v5 (matériel officiel MLE)

Méthodes de Comparaison

InternAgent (DeepSeek-R1)
R&D-Agent (GPT-5)
Neo Multi-Agent
R&D-Agent (o3 + GPT-4.1)

Résultats Expérimentaux

Résultats Principaux

Sous-ensemble	Taux de Médailles (Moyenne ± Écart-type)	Nombre de Problèmes
Global	0,3956 ± 0,0565	75
Lite	0,6364 ± 0,1050	22
Medium	0,3333 ± 0,0765	38
Hard	0,2000 ± 0,1069	15

Comparaison du Classement

Agent	Lite	Moy.	Difficile	Tous	Heures	Date
Operand Quant	63,64	33,33	20,00	39,56	24	28-09
InternAgent (DeepSeek-R1)	62,12	26,32	24,44	36,44	12	12-09
R&D-Agent (GPT-5)	68,18	21,05	22,22	35,11	12	26-09
Neo Multi-Agent	48,48	29,82	24,44	34,22	36	28-07
R&D-Agent (o3 + GPT-4.1)	51,52	19,30	26,67	30,22	24	15-08

Analyse des Cas d'Échec

Les tâches suivantes ont échoué en raison de problèmes de données ou d'environnement, signalées comme « sans médaille » dans toutes les graines :

3D Object Detection for Autonomous Vehicles
AI4Code
Billion Word Imputation
BMS Molecular Translation
Google Research Identify Contrails
HMS Harmful Brain Activity Classification
Et 11 autres tâches

Une valeur aberrante — Multi-Modal Gesture Recognition — a été exclue en raison de la détection d'une erreur de fuite de données entraînant un score parfait invalide.

Conclusions Expérimentales

Avantages du mono-agent : Le raisonnement contextuel unifié et la persistance d'état déterministe suffisent à obtenir des performances compétitives sans dépendre de la coordination distribuée
Efficacité de l'exécution non-bloquante : Les capacités de traitement concurrent améliorent significativement l'utilisation des ressources
Valeur de l'intégration de réflexion profonde : L'intégration multi-modèles atténue efficacement les biais contextuels dans les sessions de raisonnement long

Travaux Connexes

Systèmes Multi-Agents pour l'Expérimentation en Machine Learning

Série AutoML-GPT : Couplage de planificateurs LLM avec des exécuteurs augmentés d'outils
AutoML-Agent : Intégration d'agents spécialisés couvrant l'acquisition de données jusqu'au déploiement
MLAgentBench : Formalisation de tâches où les agents doivent exécuter des expériences ML réelles

Systèmes de Programmation Mono-Agent

SWE-agent : Introduction d'une interface agent-ordinateur (ACI) permettant la navigation, l'édition et l'exécution au niveau du référentiel
CodeT5/CodeT5+ : Amélioration de la qualité d'édition/génération par préentraînement sensible aux identificateurs

Approches AutoML Traditionnelles

AutoGluon : Ensembles d'empilement multi-niveaux
H2O AutoML : Recherche aléatoire rapide avec empilement d'ensembles

Cadres d'IA Multi-Agents

LangGraph : Agents avec état, longue durée de vie et flux de contrôle structuré en graphe
AutoGen/AG2 : Mode de conversation multi-agents et flux de travail pilotés par événements
CrewAI : « Équipes » multi-agents basées sur les rôles

Conclusion et Discussion

Conclusions Principales

Operand Quant établit un nouvel état de l'art dans le domaine de l'ingénierie autonome du machine learning. Un score global de 0,3956 ± 0,0565 le place en première position du classement MLE-Benchmark 2025, surpassant les lignes de base mono-agents et multi-agents dans les mêmes conditions de gouvernance. Le succès démontre que les systèmes MLE autonomes peuvent atteindre des performances de pointe en utilisant une architecture mono-agent unifiée basée sur le raisonnement continu, l'exécution concurrente et la gestion contextuelle structurée.

Limitations

Dégradation contextuelle : Malgré les mécanismes de compression, le raisonnement prolongé peut entraîner une dégradation de la qualité contextuelle
Limitations d'expressivité : La règle d'un seul outil par tour limite l'expressivité des opérations complexes
Coûts de calcul élevés : L'exécution de 24 heures entraîne des coûts de calcul importants
Capacité de tolérance aux pannes insuffisante : Tolérance limitée aux erreurs d'environnement ou de noyau

Directions Futures

Raisonnement d'intégration adaptatif : Ajustement dynamique des stratégies d'intégration
Compression dynamique : Gestion contextuelle plus intelligente
Exécution tolérante aux pannes : Amélioration de la robustesse du système

Évaluation Approfondie

Points Forts

Innovation architecturale forte : Première démonstration systématique de la supériorité du mono-agent sur les tâches MLE, remettant en question la domination du paradigme multi-agents
Conception technique ingénieuse : Mécanismes tels que l'exécution non-bloquante et l'intégration de réflexion profonde bien conçus et résolvant efficacement les problèmes pratiques
Expérimentation suffisamment rigoureuse : Respect strict des protocoles de benchmark, résultats hautement convaincants
Reproductibilité excellente : Fourniture complète de journaux, code et matériaux d'évaluation
Amélioration de performance significative : Résultats SOTA clairs sur le benchmark standard

Insuffisances

Analyse théorique insuffisante : Manque d'analyse théorique approfondie sur les raisons de la supériorité du mono-agent par rapport au multi-agent
Capacité de généralisation inconnue : Évaluation uniquement sur MLE-Benchmark, performance sur d'autres domaines inconnue
Problèmes d'efficacité de calcul : Temps d'exécution de 24 heures plus long que certaines méthodes de base, efficacité à améliorer
Mécanisme de gestion d'erreurs : Stratégies de gestion des défaillances système relativement simples
Dépendance du mécanisme d'intégration : L'intégration de réflexion profonde dépend de plusieurs grands modèles, augmentant la complexité du système

Impact

Contribution académique : Fournit de nouvelles perspectives pour la conception d'architectures d'agents, susceptible d'influencer les directions de recherche futures
Valeur pratique : Application directe dans l'automatisation de l'ingénierie du machine learning
Signification méthodologique : Démontre que dans certaines tâches, une architecture simplifiée peut être plus efficace qu'une orchestration complexe

Scénarios d'Application

Automatisation de l'ingénierie ML : Approprié pour les scénarios nécessitant des solutions ML de bout en bout
Expérimentation en recherche : Utilisable pour le prototypage et l'expérimentation rapides
Formation et éducation : Implémentation de référence pour l'automatisation de l'ingénierie ML
Environnements restreints : Adapté aux environnements hors ligne sans accès réseau

Références

L'article cite les travaux importants du domaine connexe, y compris le benchmark MLE-Benchmark, la série AutoML-GPT, SWE-agent, divers cadres d'agents, etc., fournissant une base théorique solide et des lignes de base de comparaison.

Évaluation Globale : Cet article apporte une contribution importante au domaine de l'ingénierie autonome du machine learning. Par une conception architecturale ingénieuse du mono-agent et une validation expérimentale rigoureuse, il remet avec succès en question la domination du paradigme multi-agents, offrant de nouvelles perspectives et directions pour le développement du domaine. Malgré certaines limitations, ses innovations techniques et améliorations de performance en font un jalon important du domaine.