2025-11-20T06:40:14.795821

Operand Quant: A Single-Agent Architecture for Autonomous Machine Learning Engineering

Sahney, Gorthi, Łastowski et al.
We present Operand Quant, a single-agent, IDE-based architecture for autonomous machine learning engineering (MLE). Operand Quant departs from conventional multi-agent orchestration frameworks by consolidating all MLE lifecycle stages -- exploration, modeling, experimentation, and deployment -- within a single, context-aware agent. On the MLE-Benchmark (2025), Operand Quant achieved a new state-of-the-art (SOTA) result, with an overall medal rate of 0.3956 +/- 0.0565 across 75 problems -- the highest recorded performance among all evaluated systems to date. The architecture demonstrates that a linear, non-blocking agent, operating autonomously within a controlled IDE environment, can outperform multi-agent and orchestrated systems under identical constraints.
academic

Operand Quant : Une Architecture Mono-Agent pour l'Ingénierie Autonome du Machine Learning

Informations Fondamentales

  • ID de l'article : 2510.11694
  • Titre : Operand Quant: A Single-Agent Architecture for Autonomous Machine Learning Engineering
  • Auteurs : Arjun Sahney, Ram Gorthi, Cezary Łastowski, Javier Vega (Operand Research)
  • Classification : cs.AI
  • Date de publication : Octobre 2025
  • Lien de l'article : https://arxiv.org/abs/2510.11694

Résumé

Cet article propose Operand Quant, une architecture mono-agent autonome basée sur IDE pour l'ingénierie du machine learning. Contrairement aux cadres d'orchestration multi-agents traditionnels, Operand Quant intègre toutes les phases du cycle de vie de l'ingénierie du machine learning — exploration, modélisation, expérimentation et déploiement — au sein d'un agent unique conscient du contexte. Sur MLE-Benchmark (2025), Operand Quant atteint des résultats à l'état de l'art, avec un taux de médailles global de 0,3956 ± 0,0565 sur 75 problèmes, représentant la performance la plus élevée jamais enregistrée parmi tous les systèmes évalués. Cette architecture démontre qu'un agent linéaire et non-bloquant s'exécutant de manière autonome dans un environnement IDE contrôlé peut surpasser les systèmes multi-agents et d'orchestration dans les mêmes contraintes.

Contexte et Motivation de la Recherche

Définition du Problème

L'automatisation des pipelines d'ingénierie du machine learning (MLE) est devenue un objectif central de la recherche en IA multi-agents. Les systèmes existants s'appuient principalement sur l'orchestration multi-agents, où des agents spécialisés traitent indépendamment des tâches telles que l'analyse de données, la modélisation, l'évaluation et le déploiement.

Limitations des Approches Existantes

  1. Coûts de coordination élevés : Bien que les cadres multi-agents permettent la parallélisation, ils génèrent souvent des frais de coordination importants
  2. Fragmentation contextuelle : La transmission de contexte entre agents entraîne facilement une perte d'information
  3. Erreurs de synchronisation : Les problèmes de synchronisation dans les systèmes distribués affectent les performances globales
  4. Incohérence d'état : Plusieurs agents maintiennent des vues d'état différentes

Motivation de la Recherche

Operand Quant explore un paradigme alternatif : un agent autonome unique qui observe, planifie, édite, exécute et évalue continuellement au sein de son environnement de développement intégré (IDE). Cette conception repose sur l'hypothèse que la continuité contextuelle de bout en bout peut produire des performances fiables et efficaces sans nécessiter d'orchestration distribuée.

Contributions Principales

  1. Proposition d'une architecture mono-agent pour MLE : Première démonstration systématique qu'un agent unique peut surpasser les systèmes multi-agents sur les tâches MLE
  2. Conception d'un mécanisme d'exécution non-bloquant : Implémentation de capacités de traitement concurrent supportant l'exécution asynchrone de notebooks et de scripts
  3. Introduction d'une intégration de réflexion profonde : Atténuation des biais contextuels dans les sessions de raisonnement long par intégration multi-modèles
  4. Réalisation de performances SOTA : Établissement d'un nouveau record sur MLE-Benchmark 2025 (taux de médailles de 39,56%)
  5. Fourniture d'une reproductibilité complète : Publication de tous les journaux d'expérimentation, du code et des matériaux d'évaluation

Détails de la Méthode

Définition de la Tâche

Entrée : Description d'un problème de machine learning et ensemble de données Sortie : Solution ML complète incluant l'analyse de données, l'entraînement du modèle, l'évaluation et les prédictions finales Contraintes : Temps d'exécution de 24 heures, pas d'accès réseau, environnement matériel standardisé

Architecture du Modèle

1. Boucle Principale du Mono-Agent

Chaque cycle d'inférence comprend les étapes suivantes :

  1. Observation : Acquisition de l'état actuel de l'IDE (fichiers ouverts, état du noyau, processus actifs et sorties)
  2. Décision : Génération de commandes JSON structurées conformes aux schémas de validation
  3. Exécution : Validation asynchrone et exécution des opérations spécifiées
  4. Persistance : Sauvegarde des résultats sur disque et intégration à l'historique
  5. Compression : Déclenchement de la compression si la limite de longueur contextuelle est approchée

2. Exécution Concurrente Non-Bloquante

if primary_notebook and primary_notebook.is_cell_executing():
    continue_result = primary_notebook.continue_execution_if_running()
    if continue_result["status"] == "completed":
        final_output = continue_result.get("output", "[No Output]")
    elif continue_result["status"] == "still_executing":
        current_output = continue_result["current_output"]
        duration = continue_result["execution_duration_seconds"]

Cela permet à l'agent de continuer l'édition, la planification ou l'analyse des sorties pendant l'exécution de l'entraînement.

3. Logique d'Interruption Dynamique

L'exécution est interrompue dans les cas suivants :

  • Détection de convergence à partir de métriques de perte ou de validation
  • Dépassement des seuils de mémoire ou de temps d'exécution
  • Apparition de motifs de non-convergence dans les journaux ou erreurs

4. Persistance d'État et Compression

Adoption d'une stratégie de compression mémoire hiérarchisée :

  1. Exclusion du contenu volumineux des notebooks
  2. Utilisation d'outils dédiés pour résumer les anciens tours
  3. Vérification de l'exactitude des résumés
  4. Remplacement de l'historique original après vérification réussie

Mécanisme d'Intégration de Réflexion Profonde

Motivation

Les grands modèles de langage présentent un biais contextuel, c'est-à-dire une réduction de la flexibilité du raisonnement à mesure que la longueur du prompt augmente. Dans les sessions de raisonnement long, le modèle peut développer une vision en tunnel, réduisant la capacité de débogage ou de réévaluation des hypothèses antérieures.

Raisonnement Intégré

Lorsque l'agent rencontre un goulot d'étranglement de raisonnement, le problème est délégué à une intégration de modèles haute capacité :

  • GPT-5
  • Claude-4.1 Opus
  • Grok-4
  • Gemini 2.5 Pro

Ces modèles génèrent indépendamment des analyses ou des hypothèses, dont les sorties sont synthétisées en un « examen d'experts » unifié, réintroduit comme entrée consultative dans le contexte de raisonnement de l'agent.

Configuration Expérimentale

Ensemble de Données

MLE-Benchmark 2025 : Contient 75 problèmes de machine learning répartis en trois niveaux de difficulté :

  • Lite : 22 problèmes
  • Medium : 38 problèmes
  • Hard : 15 problèmes

Métriques d'Évaluation

Taux de Médailles (Medal Rate) : Proportion de problèmes résolus avec succès et obtenant une médaille, utilisée comme métrique d'évaluation principale

Gouvernance du Benchmark

Respect strict des exigences de gouvernance de MLE-Benchmark 2025 :

  • Pas d'accès Internet ou API
  • Outils limités à l'environnement local
  • Soumission standardisée via le point d'accès submit_final_answer
  • Fenêtre d'exécution limitée à 24 heures

Configuration Matérielle

  • Sous-ensemble Lite : VM GCP (234 GB RAM, 36 vCPUs, Tesla T4)
  • Sous-ensembles Medium/Hard : Azure NV36AdsA10v5 (matériel officiel MLE)

Méthodes de Comparaison

  • InternAgent (DeepSeek-R1)
  • R&D-Agent (GPT-5)
  • Neo Multi-Agent
  • R&D-Agent (o3 + GPT-4.1)

Résultats Expérimentaux

Résultats Principaux

Sous-ensembleTaux de Médailles (Moyenne ± Écart-type)Nombre de Problèmes
Global0,3956 ± 0,056575
Lite0,6364 ± 0,105022
Medium0,3333 ± 0,076538
Hard0,2000 ± 0,106915

Comparaison du Classement

AgentLiteMoy.DifficileTousHeuresDate
Operand Quant63,6433,3320,0039,562428-09
InternAgent (DeepSeek-R1)62,1226,3224,4436,441212-09
R&D-Agent (GPT-5)68,1821,0522,2235,111226-09
Neo Multi-Agent48,4829,8224,4434,223628-07
R&D-Agent (o3 + GPT-4.1)51,5219,3026,6730,222415-08

Analyse des Cas d'Échec

Les tâches suivantes ont échoué en raison de problèmes de données ou d'environnement, signalées comme « sans médaille » dans toutes les graines :

  • 3D Object Detection for Autonomous Vehicles
  • AI4Code
  • Billion Word Imputation
  • BMS Molecular Translation
  • Google Research Identify Contrails
  • HMS Harmful Brain Activity Classification
  • Et 11 autres tâches

Une valeur aberrante — Multi-Modal Gesture Recognition — a été exclue en raison de la détection d'une erreur de fuite de données entraînant un score parfait invalide.

Conclusions Expérimentales

  1. Avantages du mono-agent : Le raisonnement contextuel unifié et la persistance d'état déterministe suffisent à obtenir des performances compétitives sans dépendre de la coordination distribuée
  2. Efficacité de l'exécution non-bloquante : Les capacités de traitement concurrent améliorent significativement l'utilisation des ressources
  3. Valeur de l'intégration de réflexion profonde : L'intégration multi-modèles atténue efficacement les biais contextuels dans les sessions de raisonnement long

Travaux Connexes

Systèmes Multi-Agents pour l'Expérimentation en Machine Learning

  • Série AutoML-GPT : Couplage de planificateurs LLM avec des exécuteurs augmentés d'outils
  • AutoML-Agent : Intégration d'agents spécialisés couvrant l'acquisition de données jusqu'au déploiement
  • MLAgentBench : Formalisation de tâches où les agents doivent exécuter des expériences ML réelles

Systèmes de Programmation Mono-Agent

  • SWE-agent : Introduction d'une interface agent-ordinateur (ACI) permettant la navigation, l'édition et l'exécution au niveau du référentiel
  • CodeT5/CodeT5+ : Amélioration de la qualité d'édition/génération par préentraînement sensible aux identificateurs

Approches AutoML Traditionnelles

  • AutoGluon : Ensembles d'empilement multi-niveaux
  • H2O AutoML : Recherche aléatoire rapide avec empilement d'ensembles

Cadres d'IA Multi-Agents

  • LangGraph : Agents avec état, longue durée de vie et flux de contrôle structuré en graphe
  • AutoGen/AG2 : Mode de conversation multi-agents et flux de travail pilotés par événements
  • CrewAI : « Équipes » multi-agents basées sur les rôles

Conclusion et Discussion

Conclusions Principales

Operand Quant établit un nouvel état de l'art dans le domaine de l'ingénierie autonome du machine learning. Un score global de 0,3956 ± 0,0565 le place en première position du classement MLE-Benchmark 2025, surpassant les lignes de base mono-agents et multi-agents dans les mêmes conditions de gouvernance. Le succès démontre que les systèmes MLE autonomes peuvent atteindre des performances de pointe en utilisant une architecture mono-agent unifiée basée sur le raisonnement continu, l'exécution concurrente et la gestion contextuelle structurée.

Limitations

  1. Dégradation contextuelle : Malgré les mécanismes de compression, le raisonnement prolongé peut entraîner une dégradation de la qualité contextuelle
  2. Limitations d'expressivité : La règle d'un seul outil par tour limite l'expressivité des opérations complexes
  3. Coûts de calcul élevés : L'exécution de 24 heures entraîne des coûts de calcul importants
  4. Capacité de tolérance aux pannes insuffisante : Tolérance limitée aux erreurs d'environnement ou de noyau

Directions Futures

  1. Raisonnement d'intégration adaptatif : Ajustement dynamique des stratégies d'intégration
  2. Compression dynamique : Gestion contextuelle plus intelligente
  3. Exécution tolérante aux pannes : Amélioration de la robustesse du système

Évaluation Approfondie

Points Forts

  1. Innovation architecturale forte : Première démonstration systématique de la supériorité du mono-agent sur les tâches MLE, remettant en question la domination du paradigme multi-agents
  2. Conception technique ingénieuse : Mécanismes tels que l'exécution non-bloquante et l'intégration de réflexion profonde bien conçus et résolvant efficacement les problèmes pratiques
  3. Expérimentation suffisamment rigoureuse : Respect strict des protocoles de benchmark, résultats hautement convaincants
  4. Reproductibilité excellente : Fourniture complète de journaux, code et matériaux d'évaluation
  5. Amélioration de performance significative : Résultats SOTA clairs sur le benchmark standard

Insuffisances

  1. Analyse théorique insuffisante : Manque d'analyse théorique approfondie sur les raisons de la supériorité du mono-agent par rapport au multi-agent
  2. Capacité de généralisation inconnue : Évaluation uniquement sur MLE-Benchmark, performance sur d'autres domaines inconnue
  3. Problèmes d'efficacité de calcul : Temps d'exécution de 24 heures plus long que certaines méthodes de base, efficacité à améliorer
  4. Mécanisme de gestion d'erreurs : Stratégies de gestion des défaillances système relativement simples
  5. Dépendance du mécanisme d'intégration : L'intégration de réflexion profonde dépend de plusieurs grands modèles, augmentant la complexité du système

Impact

  1. Contribution académique : Fournit de nouvelles perspectives pour la conception d'architectures d'agents, susceptible d'influencer les directions de recherche futures
  2. Valeur pratique : Application directe dans l'automatisation de l'ingénierie du machine learning
  3. Signification méthodologique : Démontre que dans certaines tâches, une architecture simplifiée peut être plus efficace qu'une orchestration complexe

Scénarios d'Application

  1. Automatisation de l'ingénierie ML : Approprié pour les scénarios nécessitant des solutions ML de bout en bout
  2. Expérimentation en recherche : Utilisable pour le prototypage et l'expérimentation rapides
  3. Formation et éducation : Implémentation de référence pour l'automatisation de l'ingénierie ML
  4. Environnements restreints : Adapté aux environnements hors ligne sans accès réseau

Références

L'article cite les travaux importants du domaine connexe, y compris le benchmark MLE-Benchmark, la série AutoML-GPT, SWE-agent, divers cadres d'agents, etc., fournissant une base théorique solide et des lignes de base de comparaison.


Évaluation Globale : Cet article apporte une contribution importante au domaine de l'ingénierie autonome du machine learning. Par une conception architecturale ingénieuse du mono-agent et une validation expérimentale rigoureuse, il remet avec succès en question la domination du paradigme multi-agents, offrant de nouvelles perspectives et directions pour le développement du domaine. Malgré certaines limitations, ses innovations techniques et améliorations de performance en font un jalon important du domaine.