Operand Quant: A Single-Agent Architecture for Autonomous Machine Learning Engineering
Sahney, Gorthi, Åastowski et al.
We present Operand Quant, a single-agent, IDE-based architecture for autonomous machine learning engineering (MLE). Operand Quant departs from conventional multi-agent orchestration frameworks by consolidating all MLE lifecycle stages -- exploration, modeling, experimentation, and deployment -- within a single, context-aware agent. On the MLE-Benchmark (2025), Operand Quant achieved a new state-of-the-art (SOTA) result, with an overall medal rate of 0.3956 +/- 0.0565 across 75 problems -- the highest recorded performance among all evaluated systems to date. The architecture demonstrates that a linear, non-blocking agent, operating autonomously within a controlled IDE environment, can outperform multi-agent and orchestrated systems under identical constraints.
academic
Operand Quant: Архитектура одного агента для автономной инженерии машинного обучения
В данной статье предлагается Operand Quant — архитектура одного автономного агента на основе IDE для инженерии машинного обучения. В отличие от традиционных многоагентных фреймворков оркестрации, Operand Quant интегрирует все этапы жизненного цикла инженерии машинного обучения — исследование, моделирование, экспериментирование и развёртывание — в единого контекстно-осведомлённого агента. На MLE-Benchmark (2025) Operand Quant достигает новых результатов уровня SOTA с общим коэффициентом медалей 0.3956 ± 0.0565 на 75 задачах, что является наивысшей производительностью, когда-либо зарегистрированной среди всех оцениваемых систем. Архитектура демонстрирует, что линейный, неблокирующий агент, работающий автономно в контролируемой среде IDE, может превосходить многоагентные и оркестрированные системы при одинаковых ограничениях.
Автоматизация конвейеров инженерии машинного обучения (MLE) стала центральной целью исследований в области агентного ИИ. Существующие системы в основном полагаются на многоагентную оркестрацию, где специализированные агенты независимо обрабатывают задачи анализа данных, моделирования, оценки и развёртывания.
Высокие затраты на координацию: Многоагентные фреймворки, хотя и позволяют параллелизировать работу, часто порождают значительные затраты на координацию
Фрагментация контекста: Передача контекста между агентами может привести к потере информации
Ошибки синхронизации: Проблемы синхронизации в распределённых системах влияют на общую производительность
Несогласованность состояния: Несколько агентов поддерживают различные представления состояния
Operand Quant исследует альтернативную парадигму: единый автономный агент, непрерывно наблюдающий, планирующий, редактирующий, выполняющий и оценивающий в своей интегрированной среде разработки (IDE). Данный подход предполагает, что сквозная непрерывность контекста может обеспечить надёжную и эффективную производительность без необходимости в распределённой оркестрации.
Предложена архитектура одного агента для MLE: Впервые систематически доказано, что одноагентная система может превосходить многоагентные системы в задачах MLE
Разработан механизм неблокирующего выполнения: Реализована возможность параллельной обработки с поддержкой асинхронного выполнения ноутбуков и скриптов
Внедрена интеграция глубокого мышления: Применена интеграция нескольких моделей для смягчения смещения контекста в длительных сеансах рассуждений
Достигнута производительность SOTA: Установлен новый рекорд на MLE-Benchmark 2025 (коэффициент медалей 39.56%)
Обеспечена полная воспроизводимость: Опубликованы все экспериментальные логи, код и материалы оценки
Входные данные: Описание задачи машинного обучения и набор данных
Выходные данные: Полное решение ML, включающее анализ данных, обучение модели, оценку и финальные предсказания
Ограничения: 24-часовое окно выполнения, отсутствие доступа в интернет, стандартизированная аппаратная среда
Большие языковые модели демонстрируют смещение контекста, то есть снижение гибкости рассуждений с увеличением длины подсказки. В длительных сеансах рассуждений модель может проявлять туннельное зрение, снижая способность к отладке или переоценке предыдущих предположений.
Когда агент сталкивается с узким местом в рассуждениях, проблема делегируется интеграции высокопроизводительных моделей:
GPT-5
Claude-4.1 Opus
Grok-4
Gemini 2.5 Pro
Эти модели независимо генерируют анализ или гипотезы, затем выходные данные синтезируются в единое "экспертное рецензирование", которое переинтегрируется в контекст рассуждений агента в качестве консультативного входа.
Следующие задачи не были решены из-за проблем с данными или окружением и отмечены как "без медали" во всех попытках:
3D Object Detection for Autonomous Vehicles
AI4Code
Billion Word Imputation
BMS Molecular Translation
Google Research Identify Contrails
HMS Harmful Brain Activity Classification
и 11 других задач
Один выброс — Multi-Modal Gesture Recognition — был исключён из-за обнаружения утечки набора данных, приводящей к недействительному идеальному результату.
Преимущества одного агента: Единое контекстное рассуждение и детерминированное сохранение состояния достаточны для достижения конкурентной производительности без зависимости от распределённой координации
Эффективность неблокирующего выполнения: Возможность параллельной обработки значительно повышает эффективность использования ресурсов
Ценность интеграции глубокого мышления: Интеграция нескольких моделей эффективно смягчает смещение контекста в длительных сеансах рассуждений
Operand Quant устанавливает новый уровень SOTA в области автономной инженерии машинного обучения. Общий результат 0.3956 ± 0.0565 позиционирует его на первое место в доске лидеров MLE-Benchmark 2025, превосходя одноагентные и многоагентные базовые линии при одинаковых условиях управления. Успешно доказано, что автономные системы MLE могут достигать ведущей производительности, используя унифицированную архитектуру одного агента, основанную на непрерывном рассуждении, параллельном выполнении и структурированном управлении контекстом.
Сильная архитектурная инновация: Впервые систематически доказано преимущество одного агента в задачах MLE, оспаривая доминирование многоагентной парадигмы
Продуманный технический дизайн: Механизмы неблокирующего выполнения и интеграции глубокого мышления хорошо спроектированы и эффективно решают практические проблемы
Строгие и полные эксперименты: Строгое соблюдение протокола бенчмарка обеспечивает убедительность результатов
Отличная воспроизводимость: Предоставлены полные логи, код и материалы оценки
Значительное улучшение производительности: Достигнуты явные результаты SOTA на стандартном бенчмарке
Статья ссылается на важные работы в соответствующих областях, включая бенчмарк MLE-Benchmark, серию AutoML-GPT, SWE-agent, различные фреймворки агентов, обеспечивая прочную теоретическую базу и базовые линии для сравнения.
Общая оценка: Это статья с важным вкладом в область автономной инженерии машинного обучения. Благодаря продуманному проектированию архитектуры одного агента и строгой экспериментальной верификации она успешно оспаривает доминирование многоагентной парадигмы, предоставляя новые идеи и направления для развития этой области. Несмотря на некоторые ограничения, её технические инновации и улучшение производительности делают её важной вехой в этой области.