2025-11-20T06:40:14.795821

Operand Quant: A Single-Agent Architecture for Autonomous Machine Learning Engineering

Sahney, Gorthi, Åastowski et al.

We present Operand Quant, a single-agent, IDE-based architecture for autonomous machine learning engineering (MLE). Operand Quant departs from conventional multi-agent orchestration frameworks by consolidating all MLE lifecycle stages -- exploration, modeling, experimentation, and deployment -- within a single, context-aware agent. On the MLE-Benchmark (2025), Operand Quant achieved a new state-of-the-art (SOTA) result, with an overall medal rate of 0.3956 +/- 0.0565 across 75 problems -- the highest recorded performance among all evaluated systems to date. The architecture demonstrates that a linear, non-blocking agent, operating autonomously within a controlled IDE environment, can outperform multi-agent and orchestrated systems under identical constraints.

academic

Operand Quant: Архитектура одного агента для автономной инженерии машинного обучения

Основная информация

ID статьи: 2510.11694
Название: Operand Quant: A Single-Agent Architecture for Autonomous Machine Learning Engineering
Авторы: Arjun Sahney, Ram Gorthi, Cezary Łastowski, Javier Vega (Operand Research)
Категория: cs.AI
Дата публикации: Октябрь 2025
Ссылка на статью: https://arxiv.org/abs/2510.11694

Аннотация

В данной статье предлагается Operand Quant — архитектура одного автономного агента на основе IDE для инженерии машинного обучения. В отличие от традиционных многоагентных фреймворков оркестрации, Operand Quant интегрирует все этапы жизненного цикла инженерии машинного обучения — исследование, моделирование, экспериментирование и развёртывание — в единого контекстно-осведомлённого агента. На MLE-Benchmark (2025) Operand Quant достигает новых результатов уровня SOTA с общим коэффициентом медалей 0.3956 ± 0.0565 на 75 задачах, что является наивысшей производительностью, когда-либо зарегистрированной среди всех оцениваемых систем. Архитектура демонстрирует, что линейный, неблокирующий агент, работающий автономно в контролируемой среде IDE, может превосходить многоагентные и оркестрированные системы при одинаковых ограничениях.

Исследовательский контекст и мотивация

Определение проблемы

Автоматизация конвейеров инженерии машинного обучения (MLE) стала центральной целью исследований в области агентного ИИ. Существующие системы в основном полагаются на многоагентную оркестрацию, где специализированные агенты независимо обрабатывают задачи анализа данных, моделирования, оценки и развёртывания.

Ограничения существующих подходов

Высокие затраты на координацию: Многоагентные фреймворки, хотя и позволяют параллелизировать работу, часто порождают значительные затраты на координацию
Фрагментация контекста: Передача контекста между агентами может привести к потере информации
Ошибки синхронизации: Проблемы синхронизации в распределённых системах влияют на общую производительность
Несогласованность состояния: Несколько агентов поддерживают различные представления состояния

Исследовательская мотивация

Operand Quant исследует альтернативную парадигму: единый автономный агент, непрерывно наблюдающий, планирующий, редактирующий, выполняющий и оценивающий в своей интегрированной среде разработки (IDE). Данный подход предполагает, что сквозная непрерывность контекста может обеспечить надёжную и эффективную производительность без необходимости в распределённой оркестрации.

Основные вклады

Предложена архитектура одного агента для MLE: Впервые систематически доказано, что одноагентная система может превосходить многоагентные системы в задачах MLE
Разработан механизм неблокирующего выполнения: Реализована возможность параллельной обработки с поддержкой асинхронного выполнения ноутбуков и скриптов
Внедрена интеграция глубокого мышления: Применена интеграция нескольких моделей для смягчения смещения контекста в длительных сеансах рассуждений
Достигнута производительность SOTA: Установлен новый рекорд на MLE-Benchmark 2025 (коэффициент медалей 39.56%)
Обеспечена полная воспроизводимость: Опубликованы все экспериментальные логи, код и материалы оценки

Подробное описание методологии

Определение задачи

Входные данные: Описание задачи машинного обучения и набор данных Выходные данные: Полное решение ML, включающее анализ данных, обучение модели, оценку и финальные предсказания Ограничения: 24-часовое окно выполнения, отсутствие доступа в интернет, стандартизированная аппаратная среда

Архитектура модели

1. Основной цикл одного агента

Каждый цикл вывода включает следующие шаги:

Наблюдение: Получение текущего состояния IDE (открытые файлы, состояние ядра, активные процессы и выходные данные)
Принятие решения: Генерирование структурированных команд JSON, соответствующих схеме валидации
Выполнение: Асинхронная валидация и выполнение указанных операций
Сохранение: Сохранение результатов на диск и интеграция в историю
Сжатие: Запуск сжатия при приближении к лимиту длины контекста

2. Неблокирующее параллельное выполнение

if primary_notebook and primary_notebook.is_cell_executing():
    continue_result = primary_notebook.continue_execution_if_running()
    if continue_result["status"] == "completed":
        final_output = continue_result.get("output", "[No Output]")
    elif continue_result["status"] == "still_executing":
        current_output = continue_result["current_output"]
        duration = continue_result["execution_duration_seconds"]

Это позволяет агенту продолжать редактирование, планирование или анализ выходных данных во время выполнения обучения.

3. Динамическая логика прерывания

Выполнение прерывается в следующих случаях:

Обнаружение сходимости по функции потерь или метрикам валидации
Превышение пороговых значений памяти или времени выполнения
Обнаружение паттернов отсутствия сходимости в логах или ошибках

4. Сохранение состояния и сжатие

Применяется иерархическая стратегия сжатия памяти:

Исключение объёмного содержимого ноутбуков
Использование специализированных инструментов для суммирования старых раундов
Верификация точности суммирования
Замена исходной истории после успешной верификации

Механизм интеграции глубокого мышления

Мотивация

Большие языковые модели демонстрируют смещение контекста, то есть снижение гибкости рассуждений с увеличением длины подсказки. В длительных сеансах рассуждений модель может проявлять туннельное зрение, снижая способность к отладке или переоценке предыдущих предположений.

Интегрированное рассуждение

Когда агент сталкивается с узким местом в рассуждениях, проблема делегируется интеграции высокопроизводительных моделей:

GPT-5
Claude-4.1 Opus
Grok-4
Gemini 2.5 Pro

Эти модели независимо генерируют анализ или гипотезы, затем выходные данные синтезируются в единое "экспертное рецензирование", которое переинтегрируется в контекст рассуждений агента в качестве консультативного входа.

Экспериментальная установка

Набор данных

MLE-Benchmark 2025: Содержит 75 задач машинного обучения, разделённых на три уровня сложности:

Lite: 22 задачи
Medium: 38 задач
Hard: 15 задач

Метрики оценки

Коэффициент медалей (Medal Rate): Доля успешно решённых задач с получением медали, используется как основная метрика оценки

Управление бенчмарком

Строгое соблюдение требований управления MLE-Benchmark 2025:

Отсутствие доступа в интернет или к API
Инструменты ограничены локальной средой
Стандартизированная отправка через конечную точку submit_final_answer
Ограничение окна выполнения в 24 часа

Конфигурация оборудования

Подмножество Lite: GCP VM (234 ГБ ОЗУ, 36 vCPU, Tesla T4)
Подмножества Medium/Hard: Azure NV36AdsA10v5 (официальное оборудование MLE)

Методы сравнения

InternAgent (DeepSeek-R1)
R&D-Agent (GPT-5)
Neo Multi-Agent
R&D-Agent (o3 + GPT-4.1)

Результаты экспериментов

Основные результаты

Подмножество	Коэффициент медалей (среднее ± стд. откл.)	Количество задач
Всего	0.3956 ± 0.0565	75
Lite	0.6364 ± 0.1050	22
Medium	0.3333 ± 0.0765	38
Hard	0.2000 ± 0.1069	15

Сравнение на доске лидеров

Агент	Lite	Med.	Hard	All	Часы	Дата
Operand Quant	63.64	33.33	20.00	39.56	24	09-28
InternAgent (DeepSeek-R1)	62.12	26.32	24.44	36.44	12	09-12
R&D-Agent (GPT-5)	68.18	21.05	22.22	35.11	12	09-26
Neo Multi-Agent	48.48	29.82	24.44	34.22	36	07-28
R&D-Agent (o3 + GPT-4.1)	51.52	19.30	26.67	30.22	24	08-15

Анализ случаев отказа

Следующие задачи не были решены из-за проблем с данными или окружением и отмечены как "без медали" во всех попытках:

3D Object Detection for Autonomous Vehicles
AI4Code
Billion Word Imputation
BMS Molecular Translation
Google Research Identify Contrails
HMS Harmful Brain Activity Classification
и 11 других задач

Один выброс — Multi-Modal Gesture Recognition — был исключён из-за обнаружения утечки набора данных, приводящей к недействительному идеальному результату.

Экспериментальные выводы

Преимущества одного агента: Единое контекстное рассуждение и детерминированное сохранение состояния достаточны для достижения конкурентной производительности без зависимости от распределённой координации
Эффективность неблокирующего выполнения: Возможность параллельной обработки значительно повышает эффективность использования ресурсов
Ценность интеграции глубокого мышления: Интеграция нескольких моделей эффективно смягчает смещение контекста в длительных сеансах рассуждений

Связанные работы

Многоагентные системы машинного обучения

Серия AutoML-GPT: Связывание планировщика LLM с расширенным инструментами исполнителем
AutoML-Agent: Интегрированная специализированная система агентов, охватывающая от получения данных до развёртывания
MLAgentBench: Формализованные задачи, требующие от агентов выполнения реальных экспериментов ML

Одноагентные системы программирования

SWE-agent: Введение интерфейса агент-компьютер (ACI) для навигации, редактирования и выполнения на уровне репозитория
CodeT5/CodeT5+: Повышение качества редактирования/генерации через предварительное обучение с учётом идентификаторов

Традиционные методы AutoML

AutoGluon: Многоуровневое стекирование ансамблей
H2O AutoML: Быстрый случайный поиск со стекированием ансамблей

Фреймворки агентного ИИ

LangGraph: Состояние, долгоживущие агенты и граф-структурированное управление потоком
AutoGen/AG2: Многоагентный диалоговый режим и управление рабочим потоком на основе событий
CrewAI: Основанные на ролях многоагентные "команды"

Заключение и обсуждение

Основные выводы

Operand Quant устанавливает новый уровень SOTA в области автономной инженерии машинного обучения. Общий результат 0.3956 ± 0.0565 позиционирует его на первое место в доске лидеров MLE-Benchmark 2025, превосходя одноагентные и многоагентные базовые линии при одинаковых условиях управления. Успешно доказано, что автономные системы MLE могут достигать ведущей производительности, используя унифицированную архитектуру одного агента, основанную на непрерывном рассуждении, параллельном выполнении и структурированном управлении контекстом.

Ограничения

Деградация контекста: Несмотря на механизмы сжатия, длительное рассуждение может привести к снижению качества контекста
Ограничения выразительности: Правило одного инструмента за раунд ограничивает выразительность сложных операций
Высокие вычислительные затраты: 24-часовое выполнение влечёт значительные вычислительные затраты
Недостаточная отказоустойчивость: Ограниченная способность к восстановлению от ошибок окружения или ядра

Направления будущих исследований

Адаптивное интегрированное рассуждение: Динамическая настройка стратегии интеграции
Динамическое сжатие: Более интеллектуальное управление контекстом
Отказоустойчивое выполнение: Повышение робастности системы

Глубокая оценка

Преимущества

Сильная архитектурная инновация: Впервые систематически доказано преимущество одного агента в задачах MLE, оспаривая доминирование многоагентной парадигмы
Продуманный технический дизайн: Механизмы неблокирующего выполнения и интеграции глубокого мышления хорошо спроектированы и эффективно решают практические проблемы
Строгие и полные эксперименты: Строгое соблюдение протокола бенчмарка обеспечивает убедительность результатов
Отличная воспроизводимость: Предоставлены полные логи, код и материалы оценки
Значительное улучшение производительности: Достигнуты явные результаты SOTA на стандартном бенчмарке

Недостатки

Недостаточный теоретический анализ: Отсутствует глубокий теоретический анализ того, почему один агент превосходит многоагентные системы
Неизвестная способность к обобщению: Оценка проведена только на MLE-Benchmark, производительность на других областях неизвестна
Проблемы вычислительной эффективности: 24-часовое время выполнения превышает некоторые методы базовой линии, эффективность требует улучшения
Простые механизмы обработки ошибок: Стратегии обработки отказов системы относительно просты
Зависимость от интеграции: Интеграция глубокого мышления зависит от нескольких больших моделей, усложняя систему

Влияние

Академический вклад: Предоставляет новые идеи для проектирования архитектур агентов, потенциально влияя на направления будущих исследований
Практическая ценность: Имеет прямую прикладную ценность в автоматизации инженерии машинного обучения
Методологическое значение: Демонстрирует, что в некоторых задачах упрощённая архитектура может быть более эффективной, чем сложная оркестрация

Применимые сценарии

Автоматизация инженерии ML: Подходит для сценариев, требующих сквозных решений ML
Исследовательские эксперименты: Может использоваться для быстрого прототипирования и экспериментирования
Образование и обучение: Служит справочной реализацией для автоматизации инженерии ML
Ограниченные окружения: Подходит для автономных окружений без доступа в интернет

Библиография

Статья ссылается на важные работы в соответствующих областях, включая бенчмарк MLE-Benchmark, серию AutoML-GPT, SWE-agent, различные фреймворки агентов, обеспечивая прочную теоретическую базу и базовые линии для сравнения.

Общая оценка: Это статья с важным вкладом в область автономной инженерии машинного обучения. Благодаря продуманному проектированию архитектуры одного агента и строгой экспериментальной верификации она успешно оспаривает доминирование многоагентной парадигмы, предоставляя новые идеи и направления для развития этой области. Несмотря на некоторые ограничения, её технические инновации и улучшение производительности делают её важной вехой в этой области.