We present Operand Quant, a single-agent, IDE-based architecture for autonomous machine learning engineering (MLE). Operand Quant departs from conventional multi-agent orchestration frameworks by consolidating all MLE lifecycle stages -- exploration, modeling, experimentation, and deployment -- within a single, context-aware agent. On the MLE-Benchmark (2025), Operand Quant achieved a new state-of-the-art (SOTA) result, with an overall medal rate of 0.3956 +/- 0.0565 across 75 problems -- the highest recorded performance among all evaluated systems to date. The architecture demonstrates that a linear, non-blocking agent, operating autonomously within a controlled IDE environment, can outperform multi-agent and orchestrated systems under identical constraints.
Operand Quant: A Single-Agent Architecture for Autonomous Machine Learning Engineering 论文ID : 2510.11694标题 : Operand Quant: A Single-Agent Architecture for Autonomous Machine Learning Engineering作者 : Arjun Sahney, Ram Gorthi, Cezary Łastowski, Javier Vega (Operand Research)分类 : cs.AI发表时间 : October 2025论文链接 : https://arxiv.org/abs/2510.11694 本文提出了Operand Quant,一个基于IDE的单智能体自主机器学习工程架构。与传统的多智能体编排框架不同,Operand Quant将机器学习工程生命周期的所有阶段——探索、建模、实验和部署——整合到单个上下文感知智能体中。在MLE-Benchmark (2025)上,Operand Quant取得了新的最先进结果,在75个问题上的总体奖牌率为0.3956 ± 0.0565,是迄今为止所有评估系统中记录的最高性能。该架构证明了在受控IDE环境中自主运行的线性、非阻塞智能体可以在相同约束条件下超越多智能体和编排系统。
机器学习工程(MLE)管道的自动化已成为智能体AI研究的核心目标。现有系统主要依赖多智能体编排,其中专门的智能体独立处理数据分析、建模、评估和部署等任务。
协调成本高 :多智能体框架虽然可以并行化工作,但往往产生协调成本上下文碎片化 :智能体间的上下文传递容易导致信息丢失同步错误 :分布式系统中的同步问题影响整体性能状态不一致 :多个智能体维护不同的状态视图Operand Quant探索了一种替代范式:单个自主智能体在其集成开发环境(IDE)内持续观察、规划、编辑、执行和评估。该设计假设认为,端到端的上下文连续性可以在不需要分布式编排的情况下产生可靠且高效的性能。
提出了单智能体MLE架构 :首次系统性地证明单智能体可以在MLE任务上超越多智能体系统设计了非阻塞执行机制 :实现了并发处理能力,支持异步notebook和脚本执行引入了深度思考集成 :通过多模型集成缓解长推理会话中的上下文偏差问题取得了SOTA性能 :在MLE-Benchmark 2025上创造了新的最高记录(39.56%奖牌率)提供了完整的可复现性 :公开了所有实验日志、代码和评估材料输入 :机器学习问题描述和数据集
输出 :完整的ML解决方案,包括数据分析、模型训练、评估和最终预测
约束 :24小时执行时间,无网络访问,标准化硬件环境
每个推理周期包含以下步骤:
观察 :获取当前IDE状态(打开的文件、内核状态、活动进程和输出)决策 :生成符合验证模式的结构化JSON命令执行 :异步验证并执行指定操作持久化 :将结果保存到磁盘并集成到历史记录中压缩 :如果接近上下文长度限制则触发压缩if primary_notebook and primary_notebook.is_cell_executing():
continue_result = primary_notebook.continue_execution_if_running()
if continue_result["status"] == "completed":
final_output = continue_result.get("output", "[No Output]")
elif continue_result["status"] == "still_executing":
current_output = continue_result["current_output"]
duration = continue_result["execution_duration_seconds"]
这使得智能体可以在训练运行时继续编辑、规划或分析输出。
执行过程在以下情况下被中断:
从损失或验证指标检测到收敛 超出内存或运行时阈值 日志或错误中出现非收敛模式 采用分层内存压缩策略:
排除冗长的notebook内容 使用专用工具总结旧的回合 验证总结的准确性 成功验证后替换原始历史 大语言模型表现出上下文偏差,即随着提示长度增加推理灵活性下降。在长推理会话中,模型可能产生隧道视觉,降低调试或重新评估先前假设的能力。
当智能体遇到推理瓶颈时,将问题委托给高容量模型集成:
GPT-5 Claude-4.1 Opus Grok-4 Gemini 2.5 Pro 这些模型独立生成分析或假设,然后将输出综合为统一的"专家评审",作为咨询输入重新引入智能体的推理上下文。
MLE-Benchmark 2025 :包含75个机器学习问题,分为三个难度级别:
Lite :22个问题Medium :38个问题Hard :15个问题奖牌率(Medal Rate) :成功解决问题并获得奖牌的比例,作为主要评价指标
严格遵循MLE-Benchmark 2025治理要求:
无互联网或API访问 工具仅限于本地环境 通过submit_final_answer端点标准化提交 24小时执行窗口限制 Lite子集 :GCP VM (234 GB RAM, 36 vCPUs, Tesla T4)Medium/Hard子集 :Azure NV36AdsA10v5 (官方MLE硬件)InternAgent (DeepSeek-R1) R&D-Agent (GPT-5) Neo Multi-Agent R&D-Agent (o3 + GPT-4.1) 子集 奖牌率 (平均 ± 标准差) 问题数 总体 0.3956 ± 0.0565 75 Lite 0.6364 ± 0.1050 22 Medium 0.3333 ± 0.0765 38 Hard 0.2000 ± 0.1069 15
智能体 Lite Med. Hard All 小时 日期 Operand Quant 63.64 33.33 20.00 39.56 24 09-28 InternAgent (DeepSeek-R1) 62.12 26.32 24.44 36.44 12 09-12 R&D-Agent (GPT-5) 68.18 21.05 22.22 35.11 12 09-26 Neo Multi-Agent 48.48 29.82 24.44 34.22 36 07-28 R&D-Agent (o3 + GPT-4.1) 51.52 19.30 26.67 30.22 24 08-15
以下任务由于数据或环境问题失败,在所有种子中报告为"无奖牌":
3D Object Detection for Autonomous Vehicles AI4Code Billion Word Imputation BMS Molecular Translation Google Research Identify Contrails HMS Harmful Brain Activity Classification 等11个任务 一个异常值——Multi-Modal Gesture Recognition——由于识别出导致无效完美分数的数据集泄露错误而被排除。
单智能体优势 :统一的上下文推理和确定性状态持久化足以在不依赖分布式协调的情况下获得竞争性性能非阻塞执行效果 :并发处理能力显著提高了资源利用效率深度思考集成价值 :多模型集成有效缓解了长推理会话中的上下文偏差问题AutoML-GPT系列 :将LLM规划器与工具增强执行器耦合AutoML-Agent :专门的智能体集成,跨越数据获取到部署MLAgentBench :形式化智能体必须运行实际ML实验的任务SWE-agent :引入智能体-计算机接口(ACI),实现仓库级导航、编辑和执行CodeT5/CodeT5+ :通过标识符感知预训练提高编辑/生成质量AutoGluon :多层堆栈集成H2O AutoML :快速随机搜索与堆栈集成LangGraph :有状态、长寿命智能体和图结构控制流AutoGen/AG2 :多智能体对话模式和事件驱动工作流CrewAI :基于角色的多智能体"团队"Operand Quant在自主机器学习工程领域建立了新的最先进水平。总分0.3956 ± 0.0565使其在MLE-Benchmark 2025排行榜上排名第一,在相同治理条件下超越了单智能体和多智能体基线。成功证明了自主MLE系统可以使用基于连续推理、并发执行和结构化上下文管理的统一单智能体架构实现领先性能。
上下文退化 :尽管有压缩机制,长时间推理仍可能导致上下文质量下降表达能力限制 :每回合单工具规则限制了复杂操作的表达计算成本高 :24小时运行带来高昂的计算成本容错能力不足 :对环境或内核错误的容错能力有限自适应集成推理 :动态调整集成策略动态压缩 :更智能的上下文管理容错执行 :增强系统鲁棒性架构创新性强 :首次系统性证明单智能体在MLE任务上的优势,挑战了多智能体范式的主导地位技术设计巧妙 :非阻塞执行、深度思考集成等机制设计合理,有效解决了实际问题实验充分严格 :严格遵循基准测试协议,结果具有强说服力可复现性优秀 :提供了完整的日志、代码和评估材料性能提升显著 :在标准基准上取得了明显的SOTA结果理论分析不足 :缺乏对为什么单智能体优于多智能体的深入理论分析泛化能力未知 :仅在MLE-Benchmark上评估,在其他领域的表现未知计算效率问题 :24小时运行时间相比一些基线方法更长,效率有待提高错误处理机制 :对系统故障的处理策略相对简单集成机制依赖 :深度思考集成依赖多个大模型,增加了系统复杂性学术贡献 :为智能体架构设计提供了新的思路,可能影响未来的研究方向实用价值 :在自动化机器学习工程方面具有直接的应用价值方法论意义 :证明了在某些任务中,简化架构可能比复杂编排更有效自动化ML工程 :适合需要端到端ML解决方案的场景研究实验 :可用于快速原型和实验教育培训 :作为ML工程自动化的参考实现受限环境 :适合无网络访问的离线环境论文引用了相关领域的重要工作,包括MLE-Benchmark基准测试、AutoML-GPT系列、SWE-agent、各种智能体框架等,为研究提供了坚实的理论基础和对比基线。
总体评价 :这是一篇在自主机器学习工程领域具有重要贡献的论文。通过巧妙的单智能体架构设计和严格的实验验证,成功挑战了多智能体范式的主导地位,为该领域的发展提供了新的思路和方向。尽管存在一些局限性,但其技术创新和性能提升使其成为该领域的重要里程碑。