Operand Quant: A Single-Agent Architecture for Autonomous Machine Learning Engineering
Sahney, Gorthi, Åastowski et al.
We present Operand Quant, a single-agent, IDE-based architecture for autonomous machine learning engineering (MLE). Operand Quant departs from conventional multi-agent orchestration frameworks by consolidating all MLE lifecycle stages -- exploration, modeling, experimentation, and deployment -- within a single, context-aware agent. On the MLE-Benchmark (2025), Operand Quant achieved a new state-of-the-art (SOTA) result, with an overall medal rate of 0.3956 +/- 0.0565 across 75 problems -- the highest recorded performance among all evaluated systems to date. The architecture demonstrates that a linear, non-blocking agent, operating autonomously within a controlled IDE environment, can outperform multi-agent and orchestrated systems under identical constraints.
academic
Operand Quant: معمارية وكيل واحد للهندسة الآلية للتعلم الآلي المستقل
تقدم هذه الورقة Operand Quant، وهي معمارية وكيل واحد مستقل قائمة على بيئة التطوير المتكاملة (IDE) لهندسة التعلم الآلي. بخلاف أطر العمل التقليدية متعددة الوكلاء، تدمج Operand Quant جميع مراحل دورة حياة هندسة التعلم الآلي—الاستكشاف والنمذجة والتجريب والنشر—في وكيل واحد يدرك السياق. على معيار MLE-Benchmark (2025)، حققت Operand Quant نتائج متقدمة جديدة بمعدل ميداليات إجمالي قدره 0.3956 ± 0.0565 على 75 مشكلة، وهو أعلى أداء مسجل في جميع الأنظمة المقيمة حتى الآن. تثبت هذه المعمارية أن الوكيل الخطي غير المحجوب الذي يعمل بشكل مستقل في بيئة IDE محكومة يمكنه أن يتفوق على الأنظمة متعددة الوكلاء والمنسقة تحت نفس القيود.
أصبح أتمتة خطوط أنابيب هندسة التعلم الآلي (MLE) هدفاً أساسياً في أبحاث ذكاء الوكلاء. تعتمد الأنظمة الحالية بشكل أساسي على التنسيق متعدد الوكلاء، حيث يتعامل الوكلاء المتخصصون بشكل مستقل مع مهام مثل تحليل البيانات والنمذجة والتقييم والنشر.
تستكشف Operand Quant نموذجاً بديلاً: وكيل مستقل واحد يراقب ويخطط ويحرر وينفذ ويقيم بشكل مستمر داخل بيئة التطوير المتكاملة (IDE) الخاصة به. يفترض هذا التصميم أن الاستمرارية السياقية من طرف إلى طرف يمكن أن تنتج أداءً موثوقاً وفعالاً دون الحاجة إلى تنسيق موزع.
الإدخال: وصف مشكلة التعلم الآلي ومجموعة البيانات
الإخراج: حل ML كامل يتضمن تحليل البيانات وتدريب النموذج والتقييم والتنبؤ النهائي
القيود: وقت تنفيذ 24 ساعة، بدون وصول إلى الإنترنت، بيئة أجهزة موحدة
تظهر نماذج اللغة الكبيرة انحيازاً سياقياً، حيث تنخفض مرونة الاستدلال مع زيادة طول الموجه. في جلسات الاستدلال الطويلة، قد ينتج النموذج رؤية نفقية، مما يقلل من القدرة على تصحيح الأخطاء أو إعادة تقييم الافتراضات السابقة.
عندما يواجه الوكيل اختناق استدلال، يفوض المشكلة إلى تكامل نموذج عالي السعة:
GPT-5
Claude-4.1 Opus
Grok-4
Gemini 2.5 Pro
تنتج هذه النماذج تحليلات أو افتراضات بشكل مستقل، ثم يتم دمج المخرجات في "مراجعة خبراء" موحدة، يتم إعادة إدخالها كمدخل استشاري في سياق الاستدلال للوكيل.
تؤسس Operand Quant مستوى متقدماً جديداً في مجال هندسة التعلم الآلي المستقلة. يضع الدرجة الإجمالية 0.3956 ± 0.0565 في المرتبة الأولى على لوحة ترتيب MLE-Benchmark 2025، متفوقة على خطوط الأساس أحادية ومتعددة الوكلاء تحت نفس شروط الحوكمة. تثبت بنجاح أن أنظمة MLE المستقلة يمكنها تحقيق أداء رائدة باستخدام معمارية وكيل واحد موحدة قائمة على الاستدلال المستمر والتنفيذ المتزامن وإدارة السياق المنظمة.
تستشهد الورقة بأعمال مهمة في المجالات ذات الصلة، بما في ذلك معيار MLE-Benchmark وسلسلة AutoML-GPT و SWE-agent وأطر عمل الوكلاء المختلفة، مما يوفر أساساً نظرياً قوياً وخطوط أساس للمقارنة.
التقييم الشامل: هذه ورقة ذات مساهمة مهمة في مجال هندسة التعلم الآلي المستقلة. من خلال تصميم معمارية وكيل واحد ذكي والتحقق التجريبي الصارم، تطعن بنجاح في هيمنة النموذج متعدد الوكلاء وتوفر أفكاراً وتوجيهات جديدة لتطور هذا المجال. على الرغم من وجود بعض القيود، فإن الابتكار التقني وتحسن الأداء يجعلها علامة فارقة مهمة في هذا المجال.