2025-11-20T06:40:14.795821

Operand Quant: A Single-Agent Architecture for Autonomous Machine Learning Engineering

Sahney, Gorthi, Łastowski et al.
We present Operand Quant, a single-agent, IDE-based architecture for autonomous machine learning engineering (MLE). Operand Quant departs from conventional multi-agent orchestration frameworks by consolidating all MLE lifecycle stages -- exploration, modeling, experimentation, and deployment -- within a single, context-aware agent. On the MLE-Benchmark (2025), Operand Quant achieved a new state-of-the-art (SOTA) result, with an overall medal rate of 0.3956 +/- 0.0565 across 75 problems -- the highest recorded performance among all evaluated systems to date. The architecture demonstrates that a linear, non-blocking agent, operating autonomously within a controlled IDE environment, can outperform multi-agent and orchestrated systems under identical constraints.
academic

Operand Quant: معمارية وكيل واحد للهندسة الآلية للتعلم الآلي المستقل

المعلومات الأساسية

  • معرّف الورقة: 2510.11694
  • العنوان: Operand Quant: A Single-Agent Architecture for Autonomous Machine Learning Engineering
  • المؤلفون: Arjun Sahney, Ram Gorthi, Cezary Łastowski, Javier Vega (Operand Research)
  • التصنيف: cs.AI
  • تاريخ النشر: أكتوبر 2025
  • رابط الورقة: https://arxiv.org/abs/2510.11694

الملخص

تقدم هذه الورقة Operand Quant، وهي معمارية وكيل واحد مستقل قائمة على بيئة التطوير المتكاملة (IDE) لهندسة التعلم الآلي. بخلاف أطر العمل التقليدية متعددة الوكلاء، تدمج Operand Quant جميع مراحل دورة حياة هندسة التعلم الآلي—الاستكشاف والنمذجة والتجريب والنشر—في وكيل واحد يدرك السياق. على معيار MLE-Benchmark (2025)، حققت Operand Quant نتائج متقدمة جديدة بمعدل ميداليات إجمالي قدره 0.3956 ± 0.0565 على 75 مشكلة، وهو أعلى أداء مسجل في جميع الأنظمة المقيمة حتى الآن. تثبت هذه المعمارية أن الوكيل الخطي غير المحجوب الذي يعمل بشكل مستقل في بيئة IDE محكومة يمكنه أن يتفوق على الأنظمة متعددة الوكلاء والمنسقة تحت نفس القيود.

خلفية البحث والدافع

تعريف المشكلة

أصبح أتمتة خطوط أنابيب هندسة التعلم الآلي (MLE) هدفاً أساسياً في أبحاث ذكاء الوكلاء. تعتمد الأنظمة الحالية بشكل أساسي على التنسيق متعدد الوكلاء، حيث يتعامل الوكلاء المتخصصون بشكل مستقل مع مهام مثل تحليل البيانات والنمذجة والتقييم والنشر.

قيود الطرق الموجودة

  1. تكاليف التنسيق العالية: بينما يمكن لأطر العمل متعددة الوكلاء موازاة العمل، فإنها غالباً ما تنتج تكاليف تنسيق كبيرة
  2. تجزئة السياق: نقل السياق بين الوكلاء يمكن أن يؤدي إلى فقدان المعلومات
  3. أخطاء المزامنة: مشاكل المزامنة في الأنظمة الموزعة تؤثر على الأداء الإجمالية
  4. عدم اتساق الحالة: يحتفظ عدة وكلاء برؤى حالة مختلفة

دافع البحث

تستكشف Operand Quant نموذجاً بديلاً: وكيل مستقل واحد يراقب ويخطط ويحرر وينفذ ويقيم بشكل مستمر داخل بيئة التطوير المتكاملة (IDE) الخاصة به. يفترض هذا التصميم أن الاستمرارية السياقية من طرف إلى طرف يمكن أن تنتج أداءً موثوقاً وفعالاً دون الحاجة إلى تنسيق موزع.

المساهمات الأساسية

  1. اقتراح معمارية وكيل واحد لـ MLE: أول إثبات منهجي لأن وكيلاً واحداً يمكنه التفوق على الأنظمة متعددة الوكلاء في مهام MLE
  2. تصميم آلية تنفيذ غير محجوبة: تحقيق القدرة على المعالجة المتزامنة مع دعم تنفيذ دفاتر الملاحظات والبرامج النصية غير المتزامنة
  3. إدراج التفكير العميق المدمج: تخفيف انحياز السياق في جلسات الاستدلال الطويلة من خلال تكامل نماذج متعددة
  4. تحقيق أداء متقدم (SOTA): إنشاء سجل جديد على MLE-Benchmark 2025 (معدل ميداليات 39.56%)
  5. توفير قابلية إعادة الإنتاج الكاملة: نشر جميع سجلات التجارب والأكواد ومواد التقييم

شرح الطريقة

تعريف المهمة

الإدخال: وصف مشكلة التعلم الآلي ومجموعة البيانات الإخراج: حل ML كامل يتضمن تحليل البيانات وتدريب النموذج والتقييم والتنبؤ النهائي القيود: وقت تنفيذ 24 ساعة، بدون وصول إلى الإنترنت، بيئة أجهزة موحدة

معمارية النموذج

1. حلقة الوكيل الواحد الأساسية

تتضمن كل دورة استدلال الخطوات التالية:

  1. المراقبة: الحصول على حالة IDE الحالية (الملفات المفتوحة وحالة النواة والعمليات النشطة والمخرجات)
  2. القرار: إنشاء أوامر JSON منظمة تتوافق مع نمط التحقق
  3. التنفيذ: التحقق غير المتزامن وتنفيذ العمليات المحددة
  4. الإستمرارية: حفظ النتائج على القرص ودمجها في السجل التاريخي
  5. الضغط: تفعيل الضغط إذا اقتربنا من حد طول السياق

2. التنفيذ المتزامن غير المحجوب

if primary_notebook and primary_notebook.is_cell_executing():
    continue_result = primary_notebook.continue_execution_if_running()
    if continue_result["status"] == "completed":
        final_output = continue_result.get("output", "[No Output]")
    elif continue_result["status"] == "still_executing":
        current_output = continue_result["current_output"]
        duration = continue_result["execution_duration_seconds"]

يسمح هذا للوكيل بمتابعة التحرير والتخطيط أو تحليل المخرجات أثناء تشغيل التدريب.

3. منطق المقاطعة الديناميكية

يتم مقاطعة التنفيذ في الحالات التالية:

  • الكشف عن التقارب من خسارة أو مقاييس التحقق
  • تجاوز حدود الذاكرة أو وقت التشغيل
  • ظهور أنماط عدم تقارب في السجلات أو الأخطاء

4. استمرارية الحالة والضغط

استخدام استراتيجية ضغط ذاكرة متدرجة:

  1. استبعاد محتوى دفاتر الملاحظات الطويلة
  2. استخدام أدوات متخصصة لتلخيص الجولات القديمة
  3. التحقق من دقة الملخصات
  4. استبدال السجل الأصلي بعد التحقق الناجح

آلية تكامل التفكير العميق

الدافع

تظهر نماذج اللغة الكبيرة انحيازاً سياقياً، حيث تنخفض مرونة الاستدلال مع زيادة طول الموجه. في جلسات الاستدلال الطويلة، قد ينتج النموذج رؤية نفقية، مما يقلل من القدرة على تصحيح الأخطاء أو إعادة تقييم الافتراضات السابقة.

الاستدلال المتكامل

عندما يواجه الوكيل اختناق استدلال، يفوض المشكلة إلى تكامل نموذج عالي السعة:

  • GPT-5
  • Claude-4.1 Opus
  • Grok-4
  • Gemini 2.5 Pro

تنتج هذه النماذج تحليلات أو افتراضات بشكل مستقل، ثم يتم دمج المخرجات في "مراجعة خبراء" موحدة، يتم إعادة إدخالها كمدخل استشاري في سياق الاستدلال للوكيل.

إعداد التجارب

مجموعة البيانات

MLE-Benchmark 2025: تتضمن 75 مشكلة تعلم آلي مقسمة إلى ثلاث مستويات صعوبة:

  • Lite: 22 مشكلة
  • Medium: 38 مشكلة
  • Hard: 15 مشكلة

مقاييس التقييم

معدل الميداليات (Medal Rate): نسبة المشاكل التي تم حلها بنجاح والحصول على ميدالية، كمقياس تقييم أساسي

حوكمة المعيار

الامتثال الصارم لمتطلبات حوكمة MLE-Benchmark 2025:

  • بدون وصول إلى الإنترنت أو واجهات برمجية
  • الأدوات مقتصرة على البيئة المحلية
  • التقديم الموحد عبر نقطة نهاية submit_final_answer
  • حد نافذة التنفيذ 24 ساعة

تكوين الأجهزة

  • مجموعة Lite: GCP VM (234 GB RAM، 36 vCPU، Tesla T4)
  • مجموعات Medium/Hard: Azure NV36AdsA10v5 (أجهزة MLE الرسمية)

الطرق المقارنة

  • InternAgent (DeepSeek-R1)
  • R&D-Agent (GPT-5)
  • Neo Multi-Agent
  • R&D-Agent (o3 + GPT-4.1)

نتائج التجارب

النتائج الرئيسية

المجموعةمعدل الميداليات (متوسط ± الانحراف المعياري)عدد المشاكل
الإجمالي0.3956 ± 0.056575
Lite0.6364 ± 0.105022
Medium0.3333 ± 0.076538
Hard0.2000 ± 0.106915

مقارنة لوحة الترتيب

الوكيلLiteMed.HardAllالساعاتالتاريخ
Operand Quant63.6433.3320.0039.562409-28
InternAgent (DeepSeek-R1)62.1226.3224.4436.441209-12
R&D-Agent (GPT-5)68.1821.0522.2235.111209-26
Neo Multi-Agent48.4829.8224.4434.223607-28
R&D-Agent (o3 + GPT-4.1)51.5219.3026.6730.222408-15

تحليل حالات الفشل

فشلت المهام التالية بسبب مشاكل البيانات أو البيئة، وتم الإبلاغ عنها كـ "بدون ميدالية" في جميع البذور:

  • الكشف عن الأجسام ثلاثية الأبعاد للمركبات ذاتية القيادة
  • AI4Code
  • Billion Word Imputation
  • BMS Molecular Translation
  • Google Research Identify Contrails
  • HMS Harmful Brain Activity Classification
  • و11 مهمة أخرى

تم استبعاد قيمة شاذة واحدة—Multi-Modal Gesture Recognition—لأنها حددت خطأ تسرب مجموعة بيانات أدى إلى درجة كاملة غير صحيحة.

نتائج التجارب

  1. مزايا الوكيل الواحد: الاستدلال السياقي الموحد والاستمرارية الحالة الحتمية كافية للحصول على أداء تنافسية دون الاعتماد على التنسيق الموزع
  2. فعالية التنفيذ غير المحجوب: تحسن القدرة على المعالجة المتزامنة بشكل كبير من كفاءة استخدام الموارد
  3. قيمة تكامل التفكير العميق: يخفف تكامل النماذج المتعددة بشكل فعال من انحياز السياق في جلسات الاستدلال الطويلة

الأعمال ذات الصلة

أنظمة التعلم الآلي متعددة الوكلاء

  • سلسلة AutoML-GPT: ربط مخطط LLM مع منفذ معزز بالأدوات
  • AutoML-Agent: تكامل وكلاء متخصصين يمتد من الحصول على البيانات إلى النشر
  • MLAgentBench: مهام رسمية حيث يجب على الوكلاء تشغيل تجارب ML فعلية

أنظمة البرمجة بوكيل واحد

  • SWE-agent: تقديم واجهة الوكيل-الكمبيوتر (ACI)، مما يحقق التنقل والتحرير والتنفيذ على مستوى المستودع
  • CodeT5/CodeT5+: تحسين جودة التحرير/الإنشاء من خلال التدريب المسبق الذي يدرك المعرّفات

طرق AutoML التقليدية

  • AutoGluon: تكامل مكدس متعدد الطبقات
  • H2O AutoML: بحث عشوائي سريع مع تكامل المكدس

أطر عمل ذكاء الوكلاء

  • LangGraph: وكلاء ذات حالة وطويلة الأجل وتدفق تحكم بنية الرسم البياني
  • AutoGen/AG2: نمط الحوار متعدد الوكلاء وسير العمل المدفوع بالأحداث
  • CrewAI: "فريق" متعدد الوكلاء قائم على الأدوار

الخلاصة والمناقشة

الاستنتاجات الرئيسية

تؤسس Operand Quant مستوى متقدماً جديداً في مجال هندسة التعلم الآلي المستقلة. يضع الدرجة الإجمالية 0.3956 ± 0.0565 في المرتبة الأولى على لوحة ترتيب MLE-Benchmark 2025، متفوقة على خطوط الأساس أحادية ومتعددة الوكلاء تحت نفس شروط الحوكمة. تثبت بنجاح أن أنظمة MLE المستقلة يمكنها تحقيق أداء رائدة باستخدام معمارية وكيل واحد موحدة قائمة على الاستدلال المستمر والتنفيذ المتزامن وإدارة السياق المنظمة.

القيود

  1. تدهور السياق: على الرغم من آليات الضغط، قد يؤدي الاستدلال لفترات طويلة إلى انخفاض جودة السياق
  2. حدود القدرة على التعبير: قاعدة أداة واحدة لكل جولة تحد من التعبير عن العمليات المعقدة
  3. التكلفة الحسابية العالية: يؤدي التشغيل لمدة 24 ساعة إلى تكاليف حسابية عالية
  4. قدرة تحمل الأخطاء غير كافية: قدرة محدودة على تحمل أخطاء البيئة أو النواة

الاتجاهات المستقبلية

  1. الاستدلال المتكامل التكيفي: ضبط استراتيجية التكامل بشكل ديناميكي
  2. الضغط الديناميكي: إدارة سياق أكثر ذكاءً
  3. التنفيذ المتسامح مع الأخطاء: تعزيز قوة النظام

التقييم المتعمق

المزايا

  1. ابتكار معماري قوي: أول إثبات منهجي لمزايا الوكيل الواحد في مهام MLE، يطعن في هيمنة النموذج متعدد الوكلاء
  2. تصميم تقني ذكي: آليات مثل التنفيذ غير المحجوب وتكامل التفكير العميق مصممة بشكل معقول وتحل المشاكل العملية بشكل فعال
  3. تجارب كاملة وصارمة: الامتثال الصارم لبروتوكول المعيار، النتائج مقنعة جداً
  4. قابلية إعادة الإنتاج الممتازة: توفير سجلات وأكواد ومواد تقييم كاملة
  5. تحسن الأداء الكبير: تحقيق نتائج SOTA واضحة على معيار قياسي

أوجه القصور

  1. نقص التحليل النظري: افتقار إلى تحليل نظري عميق لسبب تفوق الوكيل الواحد على الوكلاء المتعددين
  2. القدرة على التعميم غير معروفة: تقييم فقط على MLE-Benchmark، الأداء في المجالات الأخرى غير معروفة
  3. مشاكل الكفاءة الحسابية: وقت التشغيل 24 ساعة أطول من بعض طرق الخط الأساسي، الكفاءة تحتاج إلى تحسين
  4. آلية معالجة الأخطاء: استراتيجيات معالجة فشل النظام نسبياً بسيطة
  5. الاعتماد على آلية التكامل: يعتمد تكامل التفكير العميق على نماذج كبيرة متعددة، مما يزيد من تعقيد النظام

التأثير

  1. المساهمة الأكاديمية: توفير أفكار جديدة لتصميم معمارية الوكلاء، قد تؤثر على اتجاهات البحث المستقبلية
  2. القيمة العملية: لها قيمة تطبيقية مباشرة في أتمتة هندسة التعلم الآلي
  3. الأهمية المنهجية: إثبات أنه في بعض المهام، قد تكون المعمارية المبسطة أكثر فعالية من التنسيق المعقد

السيناريوهات المناسبة

  1. أتمتة هندسة ML: مناسبة للسيناريوهات التي تتطلب حلول ML من طرف إلى طرف
  2. التجارب البحثية: يمكن استخدامها للنماذج الأولية والتجارب السريعة
  3. التعليم والتدريب: كتطبيق مرجعي لأتمتة هندسة ML
  4. البيئات المقيدة: مناسبة للبيئات غير المتصلة بالإنترنت بدون وصول إلى الشبكة

المراجع

تستشهد الورقة بأعمال مهمة في المجالات ذات الصلة، بما في ذلك معيار MLE-Benchmark وسلسلة AutoML-GPT و SWE-agent وأطر عمل الوكلاء المختلفة، مما يوفر أساساً نظرياً قوياً وخطوط أساس للمقارنة.


التقييم الشامل: هذه ورقة ذات مساهمة مهمة في مجال هندسة التعلم الآلي المستقلة. من خلال تصميم معمارية وكيل واحد ذكي والتحقق التجريبي الصارم، تطعن بنجاح في هيمنة النموذج متعدد الوكلاء وتوفر أفكاراً وتوجيهات جديدة لتطور هذا المجال. على الرغم من وجود بعض القيود، فإن الابتكار التقني وتحسن الأداء يجعلها علامة فارقة مهمة في هذا المجال.