2025-11-12T08:13:09.449491

Failure-Driven Workflow Refinement

Zhang, Cai, Zeng et al.
Optimizing LLM-based workflows is typically formulated as a global search, where candidate workflows are evaluated based on a scalar metric. This paradigm, however, suffers from a critical flaw: information collapse. By reducing rich, multi-step execution traces to simple success/failure signals, existing methods are rendered blind to the underlying structure of failures, fundamentally preventing them from modeling the workflow's failure distribution. We reconceptualize this challenge as a distributional problem. We propose a new paradigm where the optimization goal is not to maximize a scalar score, but to directly minimize a workflow's Expected Failure Mass, i.e., the integral of its failure probability density function defined over a high-dimensional Failure Signature Space (FSS). This distributional lens allows us to move from inefficient, zero-order optimization to a principled, gradient-like descent on the failure landscape itself. We introduce CE-Graph, a framework that operationalizes this paradigm through a novel, failure-driven refinement process. CE-Graph approximates the failure distribution from a pool of counterexamples, identifies its densest regions as recurring failure modes, and applies targeted, operator-constrained graph edits via a Propose-and-Verify mechanism to greedily reduce the failure mass. On math, code, and QA benchmarks, our CE-Graph achieves higher robustness at a significantly lower cost than strong baselines. This suggests that a system's reliability emerges not from avoiding failures, but from systematically learning and reshaping the geometric structure of its failure distributions.
academic

تحسين سير العمل المدفوع بالفشل

المعلومات الأساسية

  • معرّف الورقة: 2510.10035
  • العنوان: Failure-Driven Workflow Refinement (تحسين سير العمل المدفوع بالفشل)
  • المؤلفون: Jusheng Zhang, Kaitong Cai, Qinglin Zeng, Ningyuan Liu, Yijia Fan, Ziliang Chen, Keze Wang (جامعة Sun Yat-sen، X-Era AI Lab)
  • التصنيف: cs.AI
  • حالة النشر: ورقة قيد التقديم
  • رابط الورقة: https://arxiv.org/abs/2510.10035

الملخص

تعالج هذه الورقة مشكلة "انهيار المعلومات" في تحسين سير عمل نماذج اللغة الكبيرة (LLM)، وتقترح نموذجاً جديداً للتحسين المدفوع بالفشل. تختزل الطرق التقليدية المسارات التنفيذية متعددة الخطوات الغنية بالمعلومات إلى إشارات ثنائية للنجاح/الفشل، مما يؤدي إلى عدم القدرة على نمذجة توزيع فشل سير العمل. يعيد المؤلفون تعريف هذه المشكلة كمشكلة تحسين توزيع، مما يقترح تقليل "الكتلة المتوقعة للفشل" (Expected Failure Mass) بدلاً من تعظيم درجة عددية. بناءً على هذا المفهوم، تم تصميم إطار عمل CE-Graph، الذي يقرّب توزيع الفشل من خلال مجموعة الأمثلة المضادة، ويحدد أكثر أنماط الفشل كثافة، ويطبق تعديلات رسومية موجهة لتقليل كتلة الفشل بشكل جشع. في معايير الرياضيات والأكواد والإجابة على الأسئلة، حقق CE-Graph متانة أعلى بتكاليف أقل بكثير.

خلفية البحث والدافع

المشاكل الأساسية

  1. مشكلة انهيار المعلومات: تضغط طرق تحسين سير عمل LLM الحالية مسارات الفشل المعقدة متعددة الخطوات إلى إشارات ثنائية بسيطة، مما يفقد المعلومات الهيكلية للفشل
  2. البحث العشوائي: لا تستطيع طرق البحث العام التقليدية فهم التوزيع المحتمل للفشل، مما يؤدي إلى كفاءة تحسين منخفضة
  3. قيود التحسين من الدرجة الصفرية: طرق التحسين القائمة على المقاييس العددية هي بطبيعتها من الدرجة الصفرية، وتفتقر إلى معلومات التدرج الموجهة

أهمية البحث

  • تطبيقات وكلاء سير عمل LLM واسعة الانتشار في الاستدلال طويل الأجل وحل المشاكل المعقدة
  • تحسين سير العمل ضروري لبناء أنظمة وكيل موثوقة
  • تحد الكفاءة المنخفضة للطرق الموجودة من النشر على نطاق واسع

قيود الطرق الموجودة

  1. نموذج البحث العام: تتطلب طرق مثل MCTS عينات كثيرة للتقارب
  2. التقييم الأسود الصندوق: تعتمد فقط على مقاييس عددية مثل معدل النجاح، ولا يمكنها الاستفادة من المعلومات الهيكلية للفشل
  3. العشوائية: لا يمكن تحديد وإصلاح أنماط الفشل المتكررة بشكل منهجي

المساهمات الأساسية

  1. نموذج تحسين جديد: يقترح نموذج تحسين مدفوع بالفشل، يعيد تعريف المشكلة كتحسين توزيع وليس تحسين عددي
  2. إطار نظري: يقدم مفهوم فضاء توقيع الفشل (Failure Signature Space) ومفهوم الكتلة المتوقعة للفشل
  3. إطار عمل CE-Graph: يصمم إطار عمل شامل يتضمن تجميع الفشل وآليات الاقتراح والتحقق
  4. التحقق التجريبي: يثبت فعالية وكفاءة الطريقة في معايير متعددة
  5. الضمانات النظرية: يوفر حدود تقليل الجودة الجشعة وتحليل التقارب

شرح الطريقة

تعريف المهمة

بالنظر إلى مجموعة البيانات D، الهدف هو بناء سير عمل W*، الذي يقلل الكتلة المتوقعة للفشل:

W* = argmin_{W∈S} M(W)
حيث M(W) = ∫_F p(s|W) ds

حيث F هو فضاء توقيع الفشل، و p(s|W) هي دالة كثافة احتمالية الفشل المستحثة من سير العمل W.

معمارية النموذج

1. بناء فضاء توقيع الفشل

  • تقطير الفشل: استخدام أداة LLM لاستخراج المسارات التنفيذية الأولية τ_d إلى صفوف منظمة (v_err, z_err)
  • متجهة دلالية-هيكلية:
    • الخريطة الهيكلية: ψ_struct(v_err) → R^|V| (ترميز one-hot)
    • الخريطة الدلالية: ψ_sem(z_err) → R^d (تضمين من نوع BERT)
    • التوقيع النهائي: s = ψ_struct(v_err) ⊕ ψ_sem(z_err)

2. خوارزمية تقليل الجودة الجشعة

الخطوة 1: تقريب اتجاه التدرج

  • استخدام نموذج الخليط الغاوسي (GMM) لملاءمة سحابة نقاط توقيع الفشل S_t
  • تحديد أكثر الأنماط كثافة: b*t = argmax π_k

الخطوة 2: البحث عن التعديل الأمثل

  • الاقتراح المقيد: يقترح LLM توليد N تعديل مرشح {Δ_1,...,Δ_N}
  • التحقق: حساب فائدة كل مرشح V(Δ_i) من خلال أخذ عينات مونت كارلو

3. آلية الاقتراح والتحقق

V(Δ_i) ≈ (1/K) Σ_{k=1}^K I[Verify(Execute(W_t ⊕ Δ_i, x_k), y_k) = 1]

نقاط الابتكار التقني

  1. منظور التوزيع: أول من ينظر إلى تحسين سير العمل كمشكلة إعادة تشكيل توزيع الفشل
  2. التحسين الأبيض الصندوق: مقارنة بالطرق السوداء الصندوق، يمكنها الاستفادة من البنية الداخلية للفشل
  3. النزول الشبيه بالتدرج: تحقيق مبادئ مشابهة للنزول المتدرج في الفضاء المنفصل
  4. التعديل المنظم: تقييد فضاء البحث من خلال مكتبة المشغلات، مما يضمن صحة التعديلات

إعداد التجارب

مجموعات البيانات

  • الاستدلال الرياضي: GSM8K, MATH, MultiArith
  • توليد الأكواد: HumanEval, MBPP
  • استخدام الأدوات: GAIA
  • تقسيم البيانات: 80% مجموعة تدريب، 10% مجموعة تحقق، 10% مجموعة اختبار

مقاييس التقييم

  • الدقة (Accuracy)
  • pass@1 (مهام الأكواد)
  • تكلفة التحسين (رموز API)
  • سرعة التقارب

طرق المقارنة

ثلاث فئات من الأساليس:

  1. وكيل واحد: Vanilla, CoT, ComplexCoT, SC
  2. وكلاء متعددون يدويون: MultiPersona, LLM-Debate, DyLAN وغيرها
  3. وكلاء تلقائيون: AutoAgents, AFlow, MaAS وغيرها

تفاصيل التنفيذ

  • النموذج الأساسي: GPT-4o-mini
  • المعاملات الفائقة: N=5, K=10, T_max=20
  • مكتبة المشغلات: RevisePrompt, InsertNode, DeleteNode
  • نموذج التضمين: text-embedding-ada-002

نتائج التجارب

النتائج الرئيسية

يتفوق CE-Graph على جميع الطرق الأساسية في جميع معايير الاختبار:

  • متوسط الأداء: 86.23% مقابل 83.59% (MaAS)
  • MATH: 55.91% (+4.1% مقابل MaAS)
  • MBPP: 88.10% (+5.9% مقابل MaAS)
  • HumanEval: 94.26% (+1.4% مقابل MaAS)

تحليل التكلفة

  • تحقيق أعلى دقة (53.5%) على معيار MATH مع الحفاظ على أقل تكلفة حسابية
  • معايير التوقف الموجهة للتقارب توفر أكثر من 50% من تكاليف التحسين
  • متانة قوية لتغييرات ميزانية الرموز

تجارب الاستبعاد

تحليل مساهمة المكونات الرئيسية:

  • بدون تجميع: دقة MATH تنخفض إلى 51.25% (-4.66%)
  • بدون تحقق: تنخفض إلى 49.10% (-6.81%)
  • بدون مشغلات منظمة: تنخفض إلى 47.35% (-8.56%)
  • بدون توقف التقارب: تزيد التكلفة بأكثر من 50%

تحليل الاستقرار

التقييم الطولي على مجموعة فشل ثابتة E_0 يظهر:

  • يظهر CE-Graph مسار متزايد أحادي سلس
  • تظهر طرق الأساس (خاصة AFlow) تذبذبات كبيرة، مما يعكس مشاكل تذبذب الاستراتيجية

الأعمال ذات الصلة

تحسين سير العمل التلقائي

  • تستخدم MaAS و AFlow استراتيجيات بحث عام (MCTS، الخوارزميات التطورية)
  • تحسن أطر عمل مثل DSPy المطالبات لكنها تعتمد على مقاييس عددية
  • يحقق CE-Graph اختراقاً من خلال الحفاظ على الدلالات والمعلومات الهيكلية للفشل

التحسين الموجه بالأمثلة المضادة

  • ينبع من تجميع البرامج والتحقق الرسمي (مثل CEGAR)
  • تواجه الطرق التقليدية صعوبة في التعامل مع أخطاء LLM الدلالية العشوائية
  • يكيف CE-Graph هذا المبدأ للمجال المفتوح لـ LLM

التصحيح الذاتي على مستوى المثيل

  • تحسن Self-Consistency و Reflexion المخرجات الفردية من خلال التصويت أو التأمل المطالب
  • توجد مخاطر الإفراط في التدريب، وصعوبة التقاط العيوب المنهجية
  • يتبنى CE-Graph منظور توزيع عام، ويجمع الأمثلة المضادة للإصلاح المنظم

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. تحول النموذج: تحول النموذج من التحسين العددي إلى تحسين التوزيع فعال
  2. أهمية البنية: استخدام المعلومات الهيكلية للفشل أكثر فعالية من تجاهلها
  3. موثوقية النظام: تنبع الموثوقية الحقيقية من الفهم المنهجي وإعادة تشكيل توزيع الفشل، وليس من تجنب الفشل البسيط

القيود

  1. الاعتماد على التضمين: يعتمد بناء فضاء توقيع الفشل على جودة التضمين الدلالي
  2. الافتراض الجشع: يفترض أن أكثر أنماط الفشل شيوعاً تتوافق مع أهم أهداف الإصلاح
  3. تصميم مكتبة المشغلات: يتطلب التوازن بين التعبيرية والقيود
  4. ضمانات التقارب: لا يمكن ضمان الأمثلية العامة، قد تقع في الحد الأدنى المحلي

الاتجاهات المستقبلية

  1. التضمين التكيفي: طرق التضمين التي تتطور مع سير العمل
  2. الأهداف الحساسة للمخاطر: موازنة الأهداف بين الأخطاء المتكررة والنادرة
  3. استراتيجيات التعلم الفوقي: توسيع أو تقليص مكتبة المشغلات بشكل ديناميكي
  4. التوسع متعدد الأنماط: التوسع إلى سير عمل متعدد الأنماط

التقييم المتعمق

المزايا

  1. المساهمة النظرية: توفر إطار نظري جديد لتحسين سير عمل LLM، مع أساس رياضي متين
  2. الفعالية العملية: تحقيق تحسينات كبيرة في معايير متعددة، مما يثبت فعالية الطريقة
  3. تحسين الكفاءة: تقليل كبير في التكاليف الحسابية مقارنة بطرق البحث العام
  4. العمومية: فعالة عبر مجالات مهام مختلفة (الرياضيات والأكواد والإجابة على الأسئلة)
  5. القابلية للتفسير: توفير قابلية تفسير لعملية التحسين من خلال تجميع أنماط الفشل

أوجه القصور

  1. التعقيد: الإطار معقد نسبياً، يتضمن مكونات متعددة، قد يكون التنفيذ والتصحيح صعباً
  2. الاعتماديات: اعتماد قوي على جودة LLM وأداء نموذج التضمين
  3. قابلية التوسع: تحتاج قابلية التوسع على رسوم بيانية سير عمل كبيرة إلى مزيد من التحقق
  4. القدرة على التعميم: التجارب على القدرة على التعميم عبر النماذج ومجموعات البيانات محدودة

التأثير

  1. القيمة الأكاديمية: توفير اتجاه بحثي جديد لتحسين سير عمل LLM
  2. القيمة العملية: يمكن تطبيقها على تطوير أنظمة وكيل فعلية
  3. الإلهام: قد تلهم فكرة التحسين المدفوع بالفشل طرق تحسين أنظمة ذكية أخرى

السيناريوهات المعمول بها

  1. أنظمة الوكيل المعقدة: أنظمة الاستدلال متعددة الخطوات التي تتطلب موثوقية عالية
  2. البيئات محدودة الموارد: السيناريوهات التي تتطلب تحسين فعال
  3. متطلبات القابلية للتفسير: التطبيقات التي تتطلب فهم عملية التحسين
  4. أنظمة التطوير التكراري: أنظمة سير العمل التي تتطلب تحسين مستمر

المراجع

تستشهد الورقة بعدد كبير من الأعمال ذات الصلة، بما في ذلك:

  • تحسين سير العمل: Zhang et al. (2025a,b), Khattab et al. (2024)
  • الطرق الموجهة بالأمثلة المضادة: Hidvégi et al. (2024), Renze & Guven (2024)
  • أنظمة وكيل LLM: Chen et al. (2024), Liu et al. (2024)
  • معايير الاختبار: Cobbe et al. (2021), Hendrycks et al. (2021)

التقييم الإجمالي: هذه ورقة ذات مساهمات نظرية وقيمة عملية مهمة، تقترح نموذجاً جديداً لتحسين سير عمل LLM. على الرغم من أن الطريقة معقدة نسبياً، إلا أن نتائج التجارب مقنعة وتوفر أفكاراً قيمة جديدة للمجال. الورقة مكتوبة بوضوح، والتحليل النظري شامل، وهي تمثل تقدماً مهماً في هذا المجال.