Optimizing LLM-based workflows is typically formulated as a global search, where candidate workflows are evaluated based on a scalar metric. This paradigm, however, suffers from a critical flaw: information collapse. By reducing rich, multi-step execution traces to simple success/failure signals, existing methods are rendered blind to the underlying structure of failures, fundamentally preventing them from modeling the workflow's failure distribution. We reconceptualize this challenge as a distributional problem. We propose a new paradigm where the optimization goal is not to maximize a scalar score, but to directly minimize a workflow's Expected Failure Mass, i.e., the integral of its failure probability density function defined over a high-dimensional Failure Signature Space (FSS). This distributional lens allows us to move from inefficient, zero-order optimization to a principled, gradient-like descent on the failure landscape itself. We introduce CE-Graph, a framework that operationalizes this paradigm through a novel, failure-driven refinement process. CE-Graph approximates the failure distribution from a pool of counterexamples, identifies its densest regions as recurring failure modes, and applies targeted, operator-constrained graph edits via a Propose-and-Verify mechanism to greedily reduce the failure mass. On math, code, and QA benchmarks, our CE-Graph achieves higher robustness at a significantly lower cost than strong baselines. This suggests that a system's reliability emerges not from avoiding failures, but from systematically learning and reshaping the geometric structure of its failure distributions.
تعالج هذه الورقة مشكلة "انهيار المعلومات" في تحسين سير عمل نماذج اللغة الكبيرة (LLM)، وتقترح نموذجاً جديداً للتحسين المدفوع بالفشل. تختزل الطرق التقليدية المسارات التنفيذية متعددة الخطوات الغنية بالمعلومات إلى إشارات ثنائية للنجاح/الفشل، مما يؤدي إلى عدم القدرة على نمذجة توزيع فشل سير العمل. يعيد المؤلفون تعريف هذه المشكلة كمشكلة تحسين توزيع، مما يقترح تقليل "الكتلة المتوقعة للفشل" (Expected Failure Mass) بدلاً من تعظيم درجة عددية. بناءً على هذا المفهوم، تم تصميم إطار عمل CE-Graph، الذي يقرّب توزيع الفشل من خلال مجموعة الأمثلة المضادة، ويحدد أكثر أنماط الفشل كثافة، ويطبق تعديلات رسومية موجهة لتقليل كتلة الفشل بشكل جشع. في معايير الرياضيات والأكواد والإجابة على الأسئلة، حقق CE-Graph متانة أعلى بتكاليف أقل بكثير.
مشكلة انهيار المعلومات: تضغط طرق تحسين سير عمل LLM الحالية مسارات الفشل المعقدة متعددة الخطوات إلى إشارات ثنائية بسيطة، مما يفقد المعلومات الهيكلية للفشل
البحث العشوائي: لا تستطيع طرق البحث العام التقليدية فهم التوزيع المحتمل للفشل، مما يؤدي إلى كفاءة تحسين منخفضة
قيود التحسين من الدرجة الصفرية: طرق التحسين القائمة على المقاييس العددية هي بطبيعتها من الدرجة الصفرية، وتفتقر إلى معلومات التدرج الموجهة
تستشهد الورقة بعدد كبير من الأعمال ذات الصلة، بما في ذلك:
تحسين سير العمل: Zhang et al. (2025a,b), Khattab et al. (2024)
الطرق الموجهة بالأمثلة المضادة: Hidvégi et al. (2024), Renze & Guven (2024)
أنظمة وكيل LLM: Chen et al. (2024), Liu et al. (2024)
معايير الاختبار: Cobbe et al. (2021), Hendrycks et al. (2021)
التقييم الإجمالي: هذه ورقة ذات مساهمات نظرية وقيمة عملية مهمة، تقترح نموذجاً جديداً لتحسين سير عمل LLM. على الرغم من أن الطريقة معقدة نسبياً، إلا أن نتائج التجارب مقنعة وتوفر أفكاراً قيمة جديدة للمجال. الورقة مكتوبة بوضوح، والتحليل النظري شامل، وهي تمثل تقدماً مهماً في هذا المجال.