Optimizing LLM-based workflows is typically formulated as a global search, where candidate workflows are evaluated based on a scalar metric. This paradigm, however, suffers from a critical flaw: information collapse. By reducing rich, multi-step execution traces to simple success/failure signals, existing methods are rendered blind to the underlying structure of failures, fundamentally preventing them from modeling the workflow's failure distribution. We reconceptualize this challenge as a distributional problem. We propose a new paradigm where the optimization goal is not to maximize a scalar score, but to directly minimize a workflow's Expected Failure Mass, i.e., the integral of its failure probability density function defined over a high-dimensional Failure Signature Space (FSS). This distributional lens allows us to move from inefficient, zero-order optimization to a principled, gradient-like descent on the failure landscape itself. We introduce CE-Graph, a framework that operationalizes this paradigm through a novel, failure-driven refinement process. CE-Graph approximates the failure distribution from a pool of counterexamples, identifies its densest regions as recurring failure modes, and applies targeted, operator-constrained graph edits via a Propose-and-Verify mechanism to greedily reduce the failure mass. On math, code, and QA benchmarks, our CE-Graph achieves higher robustness at a significantly lower cost than strong baselines. This suggests that a system's reliability emerges not from avoiding failures, but from systematically learning and reshaping the geometric structure of its failure distributions.
यह पेपर LLM वर्कफ़्लो अनुकूलन में "सूचना पतन" समस्या के समाधान के लिए एक नया विफलता-संचालित अनुकूलन प्रतिमान प्रस्तावित करता है। पारंपरिक विधियाँ समृद्ध बहु-चरणीय निष्पादन प्रक्षेपवक्र को द्विआधारी सफलता/विफलता संकेत में सरल बनाती हैं, जिससे वर्कफ़्लो की विफलता वितरण को मॉडल करना असंभव हो जाता है। लेखक इस समस्या को वितरण अनुकूलन समस्या के रूप में पुनः परिभाषित करते हैं, अदिश स्कोर को अधिकतम करने के बजाय "अपेक्षित विफलता द्रव्यमान" को न्यूनतम करने का प्रस्ताव देते हैं। इस विचार के आधार पर, CE-Graph ढाँचा डिज़ाइन किया गया है, जो प्रतिउदाहरण पूल के माध्यम से विफलता वितरण का अनुमान लगाता है, सबसे घनी विफलता पैटर्न की पहचान करता है, और विफलता द्रव्यमान को लालची ढंग से कम करने के लिए लक्षित ग्राफ संपादन लागू करता है। गणित, कोड और प्रश्नोत्तर बेंचमार्क पर, CE-Graph काफी कम लागत पर उच्च मजबूती प्राप्त करता है।
सूचना पतन समस्या: मौजूदा LLM वर्कफ़्लो अनुकूलन विधियाँ जटिल बहु-चरणीय विफलता प्रक्षेपवक्र को सरल द्विआधारी संकेत में संपीड़ित करती हैं, विफलता की संरचनात्मक जानकारी खो देती हैं
अंधा खोज: पारंपरिक वैश्विक खोज विधियाँ विफलता के संभावित वितरण को समझ नहीं सकती हैं, जिससे अनुकूलन दक्षता कम हो जाती है
शून्य-क्रम अनुकूलन सीमाएँ: अदिश मेट्रिक्स पर आधारित अनुकूलन विधियाँ मूलतः शून्य-क्रम की हैं, ढाल जानकारी का अभाव है
नया अनुकूलन प्रतिमान: विफलता-संचालित अनुकूलन प्रतिमान प्रस्तावित करता है, समस्या को अदिश अनुकूलन के बजाय वितरण अनुकूलन के रूप में पुनः परिभाषित करता है
सैद्धांतिक ढाँचा: विफलता हस्ताक्षर स्थान और अपेक्षित विफलता द्रव्यमान अवधारणा प्रस्तुत करता है
CE-Graph ढाँचा: पूर्ण कार्यान्वयन ढाँचा डिज़ाइन करता है, जिसमें विफलता क्लस्टरिंग, प्रस्ताव सत्यापन तंत्र आदि शामिल हैं
प्रायोगिक सत्यापन: कई बेंचमार्क में विधि की प्रभावशीलता और दक्षता साबित करता है
सैद्धांतिक गारंटी: लालची द्रव्यमान कमी के लिए सैद्धांतिक सीमाएँ और अभिसरण विश्लेषण प्रदान करता है
पेपर संबंधित कार्यों के बड़ी संख्या में उद्धृत करता है, जिनमें शामिल हैं:
वर्कफ़्लो अनुकूलन: Zhang et al. (2025a,b), Khattab et al. (2024)
प्रतिउदाहरण-निर्देशित विधियाँ: Hidvégi et al. (2024), Renze & Guven (2024)
LLM एजेंट प्रणालियाँ: Chen et al. (2024), Liu et al. (2024)
बेंचमार्क: Cobbe et al. (2021), Hendrycks et al. (2021)
समग्र मूल्यांकन: यह महत्वपूर्ण सैद्धांतिक योगदान और व्यावहारिक मूल्य वाला एक पेपर है, जो LLM वर्कफ़्लो अनुकूलन के लिए नया प्रतिमान प्रस्तावित करता है। यद्यपि विधि काफी जटिल है, प्रायोगिक परिणाम विश्वासपूर्ण हैं, इस क्षेत्र के लिए मूल्यवान नई सोच प्रदान करते हैं। पेपर का लेखन स्पष्ट है, सैद्धांतिक विश्लेषण पर्याप्त है, यह इस क्षेत्र में एक महत्वपूर्ण प्रगति है।