2025-11-12T08:13:09.449491

Failure-Driven Workflow Refinement

Zhang, Cai, Zeng et al.
Optimizing LLM-based workflows is typically formulated as a global search, where candidate workflows are evaluated based on a scalar metric. This paradigm, however, suffers from a critical flaw: information collapse. By reducing rich, multi-step execution traces to simple success/failure signals, existing methods are rendered blind to the underlying structure of failures, fundamentally preventing them from modeling the workflow's failure distribution. We reconceptualize this challenge as a distributional problem. We propose a new paradigm where the optimization goal is not to maximize a scalar score, but to directly minimize a workflow's Expected Failure Mass, i.e., the integral of its failure probability density function defined over a high-dimensional Failure Signature Space (FSS). This distributional lens allows us to move from inefficient, zero-order optimization to a principled, gradient-like descent on the failure landscape itself. We introduce CE-Graph, a framework that operationalizes this paradigm through a novel, failure-driven refinement process. CE-Graph approximates the failure distribution from a pool of counterexamples, identifies its densest regions as recurring failure modes, and applies targeted, operator-constrained graph edits via a Propose-and-Verify mechanism to greedily reduce the failure mass. On math, code, and QA benchmarks, our CE-Graph achieves higher robustness at a significantly lower cost than strong baselines. This suggests that a system's reliability emerges not from avoiding failures, but from systematically learning and reshaping the geometric structure of its failure distributions.
academic

विफलता-संचालित वर्कफ़्लो परिशोधन

मूल जानकारी

  • पेपर ID: 2510.10035
  • शीर्षक: विफलता-संचालित वर्कफ़्लो परिशोधन
  • लेखक: Jusheng Zhang, Kaitong Cai, Qinglin Zeng, Ningyuan Liu, Yijia Fan, Ziliang Chen, Keze Wang (सन यात-सेन विश्वविद्यालय, X-Era AI Lab)
  • वर्गीकरण: cs.AI
  • प्रकाशन स्थिति: समीक्षाधीन पेपर
  • पेपर लिंक: https://arxiv.org/abs/2510.10035

सारांश

यह पेपर LLM वर्कफ़्लो अनुकूलन में "सूचना पतन" समस्या के समाधान के लिए एक नया विफलता-संचालित अनुकूलन प्रतिमान प्रस्तावित करता है। पारंपरिक विधियाँ समृद्ध बहु-चरणीय निष्पादन प्रक्षेपवक्र को द्विआधारी सफलता/विफलता संकेत में सरल बनाती हैं, जिससे वर्कफ़्लो की विफलता वितरण को मॉडल करना असंभव हो जाता है। लेखक इस समस्या को वितरण अनुकूलन समस्या के रूप में पुनः परिभाषित करते हैं, अदिश स्कोर को अधिकतम करने के बजाय "अपेक्षित विफलता द्रव्यमान" को न्यूनतम करने का प्रस्ताव देते हैं। इस विचार के आधार पर, CE-Graph ढाँचा डिज़ाइन किया गया है, जो प्रतिउदाहरण पूल के माध्यम से विफलता वितरण का अनुमान लगाता है, सबसे घनी विफलता पैटर्न की पहचान करता है, और विफलता द्रव्यमान को लालची ढंग से कम करने के लिए लक्षित ग्राफ संपादन लागू करता है। गणित, कोड और प्रश्नोत्तर बेंचमार्क पर, CE-Graph काफी कम लागत पर उच्च मजबूती प्राप्त करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्याएँ

  1. सूचना पतन समस्या: मौजूदा LLM वर्कफ़्लो अनुकूलन विधियाँ जटिल बहु-चरणीय विफलता प्रक्षेपवक्र को सरल द्विआधारी संकेत में संपीड़ित करती हैं, विफलता की संरचनात्मक जानकारी खो देती हैं
  2. अंधा खोज: पारंपरिक वैश्विक खोज विधियाँ विफलता के संभावित वितरण को समझ नहीं सकती हैं, जिससे अनुकूलन दक्षता कम हो जाती है
  3. शून्य-क्रम अनुकूलन सीमाएँ: अदिश मेट्रिक्स पर आधारित अनुकूलन विधियाँ मूलतः शून्य-क्रम की हैं, ढाल जानकारी का अभाव है

अनुसंधान का महत्व

  • LLM एजेंट वर्कफ़्लो दीर्घकालीन तर्क और जटिल समस्या समाधान में व्यापक रूप से लागू होते हैं
  • वर्कफ़्लो अनुकूलन विश्वसनीय एजेंट सिस्टम के निर्माण के लिए महत्वपूर्ण है
  • मौजूदा विधियों की अक्षमता बड़े पैमाने पर तैनाती में बाधा डालती है

मौजूदा विधियों की सीमाएँ

  1. वैश्विक खोज प्रतिमान: MCTS जैसी विधियों को अभिसरण के लिए बड़ी मात्रा में नमूनाकरण की आवश्यकता होती है
  2. ब्लैक-बॉक्स मूल्यांकन: केवल सफलता दर जैसे अदिश मेट्रिक्स पर निर्भर, विफलता की संरचनात्मक जानकारी का उपयोग नहीं कर सकते
  3. यादृच्छिकता: बार-बार होने वाली विफलता पैटर्न की व्यवस्थित रूप से पहचान और मरम्मत नहीं कर सकते

मूल योगदान

  1. नया अनुकूलन प्रतिमान: विफलता-संचालित अनुकूलन प्रतिमान प्रस्तावित करता है, समस्या को अदिश अनुकूलन के बजाय वितरण अनुकूलन के रूप में पुनः परिभाषित करता है
  2. सैद्धांतिक ढाँचा: विफलता हस्ताक्षर स्थान और अपेक्षित विफलता द्रव्यमान अवधारणा प्रस्तुत करता है
  3. CE-Graph ढाँचा: पूर्ण कार्यान्वयन ढाँचा डिज़ाइन करता है, जिसमें विफलता क्लस्टरिंग, प्रस्ताव सत्यापन तंत्र आदि शामिल हैं
  4. प्रायोगिक सत्यापन: कई बेंचमार्क में विधि की प्रभावशीलता और दक्षता साबित करता है
  5. सैद्धांतिक गारंटी: लालची द्रव्यमान कमी के लिए सैद्धांतिक सीमाएँ और अभिसरण विश्लेषण प्रदान करता है

विधि विवरण

कार्य परिभाषा

दिए गए डेटासेट D के लिए, लक्ष्य वर्कफ़्लो W* का निर्माण करना है जो अपेक्षित विफलता द्रव्यमान को न्यूनतम करे:

W* = argmin_{W∈S} M(W)
जहाँ M(W) = ∫_F p(s|W) ds

यहाँ F विफलता हस्ताक्षर स्थान है, p(s|W) वर्कफ़्लो W द्वारा प्रेरित विफलता संभाव्यता घनत्व फलन है।

मॉडल आर्किटेक्चर

1. विफलता हस्ताक्षर स्थान निर्माण

  • विफलता आसवन: उपकरण LLM का उपयोग करके कच्चे निष्पादन प्रक्षेपवक्र τ_d को संरचित टपल (v_err, z_err) में निकाला जाता है
  • शब्दार्थ-संरचनात्मक सदिशकरण:
    • संरचनात्मक मानचित्रण: ψ_struct(v_err) → R^|V| (वन-हॉट एन्कोडिंग)
    • शब्दार्थ मानचित्रण: ψ_sem(z_err) → R^d (BERT जैसी एम्बेडिंग)
    • अंतिम हस्ताक्षर: s = ψ_struct(v_err) ⊕ ψ_sem(z_err)

2. लालची द्रव्यमान कमी एल्गोरिथ्म

चरण 1: ढाल दिशा अनुमान

  • गॉसियन मिश्रण मॉडल (GMM) का उपयोग करके विफलता हस्ताक्षर बिंदु क्लाउड S_t को फिट किया जाता है
  • सबसे घनी पैटर्न की पहचान: b*t = argmax π_k

चरण 2: इष्टतम संपादन खोज

  • बाधित प्रस्ताव: प्रस्ताव LLM N उम्मीदवार संपादन {Δ_1,...,Δ_N} उत्पन्न करता है
  • सत्यापन: मोंटे कार्लो नमूनाकरण के माध्यम से प्रत्येक उम्मीदवार की उपयोगिता V(Δ_i) की गणना की जाती है

3. प्रस्ताव सत्यापन तंत्र

V(Δ_i) ≈ (1/K) Σ_{k=1}^K I[Verify(Execute(W_t ⊕ Δ_i, x_k), y_k) = 1]

तकनीकी नवाचार

  1. वितरण दृष्टिकोण: पहली बार वर्कफ़्लो अनुकूलन को विफलता वितरण पुनर्गठन समस्या के रूप में देखता है
  2. व्हाइट-बॉक्स अनुकूलन: ब्लैक-बॉक्स विधियों की तुलना में, विफलता की आंतरिक संरचना का उपयोग कर सकता है
  3. ढाल-जैसा अवतरण: असतत स्थान में ढाल अवतरण के समान सिद्धांत को लागू करता है
  4. संरचित संपादन: ऑपरेटर लाइब्रेरी के माध्यम से खोज स्थान को बाधित करता है, संपादन की वैधता सुनिश्चित करता है

प्रायोगिक सेटअप

डेटासेट

  • गणितीय तर्क: GSM8K, MATH, MultiArith
  • कोड जनरेशन: HumanEval, MBPP
  • उपकरण उपयोग: GAIA
  • डेटा विभाजन: प्रशिक्षण सेट 80%, सत्यापन सेट 10%, परीक्षण सेट 10%

मूल्यांकन मेट्रिक्स

  • सटीकता (Accuracy)
  • pass@1 (कोड कार्य)
  • अनुकूलन लागत (API टोकन)
  • अभिसरण गति

तुलनात्मक विधियाँ

तीन वर्गों की आधार रेखा प्रणालियाँ:

  1. एकल एजेंट: Vanilla, CoT, ComplexCoT, SC
  2. हस्तनिर्मित बहु-एजेंट: MultiPersona, LLM-Debate, DyLAN आदि
  3. स्वचालित एजेंट: AutoAgents, AFlow, MaAS आदि

कार्यान्वयन विवरण

  • आधार मॉडल: GPT-4o-mini
  • हाइपरपैरामीटर: N=5, K=10, T_max=20
  • ऑपरेटर लाइब्रेरी: RevisePrompt, InsertNode, DeleteNode
  • एम्बेडिंग मॉडल: text-embedding-ada-002

प्रायोगिक परिणाम

मुख्य परिणाम

CE-Graph सभी बेंचमार्क में आधार रेखा विधियों से आगे निकल जाता है:

  • औसत प्रदर्शन: 86.23% बनाम 83.59% (MaAS)
  • MATH: 55.91% (+4.1% बनाम MaAS)
  • MBPP: 88.10% (+5.9% बनाम MaAS)
  • HumanEval: 94.26% (+1.4% बनाम MaAS)

लागत विश्लेषण

  • MATH बेंचमार्क पर सर्वोच्च सटीकता (53.5%) प्राप्त करते हुए न्यूनतम कम्प्यूटेशनल लागत बनाए रखता है
  • अभिसरण-जागरूक रोक मानदंड 50% से अधिक अनुकूलन लागत बचाता है
  • टोकन बजट परिवर्तन के लिए मजबूत मजबूती

विलोपन प्रयोग

मुख्य घटक योगदान विश्लेषण:

  • बिना क्लस्टरिंग: MATH सटीकता 51.25% तक गिरती है (-4.66%)
  • बिना सत्यापन: 49.10% तक गिरती है (-6.81%)
  • बिना संरचित ऑपरेटर: 47.35% तक गिरती है (-8.56%)
  • बिना अभिसरण रोक: लागत 50%+ बढ़ जाती है

स्थिरता विश्लेषण

निश्चित विफलता सेट E_0 पर अनुदैर्ध्य मूल्यांकन दिखाता है:

  • CE-Graph सुचारु एकरस वृद्धि प्रक्षेपवक्र प्रदर्शित करता है
  • आधार रेखा विधियाँ (विशेषकर AFlow) महत्वपूर्ण उतार-चढ़ाव दिखाती हैं, रणनीति दोलन समस्या को प्रतिबिंबित करती हैं

संबंधित कार्य

स्वचालित वर्कफ़्लो अनुकूलन

  • MaAS, AFlow आदि वैश्विक खोज रणनीति (MCTS, विकासवादी एल्गोरिथ्म) का उपयोग करते हैं
  • DSPy जैसी ढाँचे प्रॉम्प्ट को अनुकूलित करते हैं लेकिन अदिश मेट्रिक्स पर निर्भर रहते हैं
  • CE-Graph विफलता शब्दार्थ और संरचनात्मक जानकारी को संरक्षित करके सफलता प्राप्त करता है

प्रतिउदाहरण-निर्देशित परिशोधन

  • प्रोग्राम संश्लेषण और औपचारिक सत्यापन से उत्पन्न (जैसे CEGAR)
  • पारंपरिक विधियाँ निर्धारक प्रणालियों के लिए हैं, LLM की यादृच्छिक शब्दार्थ विफलताओं को संभालना कठिन है
  • CE-Graph इस सिद्धांत को खुली LLM क्षेत्र में अनुकूलित करता है

उदाहरण-स्तरीय स्व-सुधार

  • Self-Consistency, Reflexion आदि मतदान या प्रॉम्प्ट प्रतिबिंब के माध्यम से एकल आउटपुट में सुधार करते हैं
  • अधिक फिटिंग का जोखिम, व्यवस्थित कमियों को पकड़ना कठिन है
  • CE-Graph वैश्विक वितरण दृष्टिकोण अपनाता है, संरचित मरम्मत के लिए प्रतिउदाहरण एकत्र करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. प्रतिमान परिवर्तन: अदिश अनुकूलन से वितरण अनुकूलन में प्रतिमान परिवर्तन प्रभावी है
  2. संरचना का महत्व: विफलता की संरचनात्मक जानकारी का उपयोग उन्हें अनदेखा करने की तुलना में अधिक प्रभावी है
  3. प्रणाली विश्वसनीयता: वास्तविक विश्वसनीयता विफलता वितरण की व्यवस्थित समझ और पुनर्गठन से आती है, न कि केवल विफलता से बचने से

सीमाएँ

  1. एम्बेडिंग निर्भरता: विफलता हस्ताक्षर स्थान निर्माण शब्दार्थ एम्बेडिंग गुणवत्ता पर निर्भर है
  2. लालची धारणा: मानता है कि सबसे व्यापक विफलता पैटर्न सबसे महत्वपूर्ण मरम्मत लक्ष्य के अनुरूप है
  3. ऑपरेटर लाइब्रेरी डिज़ाइन: अभिव्यक्ति और बाधा के बीच संतुलन की आवश्यकता है
  4. अभिसरण गारंटी: वैश्विक इष्टतमता की गारंटी नहीं दे सकता, स्थानीय इष्टतम में फंस सकता है

भविष्य की दिशाएँ

  1. अनुकूली एम्बेडिंग: वर्कफ़्लो विकास के साथ एम्बेडिंग विधियाँ
  2. जोखिम-संवेदनशील उद्देश्य: आवृत्त और दुर्लभ विफलताओं को संतुलित करने वाले उद्देश्य फलन
  3. मेटा-लर्निंग रणनीति: ऑपरेटर लाइब्रेरी को गतिशील रूप से विस्तारित या छंटाई करना
  4. बहु-मोडल विस्तार: बहु-मोडल वर्कफ़्लो तक विस्तार

गहन मूल्यांकन

शक्तियाँ

  1. सैद्धांतिक योगदान: वर्कफ़्लो अनुकूलन के लिए नया सैद्धांतिक ढाँचा प्रदान करता है, दृढ़ गणितीय आधार के साथ
  2. व्यावहारिक प्रभाव: कई बेंचमार्क में महत्वपूर्ण सुधार, विधि की प्रभावशीलता साबित करता है
  3. दक्षता वृद्धि: वैश्विक खोज विधियों की तुलना में कम्प्यूटेशनल लागत में काफी कमी
  4. सामान्यता: विभिन्न कार्य डोमेन (गणित, कोड, QA) में प्रभावी
  5. व्याख्यात्मकता: विफलता पैटर्न क्लस्टरिंग के माध्यम से अनुकूलन प्रक्रिया की व्याख्यात्मकता प्रदान करता है

कमजोरियाँ

  1. जटिलता: ढाँचा काफी जटिल है, कई घटक शामिल हैं, कार्यान्वयन और डिबगिंग कठिन हो सकती है
  2. निर्भरता: LLM गुणवत्ता और एम्बेडिंग मॉडल प्रदर्शन पर मजबूत निर्भरता
  3. स्केलेबिलिटी: बड़े वर्कफ़्लो ग्राफ पर स्केलेबिलिटी को आगे सत्यापन की आवश्यकता है
  4. सामान्यीकरण: मॉडल और डेटासेट के बीच सामान्यीकरण क्षमता का प्रयोग सीमित है

प्रभाव

  1. शैक्षणिक मूल्य: LLM वर्कफ़्लो अनुकूलन के लिए नई अनुसंधान दिशा प्रदान करता है
  2. व्यावहारिक मूल्य: वास्तविक एजेंट सिस्टम विकास में लागू किया जा सकता है
  3. प्रेरणा: विफलता-संचालित विचार अन्य AI प्रणालियों की अनुकूलन विधियों को प्रेरित कर सकता है

लागू परिदृश्य

  1. जटिल एजेंट प्रणालियाँ: उच्च विश्वसनीयता की आवश्यकता वाली बहु-चरणीय तर्क प्रणालियाँ
  2. संसाधन-सीमित वातावरण: उच्च दक्षता अनुकूलन की आवश्यकता वाले परिदृश्य
  3. व्याख्यात्मकता आवश्यकताएँ: अनुकूलन प्रक्रिया को समझने की आवश्यकता वाले अनुप्रयोग
  4. पुनरावृत्तीय विकास: निरंतर सुधार की आवश्यकता वाली वर्कफ़्लो प्रणालियाँ

संदर्भ

पेपर संबंधित कार्यों के बड़ी संख्या में उद्धृत करता है, जिनमें शामिल हैं:

  • वर्कफ़्लो अनुकूलन: Zhang et al. (2025a,b), Khattab et al. (2024)
  • प्रतिउदाहरण-निर्देशित विधियाँ: Hidvégi et al. (2024), Renze & Guven (2024)
  • LLM एजेंट प्रणालियाँ: Chen et al. (2024), Liu et al. (2024)
  • बेंचमार्क: Cobbe et al. (2021), Hendrycks et al. (2021)

समग्र मूल्यांकन: यह महत्वपूर्ण सैद्धांतिक योगदान और व्यावहारिक मूल्य वाला एक पेपर है, जो LLM वर्कफ़्लो अनुकूलन के लिए नया प्रतिमान प्रस्तावित करता है। यद्यपि विधि काफी जटिल है, प्रायोगिक परिणाम विश्वासपूर्ण हैं, इस क्षेत्र के लिए मूल्यवान नई सोच प्रदान करते हैं। पेपर का लेखन स्पष्ट है, सैद्धांतिक विश्लेषण पर्याप्त है, यह इस क्षेत्र में एक महत्वपूर्ण प्रगति है।