Optimizing LLM-based workflows is typically formulated as a global search, where candidate workflows are evaluated based on a scalar metric. This paradigm, however, suffers from a critical flaw: information collapse. By reducing rich, multi-step execution traces to simple success/failure signals, existing methods are rendered blind to the underlying structure of failures, fundamentally preventing them from modeling the workflow's failure distribution. We reconceptualize this challenge as a distributional problem. We propose a new paradigm where the optimization goal is not to maximize a scalar score, but to directly minimize a workflow's Expected Failure Mass, i.e., the integral of its failure probability density function defined over a high-dimensional Failure Signature Space (FSS). This distributional lens allows us to move from inefficient, zero-order optimization to a principled, gradient-like descent on the failure landscape itself. We introduce CE-Graph, a framework that operationalizes this paradigm through a novel, failure-driven refinement process. CE-Graph approximates the failure distribution from a pool of counterexamples, identifies its densest regions as recurring failure modes, and applies targeted, operator-constrained graph edits via a Propose-and-Verify mechanism to greedily reduce the failure mass. On math, code, and QA benchmarks, our CE-Graph achieves higher robustness at a significantly lower cost than strong baselines. This suggests that a system's reliability emerges not from avoiding failures, but from systematically learning and reshaping the geometric structure of its failure distributions.
academic
Raffinement de Flux de Travail Piloté par les Défaillances
Cet article aborde le problème de l'« effondrement informatif » dans l'optimisation des flux de travail LLM et propose un nouveau paradigme d'optimisation piloté par les défaillances. Les méthodes traditionnelles réduisent les trajectoires d'exécution multi-étapes riches à des signaux binaires succès/échec, ce qui empêche la modélisation de la distribution des défaillances du flux de travail. Les auteurs redéfinissent ce problème comme un problème d'optimisation de distribution, proposant de minimiser la « masse de défaillance attendue » (Expected Failure Mass) plutôt que de maximiser un score scalaire. Sur la base de cette idée, le cadre CE-Graph est conçu pour approximer la distribution des défaillances via un pool de contre-exemples, identifier les modèles de défaillance les plus denses et appliquer des éditions de graphe ciblées pour réduire goulûment la masse de défaillance. Sur les benchmarks mathématiques, de code et de questions-réponses, CE-Graph réalise une robustesse significativement plus élevée avec un coût considérablement inférieur.
Problème d'effondrement informatif: Les méthodes existantes d'optimisation des flux de travail LLM compriment les trajectoires de défaillance multi-étapes complexes en signaux binaires simples, perdant les informations structurelles des défaillances
Recherche aveugle: Les méthodes de recherche globale traditionnelles ne peuvent pas comprendre la distribution potentielle des défaillances, ce qui entraîne une inefficacité d'optimisation
Limitations de l'optimisation d'ordre zéro: Les méthodes d'optimisation basées sur des métriques scalaires sont intrinsèquement d'ordre zéro, manquant d'informations de gradient pour guider l'optimisation
Paradigme de recherche globale: Les méthodes comme MCTS nécessitent un grand nombre d'échantillons pour converger
Évaluation en boîte noire: Dépend uniquement de métriques scalaires comme le taux de succès, sans pouvoir exploiter les informations structurelles des défaillances
Caractère aléatoire: Impossible d'identifier et de corriger systématiquement les modèles de défaillance récurrents
Nouveau paradigme d'optimisation: Propose un paradigme d'optimisation piloté par les défaillances, redéfinissant le problème comme une optimisation de distribution plutôt que scalaire
Cadre théorique: Introduit les concepts d'espace de signature de défaillance (Failure Signature Space) et de masse de défaillance attendue
Cadre CE-Graph: Conçoit un cadre d'implémentation complet, incluant le clustering des défaillances et les mécanismes de proposition-vérification
Vérification expérimentale: Démontre l'efficacité et l'efficience de la méthode sur plusieurs benchmarks
Garanties théoriques: Fournit des bornes de réduction de qualité goulûe et une analyse de convergence
Perspective distributive: Première approche considérant l'optimisation des flux de travail comme un problème de remodelage de distribution des défaillances
Optimisation en boîte blanche: Contrairement aux méthodes en boîte noire, peut exploiter la structure interne des défaillances
Descente de type gradient: Réalise des principes d'optimisation similaires à la descente de gradient dans l'espace discret
Éditions structurées: Contraint l'espace de recherche via une bibliothèque d'opérateurs, garantissant la validité des éditions
Changement de paradigme: Le changement de paradigme de l'optimisation scalaire à l'optimisation distributive est efficace
Importance de la structure: L'exploitation des informations structurelles des défaillances est plus efficace que de les ignorer
Fiabilité du système: La véritable fiabilité provient de la compréhension et du remodelage systématiques de la distribution des défaillances, plutôt que de simplement les éviter
L'article cite un grand nombre de travaux connexes, notamment:
Optimisation des flux de travail: Zhang et al. (2025a,b), Khattab et al. (2024)
Méthodes guidées par contre-exemples: Hidvégi et al. (2024), Renze & Guven (2024)
Systèmes d'agents LLM: Chen et al. (2024), Liu et al. (2024)
Benchmarks: Cobbe et al. (2021), Hendrycks et al. (2021)
Évaluation Globale: Ceci est un article présentant des contributions théoriques importantes et une valeur pratique, proposant un nouveau paradigme pour l'optimisation des flux de travail LLM. Bien que la méthode soit relativement complexe, les résultats expérimentaux sont convaincants et fournissent de nouvelles perspectives précieuses au domaine. L'article est bien rédigé, l'analyse théorique est suffisante, et il représente un progrès important dans ce domaine.