2025-11-12T08:13:09.449491

Failure-Driven Workflow Refinement

Zhang, Cai, Zeng et al.

Optimizing LLM-based workflows is typically formulated as a global search, where candidate workflows are evaluated based on a scalar metric. This paradigm, however, suffers from a critical flaw: information collapse. By reducing rich, multi-step execution traces to simple success/failure signals, existing methods are rendered blind to the underlying structure of failures, fundamentally preventing them from modeling the workflow's failure distribution. We reconceptualize this challenge as a distributional problem. We propose a new paradigm where the optimization goal is not to maximize a scalar score, but to directly minimize a workflow's Expected Failure Mass, i.e., the integral of its failure probability density function defined over a high-dimensional Failure Signature Space (FSS). This distributional lens allows us to move from inefficient, zero-order optimization to a principled, gradient-like descent on the failure landscape itself. We introduce CE-Graph, a framework that operationalizes this paradigm through a novel, failure-driven refinement process. CE-Graph approximates the failure distribution from a pool of counterexamples, identifies its densest regions as recurring failure modes, and applies targeted, operator-constrained graph edits via a Propose-and-Verify mechanism to greedily reduce the failure mass. On math, code, and QA benchmarks, our CE-Graph achieves higher robustness at a significantly lower cost than strong baselines. This suggests that a system's reliability emerges not from avoiding failures, but from systematically learning and reshaping the geometric structure of its failure distributions.

academic

Raffinement de Flux de Travail Piloté par les Défaillances

Informations Fondamentales

ID de l'article: 2510.10035
Titre: Failure-Driven Workflow Refinement
Auteurs: Jusheng Zhang, Kaitong Cai, Qinglin Zeng, Ningyuan Liu, Yijia Fan, Ziliang Chen, Keze Wang (Université Sun Yat-sen, X-Era AI Lab)
Classification: cs.AI
Statut de publication: Article en cours de soumission
Lien de l'article: https://arxiv.org/abs/2510.10035

Résumé

Cet article aborde le problème de l'« effondrement informatif » dans l'optimisation des flux de travail LLM et propose un nouveau paradigme d'optimisation piloté par les défaillances. Les méthodes traditionnelles réduisent les trajectoires d'exécution multi-étapes riches à des signaux binaires succès/échec, ce qui empêche la modélisation de la distribution des défaillances du flux de travail. Les auteurs redéfinissent ce problème comme un problème d'optimisation de distribution, proposant de minimiser la « masse de défaillance attendue » (Expected Failure Mass) plutôt que de maximiser un score scalaire. Sur la base de cette idée, le cadre CE-Graph est conçu pour approximer la distribution des défaillances via un pool de contre-exemples, identifier les modèles de défaillance les plus denses et appliquer des éditions de graphe ciblées pour réduire goulûment la masse de défaillance. Sur les benchmarks mathématiques, de code et de questions-réponses, CE-Graph réalise une robustesse significativement plus élevée avec un coût considérablement inférieur.

Contexte et Motivation de la Recherche

Problèmes Fondamentaux

Problème d'effondrement informatif: Les méthodes existantes d'optimisation des flux de travail LLM compriment les trajectoires de défaillance multi-étapes complexes en signaux binaires simples, perdant les informations structurelles des défaillances
Recherche aveugle: Les méthodes de recherche globale traditionnelles ne peuvent pas comprendre la distribution potentielle des défaillances, ce qui entraîne une inefficacité d'optimisation
Limitations de l'optimisation d'ordre zéro: Les méthodes d'optimisation basées sur des métriques scalaires sont intrinsèquement d'ordre zéro, manquant d'informations de gradient pour guider l'optimisation

Importance de la Recherche

Les flux de travail d'agents LLM sont largement appliqués dans le raisonnement à long terme et la résolution de problèmes complexes
L'optimisation des flux de travail est cruciale pour construire des systèmes d'agents fiables
L'inefficacité des méthodes existantes entrave le déploiement à grande échelle

Limitations des Approches Existantes

Paradigme de recherche globale: Les méthodes comme MCTS nécessitent un grand nombre d'échantillons pour converger
Évaluation en boîte noire: Dépend uniquement de métriques scalaires comme le taux de succès, sans pouvoir exploiter les informations structurelles des défaillances
Caractère aléatoire: Impossible d'identifier et de corriger systématiquement les modèles de défaillance récurrents

Contributions Fondamentales

Nouveau paradigme d'optimisation: Propose un paradigme d'optimisation piloté par les défaillances, redéfinissant le problème comme une optimisation de distribution plutôt que scalaire
Cadre théorique: Introduit les concepts d'espace de signature de défaillance (Failure Signature Space) et de masse de défaillance attendue
Cadre CE-Graph: Conçoit un cadre d'implémentation complet, incluant le clustering des défaillances et les mécanismes de proposition-vérification
Vérification expérimentale: Démontre l'efficacité et l'efficience de la méthode sur plusieurs benchmarks
Garanties théoriques: Fournit des bornes de réduction de qualité goulûe et une analyse de convergence

Détails de la Méthode

Définition de la Tâche

Étant donné un ensemble de données D, l'objectif est de construire un flux de travail W* minimisant la masse de défaillance attendue:

W* = argmin_{W∈S} M(W)
où M(W) = ∫_F p(s|W) ds

Ici, F est l'espace de signature de défaillance et p(s|W) est la fonction de densité de probabilité de défaillance induite par le flux de travail W.

Architecture du Modèle

1. Construction de l'Espace de Signature de Défaillance

Distillation des défaillances: Utilise un LLM outil pour extraire les trajectoires d'exécution brutes τ_d en tuples structurés (v_err, z_err)
Vectorisation sémantique-structurelle:
- Mappage structurel: ψ_struct(v_err) → R^|V| (codage one-hot)
- Mappage sémantique: ψ_sem(z_err) → R^d (plongements de type BERT)
- Signature finale: s = ψ_struct(v_err) ⊕ ψ_sem(z_err)

2. Algorithme de Réduction de Qualité Goulûe

Étape 1: Approximation de la Direction du Gradient

Utilise un modèle de mélange gaussien (GMM) pour ajuster le nuage de points de signatures de défaillance S_t
Identifie le modèle le plus dense: b*t = argmax π_k

Étape 2: Recherche d'Édition Optimale

Proposition contrainte: Le LLM propose N éditions candidates {Δ_1,...,Δ_N}
Vérification: Calcule l'utilité V(Δ_i) de chaque candidat via échantillonnage Monte-Carlo

3. Mécanisme de Proposition-Vérification

V(Δ_i) ≈ (1/K) Σ_{k=1}^K I[Verify(Execute(W_t ⊕ Δ_i, x_k), y_k) = 1]

Points d'Innovation Technique

Perspective distributive: Première approche considérant l'optimisation des flux de travail comme un problème de remodelage de distribution des défaillances
Optimisation en boîte blanche: Contrairement aux méthodes en boîte noire, peut exploiter la structure interne des défaillances
Descente de type gradient: Réalise des principes d'optimisation similaires à la descente de gradient dans l'espace discret
Éditions structurées: Contraint l'espace de recherche via une bibliothèque d'opérateurs, garantissant la validité des éditions

Configuration Expérimentale

Ensembles de Données

Raisonnement mathématique: GSM8K, MATH, MultiArith
Génération de code: HumanEval, MBPP
Utilisation d'outils: GAIA
Division des données: 80% ensemble d'entraînement, 10% ensemble de validation, 10% ensemble de test

Métriques d'Évaluation

Précision (Accuracy)
pass@1 (tâches de code)
Coût d'optimisation (tokens API)
Vitesse de convergence

Méthodes de Comparaison

Trois classes de systèmes de base:

Agent unique: Vanilla, CoT, ComplexCoT, SC
Multi-agents manuels: MultiPersona, LLM-Debate, DyLAN, etc.
Agents automatiques: AutoAgents, AFlow, MaAS, etc.

Détails d'Implémentation

Modèle de base: GPT-4o-mini
Hyperparamètres: N=5, K=10, T_max=20
Bibliothèque d'opérateurs: RevisePrompt, InsertNode, DeleteNode
Modèle d'plongement: text-embedding-ada-002

Résultats Expérimentaux

Résultats Principaux

CE-Graph surpasse les méthodes de base sur tous les benchmarks:

Performance moyenne: 86,23% vs 83,59% (MaAS)
MATH: 55,91% (+4,1% vs MaAS)
MBPP: 88,10% (+5,9% vs MaAS)
HumanEval: 94,26% (+1,4% vs MaAS)

Analyse des Coûts

Réalise la plus haute précision (53,5%) sur le benchmark MATH tout en maintenant le coût de calcul le plus bas
Le critère d'arrêt conscient de la convergence économise plus de 50% des coûts d'optimisation
Robustesse forte aux variations du budget de tokens

Études d'Ablation

Analyse de la contribution des composants clés:

Sans clustering: Précision MATH réduite à 51,25% (-4,66%)
Sans vérification: Réduite à 49,10% (-6,81%)
Sans opérateurs structurés: Réduite à 47,35% (-8,56%)
Sans arrêt de convergence: Coût augmenté de 50%+

Analyse de Stabilité

Évaluation longitudinale sur un ensemble de défaillances fixe E_0 montrant:

CE-Graph présente une trajectoire monotone croissante lisse
Les méthodes de base (particulièrement AFlow) présentent des fluctuations significatives, reflétant les problèmes d'oscillation de stratégie

Travaux Connexes

Optimisation Automatique des Flux de Travail

MaAS, AFlow et autres utilisent des stratégies de recherche globale (MCTS, algorithmes évolutionnaires)
Les cadres comme DSPy optimisent les invites mais dépendent toujours de métriques scalaires
CE-Graph réalise une percée en préservant la sémantique et les informations structurelles des défaillances

Raffinement Guidé par Contre-exemples

Provient de la synthèse de programmes et de la vérification formelle (comme CEGAR)
Les méthodes traditionnelles ciblent les systèmes déterministes, difficiles à appliquer aux défaillances sémantiques aléatoires des LLM
CE-Graph adapte ce principe au domaine ouvert des LLM

Auto-correction au Niveau des Instances

Self-Consistency, Reflexion et autres améliorent les sorties individuelles via vote ou réflexion d'invite
Risque de surapprentissage, difficile de capturer les défauts systémiques
CE-Graph adopte une perspective distributive globale, agrégant les contre-exemples pour une réparation structurée

Conclusions et Discussion

Conclusions Principales

Changement de paradigme: Le changement de paradigme de l'optimisation scalaire à l'optimisation distributive est efficace
Importance de la structure: L'exploitation des informations structurelles des défaillances est plus efficace que de les ignorer
Fiabilité du système: La véritable fiabilité provient de la compréhension et du remodelage systématiques de la distribution des défaillances, plutôt que de simplement les éviter

Limitations

Dépendance aux plongements: La construction de l'espace de signature de défaillance dépend de la qualité des plongements sémantiques
Hypothèse goulûe: Suppose que les modèles de défaillance les plus courants correspondent aux objectifs de réparation les plus critiques
Conception de la bibliothèque d'opérateurs: Nécessite un équilibre entre expressivité et contrainte
Garanties de convergence: Impossible de garantir l'optimalité globale, peut converger vers un optimum local

Directions Futures

Plongements adaptatifs: Méthodes d'plongement évoluant avec le flux de travail
Objectifs sensibles au risque: Fonctions objectif équilibrant les défaillances fréquentes et rares
Stratégies d'apprentissage par transfert: Extension ou élagage dynamique de la bibliothèque d'opérateurs
Extension multimodale: Extension aux flux de travail multimodaux

Évaluation Approfondie

Avantages

Contribution théorique: Fournit un nouveau cadre théorique pour l'optimisation des flux de travail avec une base mathématique solide
Efficacité pratique: Réalise des améliorations significatives sur plusieurs benchmarks, prouvant l'efficacité de la méthode
Amélioration de l'efficience: Réduit considérablement les coûts de calcul par rapport aux méthodes de recherche globale
Généralité: Efficace sur différents domaines de tâches (mathématiques, code, QA)
Interprétabilité: Fournit l'interprétabilité du processus d'optimisation via le clustering des modèles de défaillance

Insuffisances

Complexité: Le cadre est relativement complexe, contenant plusieurs composants, l'implémentation et le débogage peuvent être difficiles
Dépendances: Forte dépendance à la qualité du LLM et aux performances du modèle d'plongement
Scalabilité: La scalabilité sur les graphes de flux de travail à grande échelle nécessite une vérification supplémentaire
Généralisation: Les expériences sur la capacité de généralisation entre modèles et ensembles de données sont limitées

Impact

Valeur académique: Fournit une nouvelle direction de recherche pour l'optimisation des flux de travail LLM
Valeur pratique: Peut être appliquée au développement de systèmes d'agents réels
Caractère inspirant: L'idée pilotée par les défaillances peut inspirer les méthodes d'optimisation d'autres systèmes d'IA

Scénarios d'Application

Systèmes d'agents complexes: Systèmes de raisonnement multi-étapes nécessitant une haute fiabilité
Environnements aux ressources limitées: Scénarios nécessitant une optimisation efficace
Exigences d'interprétabilité: Applications nécessitant de comprendre le processus d'optimisation
Systèmes de développement itératif: Systèmes de flux de travail nécessitant une amélioration continue

Références

L'article cite un grand nombre de travaux connexes, notamment:

Optimisation des flux de travail: Zhang et al. (2025a,b), Khattab et al. (2024)
Méthodes guidées par contre-exemples: Hidvégi et al. (2024), Renze & Guven (2024)
Systèmes d'agents LLM: Chen et al. (2024), Liu et al. (2024)
Benchmarks: Cobbe et al. (2021), Hendrycks et al. (2021)

Évaluation Globale: Ceci est un article présentant des contributions théoriques importantes et une valeur pratique, proposant un nouveau paradigme pour l'optimisation des flux de travail LLM. Bien que la méthode soit relativement complexe, les résultats expérimentaux sont convaincants et fournissent de nouvelles perspectives précieuses au domaine. L'article est bien rédigé, l'analyse théorique est suffisante, et il représente un progrès important dans ce domaine.