2025-11-12T08:13:09.449491

Failure-Driven Workflow Refinement

Zhang, Cai, Zeng et al.
Optimizing LLM-based workflows is typically formulated as a global search, where candidate workflows are evaluated based on a scalar metric. This paradigm, however, suffers from a critical flaw: information collapse. By reducing rich, multi-step execution traces to simple success/failure signals, existing methods are rendered blind to the underlying structure of failures, fundamentally preventing them from modeling the workflow's failure distribution. We reconceptualize this challenge as a distributional problem. We propose a new paradigm where the optimization goal is not to maximize a scalar score, but to directly minimize a workflow's Expected Failure Mass, i.e., the integral of its failure probability density function defined over a high-dimensional Failure Signature Space (FSS). This distributional lens allows us to move from inefficient, zero-order optimization to a principled, gradient-like descent on the failure landscape itself. We introduce CE-Graph, a framework that operationalizes this paradigm through a novel, failure-driven refinement process. CE-Graph approximates the failure distribution from a pool of counterexamples, identifies its densest regions as recurring failure modes, and applies targeted, operator-constrained graph edits via a Propose-and-Verify mechanism to greedily reduce the failure mass. On math, code, and QA benchmarks, our CE-Graph achieves higher robustness at a significantly lower cost than strong baselines. This suggests that a system's reliability emerges not from avoiding failures, but from systematically learning and reshaping the geometric structure of its failure distributions.
academic

Raffinement de Flux de Travail Piloté par les Défaillances

Informations Fondamentales

  • ID de l'article: 2510.10035
  • Titre: Failure-Driven Workflow Refinement
  • Auteurs: Jusheng Zhang, Kaitong Cai, Qinglin Zeng, Ningyuan Liu, Yijia Fan, Ziliang Chen, Keze Wang (Université Sun Yat-sen, X-Era AI Lab)
  • Classification: cs.AI
  • Statut de publication: Article en cours de soumission
  • Lien de l'article: https://arxiv.org/abs/2510.10035

Résumé

Cet article aborde le problème de l'« effondrement informatif » dans l'optimisation des flux de travail LLM et propose un nouveau paradigme d'optimisation piloté par les défaillances. Les méthodes traditionnelles réduisent les trajectoires d'exécution multi-étapes riches à des signaux binaires succès/échec, ce qui empêche la modélisation de la distribution des défaillances du flux de travail. Les auteurs redéfinissent ce problème comme un problème d'optimisation de distribution, proposant de minimiser la « masse de défaillance attendue » (Expected Failure Mass) plutôt que de maximiser un score scalaire. Sur la base de cette idée, le cadre CE-Graph est conçu pour approximer la distribution des défaillances via un pool de contre-exemples, identifier les modèles de défaillance les plus denses et appliquer des éditions de graphe ciblées pour réduire goulûment la masse de défaillance. Sur les benchmarks mathématiques, de code et de questions-réponses, CE-Graph réalise une robustesse significativement plus élevée avec un coût considérablement inférieur.

Contexte et Motivation de la Recherche

Problèmes Fondamentaux

  1. Problème d'effondrement informatif: Les méthodes existantes d'optimisation des flux de travail LLM compriment les trajectoires de défaillance multi-étapes complexes en signaux binaires simples, perdant les informations structurelles des défaillances
  2. Recherche aveugle: Les méthodes de recherche globale traditionnelles ne peuvent pas comprendre la distribution potentielle des défaillances, ce qui entraîne une inefficacité d'optimisation
  3. Limitations de l'optimisation d'ordre zéro: Les méthodes d'optimisation basées sur des métriques scalaires sont intrinsèquement d'ordre zéro, manquant d'informations de gradient pour guider l'optimisation

Importance de la Recherche

  • Les flux de travail d'agents LLM sont largement appliqués dans le raisonnement à long terme et la résolution de problèmes complexes
  • L'optimisation des flux de travail est cruciale pour construire des systèmes d'agents fiables
  • L'inefficacité des méthodes existantes entrave le déploiement à grande échelle

Limitations des Approches Existantes

  1. Paradigme de recherche globale: Les méthodes comme MCTS nécessitent un grand nombre d'échantillons pour converger
  2. Évaluation en boîte noire: Dépend uniquement de métriques scalaires comme le taux de succès, sans pouvoir exploiter les informations structurelles des défaillances
  3. Caractère aléatoire: Impossible d'identifier et de corriger systématiquement les modèles de défaillance récurrents

Contributions Fondamentales

  1. Nouveau paradigme d'optimisation: Propose un paradigme d'optimisation piloté par les défaillances, redéfinissant le problème comme une optimisation de distribution plutôt que scalaire
  2. Cadre théorique: Introduit les concepts d'espace de signature de défaillance (Failure Signature Space) et de masse de défaillance attendue
  3. Cadre CE-Graph: Conçoit un cadre d'implémentation complet, incluant le clustering des défaillances et les mécanismes de proposition-vérification
  4. Vérification expérimentale: Démontre l'efficacité et l'efficience de la méthode sur plusieurs benchmarks
  5. Garanties théoriques: Fournit des bornes de réduction de qualité goulûe et une analyse de convergence

Détails de la Méthode

Définition de la Tâche

Étant donné un ensemble de données D, l'objectif est de construire un flux de travail W* minimisant la masse de défaillance attendue:

W* = argmin_{W∈S} M(W)
où M(W) = ∫_F p(s|W) ds

Ici, F est l'espace de signature de défaillance et p(s|W) est la fonction de densité de probabilité de défaillance induite par le flux de travail W.

Architecture du Modèle

1. Construction de l'Espace de Signature de Défaillance

  • Distillation des défaillances: Utilise un LLM outil pour extraire les trajectoires d'exécution brutes τ_d en tuples structurés (v_err, z_err)
  • Vectorisation sémantique-structurelle:
    • Mappage structurel: ψ_struct(v_err) → R^|V| (codage one-hot)
    • Mappage sémantique: ψ_sem(z_err) → R^d (plongements de type BERT)
    • Signature finale: s = ψ_struct(v_err) ⊕ ψ_sem(z_err)

2. Algorithme de Réduction de Qualité Goulûe

Étape 1: Approximation de la Direction du Gradient

  • Utilise un modèle de mélange gaussien (GMM) pour ajuster le nuage de points de signatures de défaillance S_t
  • Identifie le modèle le plus dense: b*t = argmax π_k

Étape 2: Recherche d'Édition Optimale

  • Proposition contrainte: Le LLM propose N éditions candidates {Δ_1,...,Δ_N}
  • Vérification: Calcule l'utilité V(Δ_i) de chaque candidat via échantillonnage Monte-Carlo

3. Mécanisme de Proposition-Vérification

V(Δ_i) ≈ (1/K) Σ_{k=1}^K I[Verify(Execute(W_t ⊕ Δ_i, x_k), y_k) = 1]

Points d'Innovation Technique

  1. Perspective distributive: Première approche considérant l'optimisation des flux de travail comme un problème de remodelage de distribution des défaillances
  2. Optimisation en boîte blanche: Contrairement aux méthodes en boîte noire, peut exploiter la structure interne des défaillances
  3. Descente de type gradient: Réalise des principes d'optimisation similaires à la descente de gradient dans l'espace discret
  4. Éditions structurées: Contraint l'espace de recherche via une bibliothèque d'opérateurs, garantissant la validité des éditions

Configuration Expérimentale

Ensembles de Données

  • Raisonnement mathématique: GSM8K, MATH, MultiArith
  • Génération de code: HumanEval, MBPP
  • Utilisation d'outils: GAIA
  • Division des données: 80% ensemble d'entraînement, 10% ensemble de validation, 10% ensemble de test

Métriques d'Évaluation

  • Précision (Accuracy)
  • pass@1 (tâches de code)
  • Coût d'optimisation (tokens API)
  • Vitesse de convergence

Méthodes de Comparaison

Trois classes de systèmes de base:

  1. Agent unique: Vanilla, CoT, ComplexCoT, SC
  2. Multi-agents manuels: MultiPersona, LLM-Debate, DyLAN, etc.
  3. Agents automatiques: AutoAgents, AFlow, MaAS, etc.

Détails d'Implémentation

  • Modèle de base: GPT-4o-mini
  • Hyperparamètres: N=5, K=10, T_max=20
  • Bibliothèque d'opérateurs: RevisePrompt, InsertNode, DeleteNode
  • Modèle d'plongement: text-embedding-ada-002

Résultats Expérimentaux

Résultats Principaux

CE-Graph surpasse les méthodes de base sur tous les benchmarks:

  • Performance moyenne: 86,23% vs 83,59% (MaAS)
  • MATH: 55,91% (+4,1% vs MaAS)
  • MBPP: 88,10% (+5,9% vs MaAS)
  • HumanEval: 94,26% (+1,4% vs MaAS)

Analyse des Coûts

  • Réalise la plus haute précision (53,5%) sur le benchmark MATH tout en maintenant le coût de calcul le plus bas
  • Le critère d'arrêt conscient de la convergence économise plus de 50% des coûts d'optimisation
  • Robustesse forte aux variations du budget de tokens

Études d'Ablation

Analyse de la contribution des composants clés:

  • Sans clustering: Précision MATH réduite à 51,25% (-4,66%)
  • Sans vérification: Réduite à 49,10% (-6,81%)
  • Sans opérateurs structurés: Réduite à 47,35% (-8,56%)
  • Sans arrêt de convergence: Coût augmenté de 50%+

Analyse de Stabilité

Évaluation longitudinale sur un ensemble de défaillances fixe E_0 montrant:

  • CE-Graph présente une trajectoire monotone croissante lisse
  • Les méthodes de base (particulièrement AFlow) présentent des fluctuations significatives, reflétant les problèmes d'oscillation de stratégie

Travaux Connexes

Optimisation Automatique des Flux de Travail

  • MaAS, AFlow et autres utilisent des stratégies de recherche globale (MCTS, algorithmes évolutionnaires)
  • Les cadres comme DSPy optimisent les invites mais dépendent toujours de métriques scalaires
  • CE-Graph réalise une percée en préservant la sémantique et les informations structurelles des défaillances

Raffinement Guidé par Contre-exemples

  • Provient de la synthèse de programmes et de la vérification formelle (comme CEGAR)
  • Les méthodes traditionnelles ciblent les systèmes déterministes, difficiles à appliquer aux défaillances sémantiques aléatoires des LLM
  • CE-Graph adapte ce principe au domaine ouvert des LLM

Auto-correction au Niveau des Instances

  • Self-Consistency, Reflexion et autres améliorent les sorties individuelles via vote ou réflexion d'invite
  • Risque de surapprentissage, difficile de capturer les défauts systémiques
  • CE-Graph adopte une perspective distributive globale, agrégant les contre-exemples pour une réparation structurée

Conclusions et Discussion

Conclusions Principales

  1. Changement de paradigme: Le changement de paradigme de l'optimisation scalaire à l'optimisation distributive est efficace
  2. Importance de la structure: L'exploitation des informations structurelles des défaillances est plus efficace que de les ignorer
  3. Fiabilité du système: La véritable fiabilité provient de la compréhension et du remodelage systématiques de la distribution des défaillances, plutôt que de simplement les éviter

Limitations

  1. Dépendance aux plongements: La construction de l'espace de signature de défaillance dépend de la qualité des plongements sémantiques
  2. Hypothèse goulûe: Suppose que les modèles de défaillance les plus courants correspondent aux objectifs de réparation les plus critiques
  3. Conception de la bibliothèque d'opérateurs: Nécessite un équilibre entre expressivité et contrainte
  4. Garanties de convergence: Impossible de garantir l'optimalité globale, peut converger vers un optimum local

Directions Futures

  1. Plongements adaptatifs: Méthodes d'plongement évoluant avec le flux de travail
  2. Objectifs sensibles au risque: Fonctions objectif équilibrant les défaillances fréquentes et rares
  3. Stratégies d'apprentissage par transfert: Extension ou élagage dynamique de la bibliothèque d'opérateurs
  4. Extension multimodale: Extension aux flux de travail multimodaux

Évaluation Approfondie

Avantages

  1. Contribution théorique: Fournit un nouveau cadre théorique pour l'optimisation des flux de travail avec une base mathématique solide
  2. Efficacité pratique: Réalise des améliorations significatives sur plusieurs benchmarks, prouvant l'efficacité de la méthode
  3. Amélioration de l'efficience: Réduit considérablement les coûts de calcul par rapport aux méthodes de recherche globale
  4. Généralité: Efficace sur différents domaines de tâches (mathématiques, code, QA)
  5. Interprétabilité: Fournit l'interprétabilité du processus d'optimisation via le clustering des modèles de défaillance

Insuffisances

  1. Complexité: Le cadre est relativement complexe, contenant plusieurs composants, l'implémentation et le débogage peuvent être difficiles
  2. Dépendances: Forte dépendance à la qualité du LLM et aux performances du modèle d'plongement
  3. Scalabilité: La scalabilité sur les graphes de flux de travail à grande échelle nécessite une vérification supplémentaire
  4. Généralisation: Les expériences sur la capacité de généralisation entre modèles et ensembles de données sont limitées

Impact

  1. Valeur académique: Fournit une nouvelle direction de recherche pour l'optimisation des flux de travail LLM
  2. Valeur pratique: Peut être appliquée au développement de systèmes d'agents réels
  3. Caractère inspirant: L'idée pilotée par les défaillances peut inspirer les méthodes d'optimisation d'autres systèmes d'IA

Scénarios d'Application

  1. Systèmes d'agents complexes: Systèmes de raisonnement multi-étapes nécessitant une haute fiabilité
  2. Environnements aux ressources limitées: Scénarios nécessitant une optimisation efficace
  3. Exigences d'interprétabilité: Applications nécessitant de comprendre le processus d'optimisation
  4. Systèmes de développement itératif: Systèmes de flux de travail nécessitant une amélioration continue

Références

L'article cite un grand nombre de travaux connexes, notamment:

  • Optimisation des flux de travail: Zhang et al. (2025a,b), Khattab et al. (2024)
  • Méthodes guidées par contre-exemples: Hidvégi et al. (2024), Renze & Guven (2024)
  • Systèmes d'agents LLM: Chen et al. (2024), Liu et al. (2024)
  • Benchmarks: Cobbe et al. (2021), Hendrycks et al. (2021)

Évaluation Globale: Ceci est un article présentant des contributions théoriques importantes et une valeur pratique, proposant un nouveau paradigme pour l'optimisation des flux de travail LLM. Bien que la méthode soit relativement complexe, les résultats expérimentaux sont convaincants et fournissent de nouvelles perspectives précieuses au domaine. L'article est bien rédigé, l'analyse théorique est suffisante, et il représente un progrès important dans ce domaine.