Optimizing LLM-based workflows is typically formulated as a global search, where candidate workflows are evaluated based on a scalar metric. This paradigm, however, suffers from a critical flaw: information collapse. By reducing rich, multi-step execution traces to simple success/failure signals, existing methods are rendered blind to the underlying structure of failures, fundamentally preventing them from modeling the workflow's failure distribution. We reconceptualize this challenge as a distributional problem. We propose a new paradigm where the optimization goal is not to maximize a scalar score, but to directly minimize a workflow's Expected Failure Mass, i.e., the integral of its failure probability density function defined over a high-dimensional Failure Signature Space (FSS). This distributional lens allows us to move from inefficient, zero-order optimization to a principled, gradient-like descent on the failure landscape itself. We introduce CE-Graph, a framework that operationalizes this paradigm through a novel, failure-driven refinement process. CE-Graph approximates the failure distribution from a pool of counterexamples, identifies its densest regions as recurring failure modes, and applies targeted, operator-constrained graph edits via a Propose-and-Verify mechanism to greedily reduce the failure mass. On math, code, and QA benchmarks, our CE-Graph achieves higher robustness at a significantly lower cost than strong baselines. This suggests that a system's reliability emerges not from avoiding failures, but from systematically learning and reshaping the geometric structure of its failure distributions.
academic
Refinamiento de Flujo de Trabajo Impulsado por Fallos
Este artículo aborda el problema del "colapso de información" en la optimización de flujos de trabajo de LLM, proponiendo un nuevo paradigma de optimización impulsado por fallos. Los métodos tradicionales simplifican las trayectorias de ejecución multietapa ricas en información en señales binarias de éxito/fracaso, lo que impide modelar la distribución de fallos del flujo de trabajo. Los autores redefinen este problema como un problema de optimización de distribuciones, proponiendo minimizar la "masa de fallo esperada" (Expected Failure Mass) en lugar de maximizar puntuaciones escalares. Basándose en esta idea, diseñan el marco CE-Graph, que aproxima la distribución de fallos mediante un conjunto de contraejemplos, identifica los patrones de fallo más densos y aplica ediciones de grafos dirigidas para reducir greedy la masa de fallo. En pruebas de referencia de matemáticas, código y preguntas-respuestas, CE-Graph logra mayor robustez con costos significativamente más bajos.
Problema del Colapso de Información: Los métodos existentes de optimización de flujos de trabajo de LLM comprimen trayectorias de fallo multietapa complejas en señales binarias simples, perdiendo información estructural del fallo
Búsqueda Ciega: Los métodos de búsqueda global tradicionales no pueden comprender la distribución potencial de fallos, resultando en baja eficiencia de optimización
Limitaciones de Optimización de Orden Cero: Los métodos de optimización basados en métricas escalares son esencialmente de orden cero, careciendo de información de gradiente para guiar la búsqueda
Nuevo Paradigma de Optimización: Propone un paradigma de optimización impulsado por fallos, redefiniendo el problema como optimización de distribuciones en lugar de optimización escalar
Marco Teórico: Introduce conceptos de espacio de firma de fallo (Failure Signature Space) y masa de fallo esperada
Marco CE-Graph: Diseña un marco de implementación completo, incluyendo agrupamiento de fallos y mecanismo de propuesta-verificación
Verificación Experimental: Demuestra la efectividad y eficiencia del método en múltiples pruebas de referencia
Garantías Teóricas: Proporciona límites teóricos para la reducción de calidad greedy y análisis de convergencia
Cambio de Paradigma: El cambio de paradigma de optimización escalar a optimización de distribuciones es efectivo
Importancia Estructural: Utilizar información estructural de fallos es más efectivo que ignorarla
Confiabilidad del Sistema: La verdadera confiabilidad proviene de la comprensión sistemática y remodelación de la distribución de fallos, no simplemente de evitar fallos
El artículo cita numerosos trabajos relacionados, incluyendo:
Optimización de Flujos de Trabajo: Zhang et al. (2025a,b), Khattab et al. (2024)
Métodos Guiados por Contraejemplos: Hidvégi et al. (2024), Renze & Guven (2024)
Sistemas de Agentes LLM: Chen et al. (2024), Liu et al. (2024)
Puntos de Referencia: Cobbe et al. (2021), Hendrycks et al. (2021)
Evaluación General: Este es un artículo con importantes contribuciones teóricas y valor práctico, que propone un nuevo paradigma para optimización de flujos de trabajo de LLM. Aunque el método es relativamente complejo, los resultados experimentales son convincentes y proporciona ideas valiosas para el campo. La redacción es clara, el análisis teórico es suficiente, y representa un progreso importante en el área.