Optimizing LLM-based workflows is typically formulated as a global search, where candidate workflows are evaluated based on a scalar metric. This paradigm, however, suffers from a critical flaw: information collapse. By reducing rich, multi-step execution traces to simple success/failure signals, existing methods are rendered blind to the underlying structure of failures, fundamentally preventing them from modeling the workflow's failure distribution. We reconceptualize this challenge as a distributional problem. We propose a new paradigm where the optimization goal is not to maximize a scalar score, but to directly minimize a workflow's Expected Failure Mass, i.e., the integral of its failure probability density function defined over a high-dimensional Failure Signature Space (FSS). This distributional lens allows us to move from inefficient, zero-order optimization to a principled, gradient-like descent on the failure landscape itself. We introduce CE-Graph, a framework that operationalizes this paradigm through a novel, failure-driven refinement process. CE-Graph approximates the failure distribution from a pool of counterexamples, identifies its densest regions as recurring failure modes, and applies targeted, operator-constrained graph edits via a Propose-and-Verify mechanism to greedily reduce the failure mass. On math, code, and QA benchmarks, our CE-Graph achieves higher robustness at a significantly lower cost than strong baselines. This suggests that a system's reliability emerges not from avoiding failures, but from systematically learning and reshaping the geometric structure of its failure distributions.
Diese Arbeit adressiert das Problem des "Informationskollaps" bei der LLM-Workflow-Optimierung und schlägt ein neuartiges fehlergesteuertes Optimierungsparadigma vor. Herkömmliche Methoden vereinfachen umfangreiche mehrstufige Ausführungstrajektorien zu binären Erfolgs-/Fehlersignalen, was eine Modellierung der Fehlerverteilung des Workflows unmöglich macht. Die Autoren definieren dieses Problem neu als Verteilungsoptimierungsproblem und schlagen vor, die "erwartete Fehlermasse" (Expected Failure Mass) zu minimieren, anstatt skalare Scores zu maximieren. Basierend auf dieser Idee wird das CE-Graph-Framework entworfen, das Fehlerverteilungen durch Gegenbeispiel-Pools approximiert, die dichtesten Fehlermuster identifiziert und gezielte Graphenbearbeitungen anwendet, um die Fehlermasse gierig zu reduzieren. In Mathematik-, Code- und Frage-Antwort-Benchmarks erreicht CE-Graph mit deutlich niedrigeren Kosten höhere Robustheit.
Informationskollaps-Problem: Bestehende LLM-Workflow-Optimierungsmethoden komprimieren komplexe mehrstufige Fehlertrajektorien zu einfachen binären Signalen und verlieren dabei strukturelle Fehlerinformationen
Blinde Suche: Herkömmliche globale Suchmethoden können die zugrunde liegende Fehlerverteilung nicht verstehen, was zu ineffizienter Optimierung führt
Einschränkungen der Nullordnung-Optimierung: Optimierungsmethoden basierend auf skalaren Metriken sind grundsätzlich nullter Ordnung und entbehren Gradienteninformationen zur Steuerung
Neues Optimierungsparadigma: Schlägt fehlergesteuertes Optimierungsparadigma vor und definiert das Problem als Verteilungsoptimierung statt Skalaroptimierung neu
Theoretischer Rahmen: Führt Fehler-Signatur-Raum (Failure Signature Space) und das Konzept der erwarteten Fehlermasse ein
CE-Graph-Framework: Entwirft ein vollständiges Implementierungs-Framework mit Fehler-Clustering, Vorschlag-Verifikationsmechanismen usw.
Experimentelle Validierung: Beweist die Effektivität und Effizienz der Methode in mehreren Benchmarks
Theoretische Garantien: Bietet theoretische Grenzen für gierige Massenreduktion und Konvergenzanalyse
Paradigmenwechsel: Der Paradigmenwechsel von Skalaroptimierung zu Verteilungsoptimierung ist effektiv
Strukturbedeutung: Nutzung von Fehlerstrukturinformationen ist effektiver als Ignorieren
Systemzuverlässigkeit: Echte Zuverlässigkeit stammt aus systematischem Verständnis und Umgestaltung der Fehlerverteilung, nicht aus einfacher Fehlervermeidung
Das Paper zitiert umfangreiche verwandte Arbeiten, einschließlich:
Workflow-Optimierung: Zhang et al. (2025a,b), Khattab et al. (2024)
Gegenbeispiel-gesteuerte Methoden: Hidvégi et al. (2024), Renze & Guven (2024)
LLM-Agent-Systeme: Chen et al. (2024), Liu et al. (2024)
Benchmarks: Cobbe et al. (2021), Hendrycks et al. (2021)
Gesamtbewertung: Dies ist ein Paper mit wichtigen theoretischen Beiträgen und praktischem Wert, das ein neues Paradigma für LLM-Workflow-Optimierung vorschlägt. Obwohl die Methode relativ komplex ist, sind die experimentellen Ergebnisse überzeugend und bieten wertvolle neue Perspektiven für diesen Forschungsbereich. Das Paper ist klar geschrieben, theoretisch fundiert und stellt einen wichtigen Fortschritt in diesem Feld dar.