Optimizing LLM-based workflows is typically formulated as a global search, where candidate workflows are evaluated based on a scalar metric. This paradigm, however, suffers from a critical flaw: information collapse. By reducing rich, multi-step execution traces to simple success/failure signals, existing methods are rendered blind to the underlying structure of failures, fundamentally preventing them from modeling the workflow's failure distribution. We reconceptualize this challenge as a distributional problem. We propose a new paradigm where the optimization goal is not to maximize a scalar score, but to directly minimize a workflow's Expected Failure Mass, i.e., the integral of its failure probability density function defined over a high-dimensional Failure Signature Space (FSS). This distributional lens allows us to move from inefficient, zero-order optimization to a principled, gradient-like descent on the failure landscape itself. We introduce CE-Graph, a framework that operationalizes this paradigm through a novel, failure-driven refinement process. CE-Graph approximates the failure distribution from a pool of counterexamples, identifies its densest regions as recurring failure modes, and applies targeted, operator-constrained graph edits via a Propose-and-Verify mechanism to greedily reduce the failure mass. On math, code, and QA benchmarks, our CE-Graph achieves higher robustness at a significantly lower cost than strong baselines. This suggests that a system's reliability emerges not from avoiding failures, but from systematically learning and reshaping the geometric structure of its failure distributions.
academic
Raffinamento del Flusso di Lavoro Guidato da Errori
Questo articolo affronta il problema del "collasso informativo" nell'ottimizzazione dei flussi di lavoro LLM, proponendo un nuovo paradigma di ottimizzazione guidato da errori. I metodi tradizionali riducono le ricche traiettorie di esecuzione multistadio a semplici segnali binari di successo/fallimento, impedendo la modellazione della distribuzione degli errori del flusso di lavoro. Gli autori ridefiniscono questo problema come un problema di ottimizzazione distributiva, proponendo di minimizzare la "Massa di Errore Attesa" (Expected Failure Mass) piuttosto che massimizzare punteggi scalari. Basandosi su questo concetto, progettano il framework CE-Graph, che approssima la distribuzione degli errori attraverso un pool di controesempi, identifica i modelli di errore più densi e applica modifiche grafiche mirate per ridurre avidamente la massa di errore. Nei benchmark di matematica, codice e domande-risposte, CE-Graph raggiunge una robustezza significativamente superiore con costi notevolmente inferiori.
Problema del Collasso Informativo: I metodi attuali di ottimizzazione dei flussi di lavoro LLM comprimono complesse traiettorie di errore multistadio in semplici segnali binari, perdendo informazioni strutturali sugli errori
Ricerca Cieca: I metodi di ricerca globale tradizionali non riescono a comprendere la distribuzione potenziale degli errori, causando inefficienza nell'ottimizzazione
Limitazioni dell'Ottimizzazione di Ordine Zero: I metodi di ottimizzazione basati su metriche scalari sono intrinsecamente di ordine zero, mancando di informazioni di gradiente per la guida
Nuovo Paradigma di Ottimizzazione: Propone un paradigma di ottimizzazione guidato da errori, ridefinendo il problema come ottimizzazione distributiva piuttosto che scalare
Framework Teorico: Introduce il concetto di Spazio di Firma di Errore (Failure Signature Space) e Massa di Errore Attesa
Framework CE-Graph: Progetta un framework di implementazione completo, includente clustering degli errori e meccanismi di proposta-verifica
Verifica Sperimentale: Dimostra l'efficacia e l'efficienza del metodo su più benchmark
Garanzie Teoriche: Fornisce limiti teorici per la riduzione della qualità greedy e analisi di convergenza
Prospettiva Distributiva: Prima volta che l'ottimizzazione dei flussi di lavoro è vista come un problema di rimodellamento della distribuzione degli errori
Ottimizzazione White-Box: Rispetto ai metodi black-box, può sfruttare la struttura interna degli errori
Discesa Simile al Gradiente: Implementa principi simili alla discesa del gradiente nello spazio discreto
Modifiche Strutturate: Vincola lo spazio di ricerca attraverso una libreria di operatori, garantendo l'efficacia delle modifiche
Cambio di Paradigma: Il cambio di paradigma dall'ottimizzazione scalare all'ottimizzazione distributiva è efficace
Importanza della Struttura: Sfruttare le informazioni strutturali degli errori è più efficace che ignorarle
Affidabilità del Sistema: La vera affidabilità deriva dalla comprensione e dal rimodellamento sistematico della distribuzione degli errori, non dalla semplice evitazione degli errori
L'articolo cita numerosi lavori correlati, inclusi:
Ottimizzazione dei Flussi di Lavoro: Zhang et al. (2025a,b), Khattab et al. (2024)
Metodi Guidati da Controesempi: Hidvégi et al. (2024), Renze & Guven (2024)
Sistemi di Agenti LLM: Chen et al. (2024), Liu et al. (2024)
Benchmark: Cobbe et al. (2021), Hendrycks et al. (2021)
Valutazione Complessiva: Questo è un articolo con importanti contributi teorici e valore pratico, che propone un nuovo paradigma per l'ottimizzazione dei flussi di lavoro LLM. Sebbene il metodo sia piuttosto complesso, i risultati sperimentali sono convincenti e forniscono nuove prospettive preziose per il campo. L'articolo è ben scritto, con analisi teorica sufficiente, rappresentando un progresso significativo in questo ambito di ricerca.