Optimizing LLM-based workflows is typically formulated as a global search, where candidate workflows are evaluated based on a scalar metric. This paradigm, however, suffers from a critical flaw: information collapse. By reducing rich, multi-step execution traces to simple success/failure signals, existing methods are rendered blind to the underlying structure of failures, fundamentally preventing them from modeling the workflow's failure distribution. We reconceptualize this challenge as a distributional problem. We propose a new paradigm where the optimization goal is not to maximize a scalar score, but to directly minimize a workflow's Expected Failure Mass, i.e., the integral of its failure probability density function defined over a high-dimensional Failure Signature Space (FSS). This distributional lens allows us to move from inefficient, zero-order optimization to a principled, gradient-like descent on the failure landscape itself. We introduce CE-Graph, a framework that operationalizes this paradigm through a novel, failure-driven refinement process. CE-Graph approximates the failure distribution from a pool of counterexamples, identifies its densest regions as recurring failure modes, and applies targeted, operator-constrained graph edits via a Propose-and-Verify mechanism to greedily reduce the failure mass. On math, code, and QA benchmarks, our CE-Graph achieves higher robustness at a significantly lower cost than strong baselines. This suggests that a system's reliability emerges not from avoiding failures, but from systematically learning and reshaping the geometric structure of its failure distributions.
본 논문은 LLM 워크플로우 최적화에서의 "정보 붕괴" 문제를 해결하기 위해 새로운 실패 기반 최적화 패러다임을 제시합니다. 기존 방법은 풍부한 다단계 실행 궤적을 이진 성공/실패 신호로 단순화하여 워크플로우의 실패 분포를 모델링할 수 없습니다. 저자들은 이 문제를 분포 최적화 문제로 재정의하고, 스칼라 점수 최대화 대신 "예상 실패 질량(Expected Failure Mass)" 최소화를 제안합니다. 이 개념을 바탕으로 CE-Graph 프레임워크를 설계했으며, 반례 풀을 통해 실패 분포를 근사하고, 가장 밀집된 실패 패턴을 식별한 후, 목표 지향적 그래프 편집을 적용하여 실패 질량을 탐욕적으로 감소시킵니다. 수학, 코드 및 질의응답 벤치마크에서 CE-Graph는 훨씬 낮은 비용으로 더 높은 견고성을 달성했습니다.
워크플로우 최적화: Zhang et al. (2025a,b), Khattab et al. (2024)
반례 기반 방법: Hidvégi et al. (2024), Renze & Guven (2024)
LLM 에이전트 시스템: Chen et al. (2024), Liu et al. (2024)
벤치마크: Cobbe et al. (2021), Hendrycks et al. (2021)
종합 평가: 이는 중요한 이론적 기여와 실용적 가치를 갖춘 논문으로, LLM 워크플로우 최적화를 위한 새로운 패러다임을 제시합니다. 방법이 다소 복잡하지만 실험 결과는 설득력 있으며, 해당 분야에 가치 있는 새로운 관점을 제공합니다. 논문의 작성이 명확하고 이론 분석이 충분하며, 이는 해당 분야의 중요한 진전입니다.