Optimizing LLM-based workflows is typically formulated as a global search, where candidate workflows are evaluated based on a scalar metric. This paradigm, however, suffers from a critical flaw: information collapse. By reducing rich, multi-step execution traces to simple success/failure signals, existing methods are rendered blind to the underlying structure of failures, fundamentally preventing them from modeling the workflow's failure distribution. We reconceptualize this challenge as a distributional problem. We propose a new paradigm where the optimization goal is not to maximize a scalar score, but to directly minimize a workflow's Expected Failure Mass, i.e., the integral of its failure probability density function defined over a high-dimensional Failure Signature Space (FSS). This distributional lens allows us to move from inefficient, zero-order optimization to a principled, gradient-like descent on the failure landscape itself. We introduce CE-Graph, a framework that operationalizes this paradigm through a novel, failure-driven refinement process. CE-Graph approximates the failure distribution from a pool of counterexamples, identifies its densest regions as recurring failure modes, and applies targeted, operator-constrained graph edits via a Propose-and-Verify mechanism to greedily reduce the failure mass. On math, code, and QA benchmarks, our CE-Graph achieves higher robustness at a significantly lower cost than strong baselines. This suggests that a system's reliability emerges not from avoiding failures, but from systematically learning and reshaping the geometric structure of its failure distributions.
В данной работе предложена новая парадигма оптимизации на основе отказов для решения проблемы "коллапса информации" при оптимизации рабочих процессов LLM. Традиционные методы сводят богатые многошаговые траектории выполнения к бинарным сигналам успеха/отказа, что делает невозможным моделирование распределения отказов рабочего процесса. Авторы переформулируют эту задачу как задачу оптимизации распределения, предлагая минимизировать "ожидаемую массу отказов" (Expected Failure Mass) вместо максимизации скалярной оценки. На основе этой идеи разработана архитектура CE-Graph, которая аппроксимирует распределение отказов через пул контрпримеров, выявляет наиболее плотные паттерны отказов и применяет целевое редактирование графов для жадкого снижения массы отказов. На тестах по математике, кодированию и вопросно-ответным системам CE-Graph достигает значительно более высокой надежности при существенно более низких затратах.
Проблема коллапса информации: Существующие методы оптимизации рабочих процессов LLM сжимают сложные многошаговые траектории отказов в простые бинарные сигналы, теряя структурную информацию об отказах
Слепой поиск: Традиционные методы глобального поиска не могут понять потенциальное распределение отказов, что приводит к низкой эффективности оптимизации
Ограничения оптимизации нулевого порядка: Методы оптимизации, основанные на скалярных метриках, по сути являются оптимизацией нулевого порядка и лишены информации о градиентах
Новая парадигма оптимизации: Предложена парадигма оптимизации на основе отказов, переформулирующая задачу как оптимизацию распределения вместо скалярной оптимизации
Теоретическая база: Введены концепции пространства сигнатур отказов (Failure Signature Space) и ожидаемой массы отказов
Архитектура CE-Graph: Разработана полная реализационная архитектура, включающая кластеризацию отказов, механизм предложения-верификации и другие компоненты
Экспериментальная верификация: Доказана эффективность и производительность метода на множественных тестовых наборах
Теоретические гарантии: Предоставлены теоретические границы жадкого снижения качества и анализ сходимости
Смена парадигмы: Переход от скалярной оптимизации к оптимизации распределения является эффективным
Важность структуры: Использование структурной информации об отказах более эффективно, чем ее игнорирование
Надежность системы: Истинная надежность происходит из систематического понимания и переформирования распределения отказов, а не из простого избежания отказов
Статья цитирует большое количество связанных работ, включая:
Оптимизация рабочих процессов: Zhang et al. (2025a,b), Khattab et al. (2024)
Методы на основе контрпримеров: Hidvégi et al. (2024), Renze & Guven (2024)
Системы агентов LLM: Chen et al. (2024), Liu et al. (2024)
Тестовые наборы: Cobbe et al. (2021), Hendrycks et al. (2021)
Общая оценка: Это статья с важными теоретическими вкладами и практической ценностью, предлагающая новую парадигму для оптимизации рабочих процессов LLM. Хотя метод довольно сложен, результаты экспериментов убедительны и предоставляют ценные новые идеи для этой области. Статья хорошо написана, теоретический анализ полный, и она представляет важный прогресс в этой области исследований.