2025-11-12T08:13:09.449491

Failure-Driven Workflow Refinement

Zhang, Cai, Zeng et al.
Optimizing LLM-based workflows is typically formulated as a global search, where candidate workflows are evaluated based on a scalar metric. This paradigm, however, suffers from a critical flaw: information collapse. By reducing rich, multi-step execution traces to simple success/failure signals, existing methods are rendered blind to the underlying structure of failures, fundamentally preventing them from modeling the workflow's failure distribution. We reconceptualize this challenge as a distributional problem. We propose a new paradigm where the optimization goal is not to maximize a scalar score, but to directly minimize a workflow's Expected Failure Mass, i.e., the integral of its failure probability density function defined over a high-dimensional Failure Signature Space (FSS). This distributional lens allows us to move from inefficient, zero-order optimization to a principled, gradient-like descent on the failure landscape itself. We introduce CE-Graph, a framework that operationalizes this paradigm through a novel, failure-driven refinement process. CE-Graph approximates the failure distribution from a pool of counterexamples, identifies its densest regions as recurring failure modes, and applies targeted, operator-constrained graph edits via a Propose-and-Verify mechanism to greedily reduce the failure mass. On math, code, and QA benchmarks, our CE-Graph achieves higher robustness at a significantly lower cost than strong baselines. This suggests that a system's reliability emerges not from avoiding failures, but from systematically learning and reshaping the geometric structure of its failure distributions.
academic

Уточнение рабочего процесса на основе отказов

Основная информация

  • ID статьи: 2510.10035
  • Название: Failure-Driven Workflow Refinement
  • Авторы: Jusheng Zhang, Kaitong Cai, Qinglin Zeng, Ningyuan Liu, Yijia Fan, Ziliang Chen, Keze Wang (Sun Yat-sen University, X-Era AI Lab)
  • Категория: cs.AI
  • Статус публикации: Статья на рассмотрении
  • Ссылка на статью: https://arxiv.org/abs/2510.10035

Аннотация

В данной работе предложена новая парадигма оптимизации на основе отказов для решения проблемы "коллапса информации" при оптимизации рабочих процессов LLM. Традиционные методы сводят богатые многошаговые траектории выполнения к бинарным сигналам успеха/отказа, что делает невозможным моделирование распределения отказов рабочего процесса. Авторы переформулируют эту задачу как задачу оптимизации распределения, предлагая минимизировать "ожидаемую массу отказов" (Expected Failure Mass) вместо максимизации скалярной оценки. На основе этой идеи разработана архитектура CE-Graph, которая аппроксимирует распределение отказов через пул контрпримеров, выявляет наиболее плотные паттерны отказов и применяет целевое редактирование графов для жадкого снижения массы отказов. На тестах по математике, кодированию и вопросно-ответным системам CE-Graph достигает значительно более высокой надежности при существенно более низких затратах.

Исследовательский контекст и мотивация

Основные проблемы

  1. Проблема коллапса информации: Существующие методы оптимизации рабочих процессов LLM сжимают сложные многошаговые траектории отказов в простые бинарные сигналы, теряя структурную информацию об отказах
  2. Слепой поиск: Традиционные методы глобального поиска не могут понять потенциальное распределение отказов, что приводит к низкой эффективности оптимизации
  3. Ограничения оптимизации нулевого порядка: Методы оптимизации, основанные на скалярных метриках, по сути являются оптимизацией нулевого порядка и лишены информации о градиентах

Значимость исследования

  • Рабочие процессы агентов LLM широко применяются в долгосрочных рассуждениях и решении сложных задач
  • Оптимизация рабочих процессов критична для построения надежных систем агентов
  • Неэффективность существующих методов препятствует крупномасштабному развертыванию

Ограничения существующих методов

  1. Парадигма глобального поиска: Методы типа MCTS требуют большого количества выборок для сходимости
  2. Черный ящик оценки: Опираются только на скалярные метрики типа коэффициента успеха, не могут использовать структурную информацию об отказах
  3. Случайность: Не могут систематически выявлять и исправлять повторяющиеся паттерны отказов

Основные вклады

  1. Новая парадигма оптимизации: Предложена парадигма оптимизации на основе отказов, переформулирующая задачу как оптимизацию распределения вместо скалярной оптимизации
  2. Теоретическая база: Введены концепции пространства сигнатур отказов (Failure Signature Space) и ожидаемой массы отказов
  3. Архитектура CE-Graph: Разработана полная реализационная архитектура, включающая кластеризацию отказов, механизм предложения-верификации и другие компоненты
  4. Экспериментальная верификация: Доказана эффективность и производительность метода на множественных тестовых наборах
  5. Теоретические гарантии: Предоставлены теоретические границы жадкого снижения качества и анализ сходимости

Подробное описание метода

Определение задачи

Дано множество данных D, цель состоит в построении рабочего процесса W*, минимизирующего ожидаемую массу отказов:

W* = argmin_{W∈S} M(W)
где M(W) = ∫_F p(s|W) ds

Здесь F — пространство сигнатур отказов, p(s|W) — функция плотности вероятности отказов, индуцированная рабочим процессом W.

Архитектура модели

1. Построение пространства сигнатур отказов

  • Дистилляция отказов: Использование инструментального LLM для извлечения исходной траектории выполнения τ_d в структурированный кортеж (v_err, z_err)
  • Семантико-структурная векторизация:
    • Структурное отображение: ψ_struct(v_err) → R^|V| (one-hot кодирование)
    • Семантическое отображение: ψ_sem(z_err) → R^d (вложения типа BERT)
    • Финальная сигнатура: s = ψ_struct(v_err) ⊕ ψ_sem(z_err)

2. Алгоритм жадкого снижения качества

Шаг 1: Аппроксимация направления градиента

  • Использование гауссовой смешанной модели (GMM) для аппроксимации облака точек сигнатур отказов S_t
  • Выявление наиболее плотного паттерна: b*t = argmax π_k

Шаг 2: Поиск оптимального редактирования

  • Предложение с ограничениями: LLM генерирует N кандидатов редактирования {Δ_1,...,Δ_N}
  • Верификация: Вычисление полезности каждого кандидата V(Δ_i) через выборку Монте-Карло

3. Механизм предложения-верификации

V(Δ_i) ≈ (1/K) Σ_{k=1}^K I[Verify(Execute(W_t ⊕ Δ_i, x_k), y_k) = 1]

Технические инновации

  1. Перспектива распределения: Впервые рабочие процессы рассматриваются как задача переформирования распределения отказов
  2. Белый ящик оптимизации: В отличие от методов черного ящика, может использовать внутреннюю структуру отказов
  3. Градиентоподобный спуск: Реализует принципы, подобные градиентному спуску, в дискретном пространстве
  4. Структурированное редактирование: Ограничивает пространство поиска через библиотеку операторов, обеспечивая действительность редактирования

Экспериментальная установка

Наборы данных

  • Математические рассуждения: GSM8K, MATH, MultiArith
  • Генерация кода: HumanEval, MBPP
  • Использование инструментов: GAIA
  • Разделение данных: 80% обучающее, 10% валидационное, 10% тестовое

Метрики оценки

  • Точность (Accuracy)
  • pass@1 (задачи кодирования)
  • Стоимость оптимизации (токены API)
  • Скорость сходимости

Методы сравнения

Три класса базовых систем:

  1. Одиночный агент: Vanilla, CoT, ComplexCoT, SC
  2. Ручные мультиагенты: MultiPersona, LLM-Debate, DyLAN и др.
  3. Автоматические агенты: AutoAgents, AFlow, MaAS и др.

Детали реализации

  • Базовая модель: GPT-4o-mini
  • Гиперпараметры: N=5, K=10, T_max=20
  • Библиотека операторов: RevisePrompt, InsertNode, DeleteNode
  • Модель вложений: text-embedding-ada-002

Результаты экспериментов

Основные результаты

CE-Graph превосходит базовые методы на всех тестовых наборах:

  • Средняя производительность: 86.23% vs 83.59% (MaAS)
  • MATH: 55.91% (+4.1% vs MaAS)
  • MBPP: 88.10% (+5.9% vs MaAS)
  • HumanEval: 94.26% (+1.4% vs MaAS)

Анализ затрат

  • Достижение наивысшей точности на тестовом наборе MATH (53.5%) при сохранении наименьших вычислительных затрат
  • Критерий остановки с учетом сходимости экономит более 50% затрат оптимизации
  • Демонстрирует сильную робастность к изменениям бюджета токенов

Абляционные исследования

Анализ вклада ключевых компонентов:

  • без кластеризации: Точность на MATH снижается до 51.25% (-4.66%)
  • без верификации: Снижается до 49.10% (-6.81%)
  • без структурированных операторов: Снижается до 47.35% (-8.56%)
  • без критерия остановки сходимости: Затраты увеличиваются на 50%+

Анализ стабильности

Продольная оценка на фиксированном множестве отказов E_0 показывает:

  • CE-Graph демонстрирует гладкую монотонно возрастающую траекторию
  • Базовые методы (особенно AFlow) показывают значительные колебания, отражающие проблемы колебания стратегии

Связанные работы

Автоматическая оптимизация рабочих процессов

  • MaAS, AFlow и другие используют стратегии глобального поиска (MCTS, эволюционные алгоритмы)
  • Фреймворки типа DSPy оптимизируют подсказки, но все еще опираются на скалярные метрики
  • CE-Graph достигает прорыва путем сохранения семантики и структурной информации об отказах

Уточнение на основе контрпримеров

  • Происходит из синтеза программ и формальной верификации (например, CEGAR)
  • Традиционные методы ориентированы на детерминированные системы, сложны для обработки случайных семантических отказов LLM
  • CE-Graph адаптирует этот принцип к открытой области LLM

Самокоррекция на уровне экземпляров

  • Self-Consistency, Reflexion и другие улучшают отдельные выходы через голосование или рефлексию подсказок
  • Существует риск переобучения, сложно захватить системные дефекты
  • CE-Graph принимает глобальную перспективу распределения, агрегируя контрпримеры для структурированного исправления

Выводы и обсуждение

Основные выводы

  1. Смена парадигмы: Переход от скалярной оптимизации к оптимизации распределения является эффективным
  2. Важность структуры: Использование структурной информации об отказах более эффективно, чем ее игнорирование
  3. Надежность системы: Истинная надежность происходит из систематического понимания и переформирования распределения отказов, а не из простого избежания отказов

Ограничения

  1. Зависимость от вложений: Построение пространства сигнатур отказов зависит от качества семантических вложений
  2. Жадное предположение: Предполагает, что наиболее распространенные паттерны отказов соответствуют наиболее критичным целям исправления
  3. Проектирование библиотеки операторов: Требует баланса между выразительностью и ограничениями
  4. Гарантии сходимости: Не может гарантировать глобальную оптимальность, может застрять в локальном оптимуме

Будущие направления

  1. Адаптивные вложения: Методы вложений, эволюционирующие с рабочим процессом
  2. Цели, чувствительные к риску: Функции целей, балансирующие частые и редкие отказы
  3. Стратегии метаобучения: Динамическое расширение или сокращение библиотеки операторов
  4. Мультимодальное расширение: Расширение на мультимодальные рабочие процессы

Глубокая оценка

Преимущества

  1. Теоретический вклад: Предоставляет новую теоретическую базу для оптимизации рабочих процессов с прочной математической основой
  2. Практическая эффективность: Достигает значительных улучшений на множественных тестовых наборах, доказывая действенность метода
  3. Повышение эффективности: Значительно снижает вычислительные затраты по сравнению с методами глобального поиска
  4. Универсальность: Эффективен в различных предметных областях (математика, кодирование, QA)
  5. Интерпретируемость: Обеспечивает интерпретируемость процесса оптимизации через кластеризацию паттернов отказов

Недостатки

  1. Сложность: Архитектура довольно сложна, включает множество компонентов, реализация и отладка могут быть затруднены
  2. Зависимости: Имеет сильную зависимость от качества LLM и производительности модели вложений
  3. Масштабируемость: Масштабируемость на больших графах рабочих процессов требует дальнейшей верификации
  4. Обобщение: Ограниченные эксперименты по способности обобщения между моделями и наборами данных

Влияние

  1. Академическая ценность: Предоставляет новое направление исследований для оптимизации рабочих процессов LLM
  2. Практическая ценность: Может применяться в разработке реальных систем агентов
  3. Вдохновляющий потенциал: Идея оптимизации на основе отказов может вдохновить методы оптимизации других систем AI

Применимые сценарии

  1. Сложные системы агентов: Многошаговые системы рассуждений, требующие высокой надежности
  2. Среды с ограниченными ресурсами: Сценарии, требующие эффективной оптимизации
  3. Требования интерпретируемости: Приложения, требующие понимания процесса оптимизации
  4. Итеративная разработка: Системы рабочих процессов, требующие непрерывного улучшения

Библиография

Статья цитирует большое количество связанных работ, включая:

  • Оптимизация рабочих процессов: Zhang et al. (2025a,b), Khattab et al. (2024)
  • Методы на основе контрпримеров: Hidvégi et al. (2024), Renze & Guven (2024)
  • Системы агентов LLM: Chen et al. (2024), Liu et al. (2024)
  • Тестовые наборы: Cobbe et al. (2021), Hendrycks et al. (2021)

Общая оценка: Это статья с важными теоретическими вкладами и практической ценностью, предлагающая новую парадигму для оптимизации рабочих процессов LLM. Хотя метод довольно сложен, результаты экспериментов убедительны и предоставляют ценные новые идеи для этой области. Статья хорошо написана, теоретический анализ полный, и она представляет важный прогресс в этой области исследований.