2025-11-12T08:13:09.449491

Failure-Driven Workflow Refinement

Zhang, Cai, Zeng et al.
Optimizing LLM-based workflows is typically formulated as a global search, where candidate workflows are evaluated based on a scalar metric. This paradigm, however, suffers from a critical flaw: information collapse. By reducing rich, multi-step execution traces to simple success/failure signals, existing methods are rendered blind to the underlying structure of failures, fundamentally preventing them from modeling the workflow's failure distribution. We reconceptualize this challenge as a distributional problem. We propose a new paradigm where the optimization goal is not to maximize a scalar score, but to directly minimize a workflow's Expected Failure Mass, i.e., the integral of its failure probability density function defined over a high-dimensional Failure Signature Space (FSS). This distributional lens allows us to move from inefficient, zero-order optimization to a principled, gradient-like descent on the failure landscape itself. We introduce CE-Graph, a framework that operationalizes this paradigm through a novel, failure-driven refinement process. CE-Graph approximates the failure distribution from a pool of counterexamples, identifies its densest regions as recurring failure modes, and applies targeted, operator-constrained graph edits via a Propose-and-Verify mechanism to greedily reduce the failure mass. On math, code, and QA benchmarks, our CE-Graph achieves higher robustness at a significantly lower cost than strong baselines. This suggests that a system's reliability emerges not from avoiding failures, but from systematically learning and reshaping the geometric structure of its failure distributions.
academic

Failure-Driven Workflow Refinement

基本信息

  • 论文ID: 2510.10035
  • 标题: Failure-Driven Workflow Refinement
  • 作者: Jusheng Zhang, Kaitong Cai, Qinglin Zeng, Ningyuan Liu, Yijia Fan, Ziliang Chen, Keze Wang (Sun Yat-sen University, X-Era AI Lab)
  • 分类: cs.AI
  • 发表状态: Paper under submission
  • 论文链接: https://arxiv.org/abs/2510.10035

摘要

本文针对LLM工作流优化中的"信息坍塌"问题,提出了一种全新的失败驱动优化范式。传统方法将丰富的多步执行轨迹简化为二元成功/失败信号,导致无法建模工作流的失败分布。作者重新将此问题定义为分布优化问题,提出最小化"期望失败质量"(Expected Failure Mass)而非最大化标量分数。基于此理念,设计了CE-Graph框架,通过反例池近似失败分布,识别最密集的失败模式,并应用有针对性的图编辑来贪心地减少失败质量。在数学、代码和问答基准测试中,CE-Graph以显著更低的成本实现了更高的鲁棒性。

研究背景与动机

核心问题

  1. 信息坍塌问题: 现有LLM工作流优化方法将复杂的多步失败轨迹压缩为简单的二元信号,丢失了失败的结构信息
  2. 盲目搜索: 传统全局搜索方法无法理解失败的潜在分布,导致优化效率低下
  3. 零阶优化局限: 基于标量指标的优化方法本质上是零阶的,缺乏梯度信息指导

研究重要性

  • LLM代理工作流在长期推理和复杂问题解决中应用广泛
  • 工作流优化对构建可靠的代理系统至关重要
  • 现有方法的低效性阻碍了大规模部署

现有方法局限性

  1. 全局搜索范式: 如MCTS等方法需要大量采样才能收敛
  2. 黑盒评估: 仅依赖成功率等标量指标,无法利用失败的结构信息
  3. 随机性: 无法系统性地识别和修复重复出现的失败模式

核心贡献

  1. 新优化范式: 提出失败驱动优化范式,将问题重新定义为分布优化而非标量优化
  2. 理论框架: 引入失败签名空间(Failure Signature Space)和期望失败质量概念
  3. CE-Graph框架: 设计完整的实现框架,包含失败聚类、提议验证机制等
  4. 实验验证: 在多个基准测试中证明了方法的有效性和效率
  5. 理论保证: 提供贪心质量减少的理论界限和收敛性分析

方法详解

任务定义

给定数据集D,目标是构建工作流W*,使其最小化期望失败质量:

W* = argmin_{W∈S} M(W)
其中 M(W) = ∫_F p(s|W) ds

这里F是失败签名空间,p(s|W)是工作流W诱导的失败概率密度函数。

模型架构

1. 失败签名空间构建

  • 失败蒸馏: 使用工具LLM将原始执行轨迹τ_d提取为结构化元组(v_err, z_err)
  • 语义-结构向量化:
    • 结构映射: ψ_struct(v_err) → R^|V| (独热编码)
    • 语义映射: ψ_sem(z_err) → R^d (BERT类嵌入)
    • 最终签名: s = ψ_struct(v_err) ⊕ ψ_sem(z_err)

2. 贪心质量减少算法

步骤1: 梯度方向近似

  • 使用高斯混合模型(GMM)拟合失败签名点云S_t
  • 识别最密集模式: b*t = argmax π_k

步骤2: 最优编辑查找

  • 约束提议: 提议LLM生成N个候选编辑{Δ_1,...,Δ_N}
  • 验证: 通过蒙特卡罗采样计算每个候选的效用V(Δ_i)

3. 提议验证机制

V(Δ_i) ≈ (1/K) Σ_{k=1}^K I[Verify(Execute(W_t ⊕ Δ_i, x_k), y_k) = 1]

技术创新点

  1. 分布视角: 首次将工作流优化视为失败分布重塑问题
  2. 白盒优化: 相比黑盒方法,能够利用失败的内部结构
  3. 梯度类下降: 在离散空间实现类似梯度下降的原理性优化
  4. 结构化编辑: 通过算子库约束搜索空间,确保编辑的有效性

实验设置

数据集

  • 数学推理: GSM8K, MATH, MultiArith
  • 代码生成: HumanEval, MBPP
  • 工具使用: GAIA
  • 数据划分: 训练集80%,验证集10%,测试集10%

评价指标

  • 准确率(Accuracy)
  • pass@1 (代码任务)
  • 优化成本(API tokens)
  • 收敛速度

对比方法

三类基线系统:

  1. 单代理: Vanilla, CoT, ComplexCoT, SC
  2. 手工多代理: MultiPersona, LLM-Debate, DyLAN等
  3. 自动代理: AutoAgents, AFlow, MaAS等

实现细节

  • 基础模型: GPT-4o-mini
  • 超参数: N=5, K=10, T_max=20
  • 算子库: RevisePrompt, InsertNode, DeleteNode
  • 嵌入模型: text-embedding-ada-002

实验结果

主要结果

CE-Graph在所有基准测试中均超过基线方法:

  • 平均性能: 86.23% vs 83.59% (MaAS)
  • MATH: 55.91% (+4.1% vs MaAS)
  • MBPP: 88.10% (+5.9% vs MaAS)
  • HumanEval: 94.26% (+1.4% vs MaAS)

成本分析

  • 在MATH基准上实现最高准确率(53.5%)的同时保持最低计算成本
  • 收敛感知停止准则节省50%以上优化成本
  • 对token预算变化具有强鲁棒性

消融实验

关键组件贡献分析:

  • w/o 聚类: MATH准确率降至51.25% (-4.66%)
  • w/o 验证: 降至49.10% (-6.81%)
  • w/o 结构化算子: 降至47.35% (-8.56%)
  • w/o 收敛停止: 成本增加50%+

稳定性分析

在固定失败集合E_0上的纵向评估显示:

  • CE-Graph表现出平滑单调递增轨迹
  • 基线方法(特别是AFlow)出现显著波动,反映策略振荡问题

相关工作

自动工作流优化

  • MaAS, AFlow等使用全局搜索策略(MCTS, 进化算法)
  • DSPy等框架优化提示但仍依赖标量指标
  • CE-Graph通过保留失败语义和结构信息实现突破

反例引导细化

  • 源于程序合成和形式验证(如CEGAR)
  • 传统方法针对确定性系统,难以处理LLM的随机语义失败
  • CE-Graph将此原理适配到开放式LLM领域

实例级自校正

  • Self-Consistency, Reflexion等通过投票或提示反思改进单个输出
  • 存在过拟合风险,难以捕获系统性缺陷
  • CE-Graph采用全局分布视角,聚合反例进行结构化修复

结论与讨论

主要结论

  1. 范式转换: 从标量优化到分布优化的范式转换是有效的
  2. 结构重要性: 利用失败的结构信息比忽略它们更有效
  3. 系统可靠性: 真正的可靠性源于系统性理解和重塑失败分布,而非简单避免失败

局限性

  1. 嵌入依赖: 失败签名空间构建依赖语义嵌入质量
  2. 贪心假设: 假设最普遍的失败模式对应最关键的修复目标
  3. 算子库设计: 需要在表达性和约束性之间平衡
  4. 收敛保证: 无法保证全局最优性,可能陷入局部最优

未来方向

  1. 自适应嵌入: 随工作流演化的嵌入方法
  2. 风险敏感目标: 平衡频繁和稀有失败的目标函数
  3. 元学习策略: 动态扩展或修剪算子库
  4. 多模态扩展: 扩展到多模态工作流

深度评价

优点

  1. 理论贡献: 提供了工作流优化的新理论框架,具有坚实的数学基础
  2. 实际效果: 在多个基准测试中取得显著改进,证明方法有效性
  3. 效率提升: 相比全局搜索方法大幅降低计算成本
  4. 通用性: 跨不同任务域(数学、代码、QA)均有效
  5. 可解释性: 通过失败模式聚类提供了优化过程的可解释性

不足

  1. 复杂性: 框架较为复杂,包含多个组件,实现和调试可能困难
  2. 依赖性: 对LLM质量和嵌入模型性能有较强依赖
  3. 可扩展性: 在大规模工作流图上的可扩展性需要进一步验证
  4. 泛化性: 跨模型和跨数据集的泛化能力实验有限

影响力

  1. 学术价值: 为LLM工作流优化提供了新的研究方向
  2. 实用价值: 可应用于实际的代理系统开发
  3. 启发性: 失败驱动的思想可能启发其他AI系统的优化方法

适用场景

  1. 复杂代理系统: 需要高可靠性的多步推理系统
  2. 资源受限环境: 需要高效优化的场景
  3. 可解释性要求: 需要理解优化过程的应用
  4. 迭代开发: 需要持续改进的工作流系统

参考文献

论文引用了大量相关工作,包括:

  • 工作流优化: Zhang et al. (2025a,b), Khattab et al. (2024)
  • 反例引导方法: Hidvégi et al. (2024), Renze & Guven (2024)
  • LLM代理系统: Chen et al. (2024), Liu et al. (2024)
  • 基准测试: Cobbe et al. (2021), Hendrycks et al. (2021)

总体评价: 这是一篇具有重要理论贡献和实际价值的论文,提出了LLM工作流优化的新范式。虽然方法较为复杂,但实验结果令人信服,为该领域提供了有价值的新思路。论文的写作清晰,理论分析充分,是该领域的一个重要进展。