2025-11-12T08:13:09.449491

Failure-Driven Workflow Refinement

Zhang, Cai, Zeng et al.

Optimizing LLM-based workflows is typically formulated as a global search, where candidate workflows are evaluated based on a scalar metric. This paradigm, however, suffers from a critical flaw: information collapse. By reducing rich, multi-step execution traces to simple success/failure signals, existing methods are rendered blind to the underlying structure of failures, fundamentally preventing them from modeling the workflow's failure distribution. We reconceptualize this challenge as a distributional problem. We propose a new paradigm where the optimization goal is not to maximize a scalar score, but to directly minimize a workflow's Expected Failure Mass, i.e., the integral of its failure probability density function defined over a high-dimensional Failure Signature Space (FSS). This distributional lens allows us to move from inefficient, zero-order optimization to a principled, gradient-like descent on the failure landscape itself. We introduce CE-Graph, a framework that operationalizes this paradigm through a novel, failure-driven refinement process. CE-Graph approximates the failure distribution from a pool of counterexamples, identifies its densest regions as recurring failure modes, and applies targeted, operator-constrained graph edits via a Propose-and-Verify mechanism to greedily reduce the failure mass. On math, code, and QA benchmarks, our CE-Graph achieves higher robustness at a significantly lower cost than strong baselines. This suggests that a system's reliability emerges not from avoiding failures, but from systematically learning and reshaping the geometric structure of its failure distributions.

academic

Failure-Driven Workflow Refinement

基本信息

论文ID: 2510.10035
标题: Failure-Driven Workflow Refinement
作者: Jusheng Zhang, Kaitong Cai, Qinglin Zeng, Ningyuan Liu, Yijia Fan, Ziliang Chen, Keze Wang (Sun Yat-sen University, X-Era AI Lab)
分类: cs.AI
发表状态: Paper under submission
论文链接: https://arxiv.org/abs/2510.10035

摘要

本文针对LLM工作流优化中的"信息坍塌"问题，提出了一种全新的失败驱动优化范式。传统方法将丰富的多步执行轨迹简化为二元成功/失败信号，导致无法建模工作流的失败分布。作者重新将此问题定义为分布优化问题，提出最小化"期望失败质量"(Expected Failure Mass)而非最大化标量分数。基于此理念，设计了CE-Graph框架，通过反例池近似失败分布，识别最密集的失败模式，并应用有针对性的图编辑来贪心地减少失败质量。在数学、代码和问答基准测试中，CE-Graph以显著更低的成本实现了更高的鲁棒性。

研究背景与动机

核心问题

信息坍塌问题: 现有LLM工作流优化方法将复杂的多步失败轨迹压缩为简单的二元信号，丢失了失败的结构信息
盲目搜索: 传统全局搜索方法无法理解失败的潜在分布，导致优化效率低下
零阶优化局限: 基于标量指标的优化方法本质上是零阶的，缺乏梯度信息指导

研究重要性

LLM代理工作流在长期推理和复杂问题解决中应用广泛
工作流优化对构建可靠的代理系统至关重要
现有方法的低效性阻碍了大规模部署

现有方法局限性

全局搜索范式: 如MCTS等方法需要大量采样才能收敛
黑盒评估: 仅依赖成功率等标量指标，无法利用失败的结构信息
随机性: 无法系统性地识别和修复重复出现的失败模式

核心贡献

新优化范式: 提出失败驱动优化范式，将问题重新定义为分布优化而非标量优化
理论框架: 引入失败签名空间(Failure Signature Space)和期望失败质量概念
CE-Graph框架: 设计完整的实现框架，包含失败聚类、提议验证机制等
实验验证: 在多个基准测试中证明了方法的有效性和效率
理论保证: 提供贪心质量减少的理论界限和收敛性分析

方法详解

任务定义

给定数据集D，目标是构建工作流W*，使其最小化期望失败质量：

W* = argmin_{W∈S} M(W)
其中 M(W) = ∫_F p(s|W) ds

这里F是失败签名空间，p(s|W)是工作流W诱导的失败概率密度函数。

模型架构

1. 失败签名空间构建

失败蒸馏: 使用工具LLM将原始执行轨迹τ_d提取为结构化元组(v_err, z_err)
语义-结构向量化:
- 结构映射: ψ_struct(v_err) → R^|V| (独热编码)
- 语义映射: ψ_sem(z_err) → R^d (BERT类嵌入)
- 最终签名: s = ψ_struct(v_err) ⊕ ψ_sem(z_err)

2. 贪心质量减少算法

步骤1: 梯度方向近似

使用高斯混合模型(GMM)拟合失败签名点云S_t
识别最密集模式: b*t = argmax π_k

步骤2: 最优编辑查找

约束提议: 提议LLM生成N个候选编辑{Δ_1,...,Δ_N}
验证: 通过蒙特卡罗采样计算每个候选的效用V(Δ_i)

3. 提议验证机制

V(Δ_i) ≈ (1/K) Σ_{k=1}^K I[Verify(Execute(W_t ⊕ Δ_i, x_k), y_k) = 1]

技术创新点

分布视角: 首次将工作流优化视为失败分布重塑问题
白盒优化: 相比黑盒方法，能够利用失败的内部结构
梯度类下降: 在离散空间实现类似梯度下降的原理性优化
结构化编辑: 通过算子库约束搜索空间，确保编辑的有效性

实验设置

数据集

数学推理: GSM8K, MATH, MultiArith
代码生成: HumanEval, MBPP
工具使用: GAIA
数据划分: 训练集80%，验证集10%，测试集10%

评价指标

准确率(Accuracy)
pass@1 (代码任务)
优化成本(API tokens)
收敛速度

对比方法

三类基线系统:

单代理: Vanilla, CoT, ComplexCoT, SC
手工多代理: MultiPersona, LLM-Debate, DyLAN等
自动代理: AutoAgents, AFlow, MaAS等

实现细节

基础模型: GPT-4o-mini
超参数: N=5, K=10, T_max=20
算子库: RevisePrompt, InsertNode, DeleteNode
嵌入模型: text-embedding-ada-002

实验结果

主要结果

CE-Graph在所有基准测试中均超过基线方法：

平均性能: 86.23% vs 83.59% (MaAS)
MATH: 55.91% (+4.1% vs MaAS)
MBPP: 88.10% (+5.9% vs MaAS)
HumanEval: 94.26% (+1.4% vs MaAS)

成本分析

在MATH基准上实现最高准确率(53.5%)的同时保持最低计算成本
收敛感知停止准则节省50%以上优化成本
对token预算变化具有强鲁棒性

消融实验

关键组件贡献分析：

w/o 聚类: MATH准确率降至51.25% (-4.66%)
w/o 验证: 降至49.10% (-6.81%)
w/o 结构化算子: 降至47.35% (-8.56%)
w/o 收敛停止: 成本增加50%+

稳定性分析

在固定失败集合E_0上的纵向评估显示：

CE-Graph表现出平滑单调递增轨迹
基线方法(特别是AFlow)出现显著波动，反映策略振荡问题

结论与讨论

主要结论

范式转换: 从标量优化到分布优化的范式转换是有效的
结构重要性: 利用失败的结构信息比忽略它们更有效
系统可靠性: 真正的可靠性源于系统性理解和重塑失败分布，而非简单避免失败

局限性

嵌入依赖: 失败签名空间构建依赖语义嵌入质量
贪心假设: 假设最普遍的失败模式对应最关键的修复目标
算子库设计: 需要在表达性和约束性之间平衡
收敛保证: 无法保证全局最优性，可能陷入局部最优

未来方向

自适应嵌入: 随工作流演化的嵌入方法
风险敏感目标: 平衡频繁和稀有失败的目标函数
元学习策略: 动态扩展或修剪算子库
多模态扩展: 扩展到多模态工作流

深度评价

优点

理论贡献: 提供了工作流优化的新理论框架，具有坚实的数学基础
实际效果: 在多个基准测试中取得显著改进，证明方法有效性
效率提升: 相比全局搜索方法大幅降低计算成本
通用性: 跨不同任务域(数学、代码、QA)均有效
可解释性: 通过失败模式聚类提供了优化过程的可解释性

不足

复杂性: 框架较为复杂，包含多个组件，实现和调试可能困难
依赖性: 对LLM质量和嵌入模型性能有较强依赖
可扩展性: 在大规模工作流图上的可扩展性需要进一步验证
泛化性: 跨模型和跨数据集的泛化能力实验有限

影响力

学术价值: 为LLM工作流优化提供了新的研究方向
实用价值: 可应用于实际的代理系统开发
启发性: 失败驱动的思想可能启发其他AI系统的优化方法

适用场景

复杂代理系统: 需要高可靠性的多步推理系统
资源受限环境: 需要高效优化的场景
可解释性要求: 需要理解优化过程的应用
迭代开发: 需要持续改进的工作流系统

参考文献

论文引用了大量相关工作，包括：

工作流优化: Zhang et al. (2025a,b), Khattab et al. (2024)
反例引导方法: Hidvégi et al. (2024), Renze & Guven (2024)
LLM代理系统: Chen et al. (2024), Liu et al. (2024)
基准测试: Cobbe et al. (2021), Hendrycks et al. (2021)

总体评价: 这是一篇具有重要理论贡献和实际价值的论文，提出了LLM工作流优化的新范式。虽然方法较为复杂，但实验结果令人信服，为该领域提供了有价值的新思路。论文的写作清晰，理论分析充分，是该领域的一个重要进展。

Failure-Driven Workflow Refinement

Failure-Driven Workflow Refinement

基本信息

摘要

研究背景与动机

核心问题

研究重要性

现有方法局限性

核心贡献

方法详解

任务定义

模型架构

1. 失败签名空间构建

2. 贪心质量减少算法

3. 提议验证机制

技术创新点

实验设置

数据集

评价指标

对比方法

实现细节

实验结果

主要结果

成本分析

消融实验

稳定性分析

相关工作

自动工作流优化

反例引导细化

实例级自校正

结论与讨论

主要结论

局限性

未来方向

深度评价

优点

不足

影响力

适用场景

参考文献