2025-11-12T08:13:09.449491

Failure-Driven Workflow Refinement

Zhang, Cai, Zeng et al.

Optimizing LLM-based workflows is typically formulated as a global search, where candidate workflows are evaluated based on a scalar metric. This paradigm, however, suffers from a critical flaw: information collapse. By reducing rich, multi-step execution traces to simple success/failure signals, existing methods are rendered blind to the underlying structure of failures, fundamentally preventing them from modeling the workflow's failure distribution. We reconceptualize this challenge as a distributional problem. We propose a new paradigm where the optimization goal is not to maximize a scalar score, but to directly minimize a workflow's Expected Failure Mass, i.e., the integral of its failure probability density function defined over a high-dimensional Failure Signature Space (FSS). This distributional lens allows us to move from inefficient, zero-order optimization to a principled, gradient-like descent on the failure landscape itself. We introduce CE-Graph, a framework that operationalizes this paradigm through a novel, failure-driven refinement process. CE-Graph approximates the failure distribution from a pool of counterexamples, identifies its densest regions as recurring failure modes, and applies targeted, operator-constrained graph edits via a Propose-and-Verify mechanism to greedily reduce the failure mass. On math, code, and QA benchmarks, our CE-Graph achieves higher robustness at a significantly lower cost than strong baselines. This suggests that a system's reliability emerges not from avoiding failures, but from systematically learning and reshaping the geometric structure of its failure distributions.

academic

失敗駆動ワークフロー改善

基本情報

論文ID: 2510.10035
タイトル: Failure-Driven Workflow Refinement
著者: Jusheng Zhang, Kaitong Cai, Qinglin Zeng, Ningyuan Liu, Yijia Fan, Ziliang Chen, Keze Wang (中山大学、X-Era AI Lab)
分類: cs.AI
発表状況: 投稿中の論文
論文リンク: https://arxiv.org/abs/2510.10035

要旨

本論文は、LLMワークフロー最適化における「情報崩壊」問題に対処するため、革新的な失敗駆動最適化パラダイムを提案している。従来の手法は、豊富な多段階実行軌跡を二値の成功/失敗信号に単純化し、ワークフローの失敗分布をモデル化できない。著者らは本問題を分布最適化問題として再定義し、スカラースコアの最大化ではなく「期待失敗質量」(Expected Failure Mass)の最小化を提案する。この理念に基づき、CE-Graphフレームワークを設計した。反例プールを通じて失敗分布を近似し、最も密集した失敗パターンを識別し、標的化されたグラフ編集を適用して貪欲に失敗質量を削減する。数学、コード、質問応答ベンチマークにおいて、CE-Graphは著しく低いコストでより高い堅牢性を実現している。

研究背景と動機

核心的問題

情報崩壊問題: 既存のLLMワークフロー最適化手法は、複雑な多段階失敗軌跡を単純な二値信号に圧縮し、失敗の構造情報を喪失する
盲目的探索: 従来のグローバル探索手法は失敗の潜在分布を理解できず、最適化効率が低下する
ゼロ次最適化の制限: スカラー指標に基づく最適化手法は本質的にゼロ次であり、勾配情報による指導が不足している

研究の重要性

LLMエージェントワークフローは長期推論と複雑な問題解決に広く応用されている
ワークフロー最適化は信頼性の高いエージェントシステムの構築に不可欠である
既存手法の非効率性は大規模展開を阻害している

既存手法の制限

グローバル探索パラダイム: MCTSなどの手法は収束に大量のサンプリングを必要とする
ブラックボックス評価: 成功率などのスカラー指標のみに依存し、失敗の構造情報を活用できない
ランダム性: 反復的に発生する失敗パターンを体系的に識別・修復できない

核心的貢献

新しい最適化パラダイム: 失敗駆動最適化パラダイムを提案し、問題をスカラー最適化ではなく分布最適化として再定義
理論的フレームワーク: 失敗署名空間(Failure Signature Space)と期待失敗質量の概念を導入
CE-Graphフレームワーク: 失敗クラスタリング、提案検証メカニズムなどを含む完全な実装フレームワークを設計
実験検証: 複数のベンチマークで手法の有効性と効率を実証
理論的保証: 貪欲質量削減の理論的界限と収束性分析を提供

手法の詳細

タスク定義

データセットDが与えられたとき、目標は期待失敗質量を最小化するワークフローW*を構築することである：

W* = argmin_{W∈S} M(W)
ここで M(W) = ∫_F p(s|W) ds

ここでFは失敗署名空間、p(s|W)はワークフローWが誘導する失敗確率密度関数である。

モデルアーキテクチャ

1. 失敗署名空間の構築

失敗蒸留: ツールLLMを使用して原始実行軌跡τ_dを構造化タプル(v_err, z_err)に抽出
意味-構造ベクトル化:
- 構造マッピング: ψ_struct(v_err) → R^|V| (ワンホットエンコーディング)
- 意味マッピング: ψ_sem(z_err) → R^d (BERT型埋め込み)
- 最終署名: s = ψ_struct(v_err) ⊕ ψ_sem(z_err)

2. 貪欲質量削減アルゴリズム

ステップ1: 勾配方向近似

ガウス混合モデル(GMM)を使用して失敗署名点群S_tを適合
最も密集したパターンを識別: b*t = argmax π_k

ステップ2: 最適編集の探索

制約付き提案: 提案LLMがN個の候補編集{Δ_1,...,Δ_N}を生成
検証: モンテカルロサンプリングにより各候補の効用V(Δ_i)を計算

3. 提案検証メカニズム

V(Δ_i) ≈ (1/K) Σ_{k=1}^K I[Verify(Execute(W_t ⊕ Δ_i, x_k), y_k) = 1]

技術的革新点

分布的視点: ワークフロー最適化を失敗分布の再形成問題として初めて捉える
ホワイトボックス最適化: ブラックボックス手法と比較して、失敗の内部構造を活用可能
勾配型下降: 離散空間で勾配下降と同様の原理的最適化を実現
構造化編集: 演算子ライブラリを通じて探索空間を制約し、編集の有効性を確保

実験設定

データセット

数学推論: GSM8K、MATH、MultiArith
コード生成: HumanEval、MBPP
ツール使用: GAIA
データ分割: 訓練集80%、検証集10%、テスト集10%

評価指標

精度(Accuracy)
pass@1 (コードタスク)
最適化コスト(APIトークン)
収束速度

比較手法

3種類のベースライン:

単一エージェント: Vanilla、CoT、ComplexCoT、SC
手工マルチエージェント: MultiPersona、LLM-Debate、DyLANなど
自動エージェント: AutoAgents、AFlow、MaASなど

実装詳細

基本モデル: GPT-4o-mini
ハイパーパラメータ: N=5、K=10、T_max=20
演算子ライブラリ: RevisePrompt、InsertNode、DeleteNode
埋め込みモデル: text-embedding-ada-002

実験結果

主要結果

CE-Graphはすべてのベンチマークでベースライン手法を上回る：

平均性能: 86.23% vs 83.59% (MaAS)
MATH: 55.91% (+4.1% vs MaAS)
MBPP: 88.10% (+5.9% vs MaAS)
HumanEval: 94.26% (+1.4% vs MaAS)

コスト分析

MATHベンチマークで最高精度(53.5%)を達成しながら最低計算コストを維持
収束認識停止基準により50%以上の最適化コストを削減
トークン予算の変化に対して強い堅牢性を示す

アブレーション実験

主要コンポーネントの貢献分析：

クラスタリングなし: MATH精度が51.25%に低下 (-4.66%)
検証なし: 49.10%に低下 (-6.81%)
構造化演算子なし: 47.35%に低下 (-8.56%)
収束停止なし: コスト50%以上増加

安定性分析

固定失敗集合E_0上の縦断的評価は以下を示す：

CE-Graphは滑らかな単調増加軌跡を示す
ベースライン手法(特にAFlow)は顕著な変動を示し、戦略振動問題を反映

結論と考察

主要結論

パラダイム転換: スカラー最適化から分布最適化へのパラダイム転換は有効である
構造の重要性: 失敗の構造情報を活用することは無視するより効果的である
システム信頼性: 真の信頼性は失敗の単純な回避ではなく、体系的理解と失敗分布の再形成に由来する

制限事項

埋め込み依存性: 失敗署名空間の構築は意味埋め込みの品質に依存
貪欲仮説: 最も普遍的な失敗パターンが最も重要な修復対象に対応すると仮定
演算子ライブラリ設計: 表現性と制約性のバランスが必要
収束保証: グローバル最適性を保証できず、局所最適に陥る可能性

今後の方向性

適応的埋め込み: ワークフロー進化に伴う埋め込み手法
リスク敏感目標: 頻繁で稀な失敗のバランスを取る目的関数
メタ学習戦略: 演算子ライブラリの動的拡張または剪定
マルチモーダル拡張: マルチモーダルワークフローへの拡張

深層的評価

利点

理論的貢献: ワークフロー最適化の新しい理論的フレームワークを提供し、堅実な数学的基礎を有する
実用的効果: 複数のベンチマークで顕著な改善を達成し、手法の有効性を実証
効率向上: グローバル探索手法と比較して計算コストを大幅に削減
汎用性: 異なるタスク領域(数学、コード、QA)全体で有効
解釈可能性: 失敗パターンクラスタリングを通じて最適化プロセスの解釈可能性を提供

不足点

複雑性: フレームワークは比較的複雑で、複数のコンポーネントを含み、実装とデバッグが困難な可能性
依存性: LLM品質と埋め込みモデルのパフォーマンスに強く依存
スケーラビリティ: 大規模ワークフローグラフ上のスケーラビリティは今後の検証が必要
汎化性: モデル間およびデータセット間の汎化能力の実験が限定的

影響力

学術的価値: LLMワークフロー最適化に新しい研究方向を提供
実用的価値: 実際のエージェントシステム開発に応用可能
啓発性: 失敗駆動の思想は他のAIシステムの最適化手法に啓発を与える可能性

適用シーン

複雑なエージェントシステム: 高い信頼性が必要な多段階推論システム
リソース制約環境: 効率的な最適化が必要なシーン
解釈可能性要件: 最適化プロセスの理解が必要なアプリケーション
反復的開発: ワークフローの継続的改善が必要なシステム

参考文献

論文は以下を含む多くの関連研究を引用している：

ワークフロー最適化: Zhang et al. (2025a,b)、Khattab et al. (2024)
反例ガイド付き手法: Hidvégi et al. (2024)、Renze & Guven (2024)
LLMエージェントシステム: Chen et al. (2024)、Liu et al. (2024)
ベンチマーク: Cobbe et al. (2021)、Hendrycks et al. (2021)

総合評価: これは重要な理論的貢献と実用的価値を有する論文である。LLMワークフロー最適化の新しいパラダイムを提案している。手法は比較的複雑であるが、実験結果は説得力があり、この領域に価値のある新しい視点を提供している。論文の記述は明確で、理論分析は充分であり、この領域の重要な進展である。