2025-11-12T08:13:09.449491

Failure-Driven Workflow Refinement

Zhang, Cai, Zeng et al.
Optimizing LLM-based workflows is typically formulated as a global search, where candidate workflows are evaluated based on a scalar metric. This paradigm, however, suffers from a critical flaw: information collapse. By reducing rich, multi-step execution traces to simple success/failure signals, existing methods are rendered blind to the underlying structure of failures, fundamentally preventing them from modeling the workflow's failure distribution. We reconceptualize this challenge as a distributional problem. We propose a new paradigm where the optimization goal is not to maximize a scalar score, but to directly minimize a workflow's Expected Failure Mass, i.e., the integral of its failure probability density function defined over a high-dimensional Failure Signature Space (FSS). This distributional lens allows us to move from inefficient, zero-order optimization to a principled, gradient-like descent on the failure landscape itself. We introduce CE-Graph, a framework that operationalizes this paradigm through a novel, failure-driven refinement process. CE-Graph approximates the failure distribution from a pool of counterexamples, identifies its densest regions as recurring failure modes, and applies targeted, operator-constrained graph edits via a Propose-and-Verify mechanism to greedily reduce the failure mass. On math, code, and QA benchmarks, our CE-Graph achieves higher robustness at a significantly lower cost than strong baselines. This suggests that a system's reliability emerges not from avoiding failures, but from systematically learning and reshaping the geometric structure of its failure distributions.
academic

ব্যর্থতা-চালিত ওয়ার্কফ্লো পরিমার্জন

মৌলিক তথ্য

  • পেপার আইডি: 2510.10035
  • শিরোনাম: Failure-Driven Workflow Refinement
  • লেখক: Jusheng Zhang, Kaitong Cai, Qinglin Zeng, Ningyuan Liu, Yijia Fan, Ziliang Chen, Keze Wang (সান ইয়াৎ-সেন বিশ্ববিদ্যালয়, X-Era AI ল্যাব)
  • শ্রেণীবিভাগ: cs.AI
  • প্রকাশনা অবস্থা: জমা দেওয়ার অপেক্ষায় থাকা পেপার
  • পেপার লিঙ্ক: https://arxiv.org/abs/2510.10035

সারসংক্ষেপ

এই পেপারটি LLM ওয়ার্কফ্লো অপ্টিমাইজেশনে "তথ্য সংকোচন" সমস্যার সমাধানের জন্য একটি সম্পূর্ণ নতুন ব্যর্থতা-চালিত অপ্টিমাইজেশন প্যারাডাইম প্রস্তাব করে। ঐতিহ্যবাহী পদ্ধতিগুলি সমৃদ্ধ বহু-পদক্ষেপ সম্পাদন ট্র্যাজেক্টরিকে দ্বিমুখী সাফল্য/ব্যর্থতা সংকেতে সরলীকরণ করে, যা ওয়ার্কফ্লোর ব্যর্থতা বিতরণ মডেলিং করতে অক্ষম করে। লেখকরা এই সমস্যাটিকে বিতরণ অপ্টিমাইজেশন সমস্যা হিসাবে পুনর্সংজ্ঞায়িত করেন, স্কেলার স্কোর সর্বাধিক করার পরিবর্তে "প্রত্যাশিত ব্যর্থতা ভর" (Expected Failure Mass) ন্যূনতম করার প্রস্তাব দেন। এই ধারণার উপর ভিত্তি করে, CE-Graph ফ্রেমওয়ার্ক ডিজাইন করা হয়েছে, যা প্রতিবাদী পুল ব্যবহার করে ব্যর্থতা বিতরণ অনুমান করে, সবচেয়ে ঘন ব্যর্থতা প্যাটার্ন চিহ্নিত করে এবং লোভী গ্রাফ সম্পাদনা প্রয়োগ করে ব্যর্থতা ভর হ্রাস করে। গণিত, কোড এবং প্রশ্নোত্তর বেঞ্চমার্কে, CE-Graph উল্লেখযোগ্যভাবে কম খরচে উচ্চতর শক্তিশালীতা অর্জন করে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

  1. তথ্য সংকোচন সমস্যা: বিদ্যমান LLM ওয়ার্কফ্লো অপ্টিমাইজেশন পদ্ধতিগুলি জটিল বহু-পদক্ষেপ ব্যর্থতা ট্র্যাজেক্টরিকে সাধারণ দ্বিমুখী সংকেতে সংকুচিত করে, ব্যর্থতার কাঠামোগত তথ্য হারায়
  2. অন্ধ অনুসন্ধান: ঐতিহ্যবাহী বৈশ্বিক অনুসন্ধান পদ্ধতিগুলি ব্যর্থতার সম্ভাব্য বিতরণ বুঝতে পারে না, যা অপ্টিমাইজেশন দক্ষতা হ্রাস করে
  3. শূন্য-ক্রম অপ্টিমাইজেশনের সীমাবদ্ধতা: স্কেলার মেট্রিক্সের উপর ভিত্তি করে অপ্টিমাইজেশন পদ্ধতি মূলত শূন্য-ক্রমের, গ্রেডিয়েন্ট তথ্য দ্বারা পরিচালিত নয়

গবেষণার গুরুত্ব

  • LLM এজেন্ট ওয়ার্কফ্লো দীর্ঘমেয়াদী যুক্তি এবং জটিল সমস্যা সমাধানে ব্যাপকভাবে প্রয়োগ করা হয়
  • ওয়ার্কফ্লো অপ্টিমাইজেশন নির্ভরযোগ্য এজেন্ট সিস্টেম নির্মাণের জন্য গুরুত্বপূর্ণ
  • বিদ্যমান পদ্ধতির অদক্ষতা বৃহৎ-স্কেল স্থাপনায় বাধা দেয়

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  1. বৈশ্বিক অনুসন্ধান প্যারাডাইম: MCTS এর মতো পদ্ধতিগুলি সংযোগের জন্য বিশাল নমুনা প্রয়োজন
  2. ব্ল্যাক-বক্স মূল্যায়ন: শুধুমাত্র সাফল্যের হার এর মতো স্কেলার মেট্রিক্সের উপর নির্ভর করে, ব্যর্থতার কাঠামোগত তথ্য ব্যবহার করতে পারে না
  3. র্যান্ডমনেস: পুনরাবৃত্তি ব্যর্থতা প্যাটার্ন সিস্টেমেটিকভাবে চিহ্নিত এবং মেরামত করতে পারে না

মূল অবদান

  1. নতুন অপ্টিমাইজেশন প্যারাডাইম: ব্যর্থতা-চালিত অপ্টিমাইজেশন প্যারাডাইম প্রস্তাব করে, সমস্যাটিকে স্কেলার অপ্টিমাইজেশনের পরিবর্তে বিতরণ অপ্টিমাইজেশন হিসাবে পুনর্সংজ্ঞায়িত করে
  2. তাত্ত্বিক কাঠামো: ব্যর্থতা স্বাক্ষর স্থান (Failure Signature Space) এবং প্রত্যাশিত ব্যর্থতা ভর ধারণা প্রবর্তন করে
  3. CE-Graph ফ্রেমওয়ার্ক: সম্পূর্ণ বাস্তবায়ন ফ্রেমওয়ার্ক ডিজাইন করে, যার মধ্যে ব্যর্থতা ক্লাস্টারিং, প্রস্তাব যাচাইকরণ প্রক্রিয়া ইত্যাদি রয়েছে
  4. পরীক্ষামূলক যাচাইকরণ: একাধিক বেঞ্চমার্কে পদ্ধতির কার্যকারিতা এবং দক্ষতা প্রমাণ করে
  5. তাত্ত্বিক গ্যারান্টি: লোভী গুণমান হ্রাসের তাত্ত্বিক সীমানা এবং সংযোগ বিশ্লেষণ প্রদান করে

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

ডেটাসেট D দেওয়া, লক্ষ্য হল ওয়ার্কফ্লো W* তৈরি করা যা প্রত্যাশিত ব্যর্থতা ভর ন্যূনতম করে:

W* = argmin_{W∈S} M(W)
যেখানে M(W) = ∫_F p(s|W) ds

এখানে F হল ব্যর্থতা স্বাক্ষর স্থান, p(s|W) হল ওয়ার্কফ্লো W দ্বারা প্রেরিত ব্যর্থতা সম্ভাব্যতা ঘনত্ব ফাংশন।

মডেল আর্কিটেকচার

1. ব্যর্থতা স্বাক্ষর স্থান নির্মাণ

  • ব্যর্থতা পরিশোধন: টুল LLM ব্যবহার করে মূল সম্পাদন ট্র্যাজেক্টরি τ_d কে কাঠামোগত টুপল (v_err, z_err) এ নিষ্কাশন করে
  • সিমান্টিক-কাঠামোগত ভেক্টরাইজেশন:
    • কাঠামোগত ম্যাপিং: ψ_struct(v_err) → R^|V| (ওয়ান-হট এনকোডিং)
    • সিমান্টিক ম্যাপিং: ψ_sem(z_err) → R^d (BERT-এর মতো এম্বেডিং)
    • চূড়ান্ত স্বাক্ষর: s = ψ_struct(v_err) ⊕ ψ_sem(z_err)

2. লোভী গুণমান হ্রাস অ্যালগরিদম

ধাপ 1: গ্রেডিয়েন্ট দিক অনুমান

  • গাউসিয়ান মিশ্রণ মডেল (GMM) ব্যবহার করে ব্যর্থতা স্বাক্ষর পয়েন্ট ক্লাউড S_t ফিট করে
  • সবচেয়ে ঘন প্যাটার্ন চিহ্নিত করে: b*t = argmax π_k

ধাপ 2: সর্বোত্তম সম্পাদনা অনুসন্ধান

  • সীমাবদ্ধ প্রস্তাব: প্রস্তাব LLM N টি প্রার্থী সম্পাদনা তৈরি করে {Δ_1,...,Δ_N}
  • যাচাইকরণ: মন্টে কার্লো নমুনার মাধ্যমে প্রতিটি প্রার্থীর উপযোগিতা V(Δ_i) গণনা করে

3. প্রস্তাব যাচাইকরণ প্রক্রিয়া

V(Δ_i) ≈ (1/K) Σ_{k=1}^K I[Verify(Execute(W_t ⊕ Δ_i, x_k), y_k) = 1]

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

  1. বিতরণ দৃষ্টিভঙ্গি: প্রথমবারের মতো ওয়ার্কফ্লো অপ্টিমাইজেশনকে ব্যর্থতা বিতরণ পুনর্গঠন সমস্যা হিসাবে দেখে
  2. হোয়াইট-বক্স অপ্টিমাইজেশন: ব্ল্যাক-বক্স পদ্ধতির তুলনায়, ব্যর্থতার অভ্যন্তরীণ কাঠামো ব্যবহার করতে পারে
  3. গ্রেডিয়েন্ট-সদৃশ বংশধর: বিচ্ছিন্ন স্থানে গ্রেডিয়েন্ট বংশধরের মতো নীতিগত অপ্টিমাইজেশন বাস্তবায়ন করে
  4. কাঠামোগত সম্পাদনা: অপারেটর লাইব্রেরির মাধ্যমে অনুসন্ধান স্থান সীমাবদ্ধ করে, সম্পাদনার বৈধতা নিশ্চিত করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

  • গণিত যুক্তি: GSM8K, MATH, MultiArith
  • কোড প্রজন্ম: HumanEval, MBPP
  • টুল ব্যবহার: GAIA
  • ডেটা বিভাজন: প্রশিক্ষণ সেট 80%, যাচাইকরণ সেট 10%, পরীক্ষা সেট 10%

মূল্যায়ন মেট্রিক্স

  • নির্ভুলতা (Accuracy)
  • pass@1 (কোড কাজ)
  • অপ্টিমাইজেশন খরচ (API টোকেন)
  • সংযোগ গতি

তুলনা পদ্ধতি

তিন শ্রেণীর বেসলাইন সিস্টেম:

  1. একক এজেন্ট: Vanilla, CoT, ComplexCoT, SC
  2. হস্তনির্মিত বহু-এজেন্ট: MultiPersona, LLM-Debate, DyLAN ইত্যাদি
  3. স্বয়ংক্রিয় এজেন্ট: AutoAgents, AFlow, MaAS ইত্যাদি

বাস্তবায়ন বিবরণ

  • ভিত্তি মডেল: GPT-4o-mini
  • হাইপারপ্যারামিটার: N=5, K=10, T_max=20
  • অপারেটর লাইব্রেরি: RevisePrompt, InsertNode, DeleteNode
  • এম্বেডিং মডেল: text-embedding-ada-002

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

CE-Graph সমস্ত বেঞ্চমার্কে বেসলাইন পদ্ধতি অতিক্রম করে:

  • গড় কর্মক্ষমতা: 86.23% বনাম 83.59% (MaAS)
  • MATH: 55.91% (+4.1% বনাম MaAS)
  • MBPP: 88.10% (+5.9% বনাম MaAS)
  • HumanEval: 94.26% (+1.4% বনাম MaAS)

খরচ বিশ্লেষণ

  • MATH বেঞ্চমার্কে সর্বোচ্চ নির্ভুলতা (53.5%) অর্জন করার সময় সর্বনিম্ন গণনা খরচ বজায় রাখে
  • সংযোগ-সচেতন স্টপিং মানদণ্ড 50% এর বেশি অপ্টিমাইজেশন খরচ সাশ্রয় করে
  • টোকেন বাজেট পরিবর্তনের প্রতি শক্তিশালী শক্তিশালীতা রয়েছে

অ্যাবলেশন পরীক্ষা

মূল উপাদান অবদান বিশ্লেষণ:

  • ক্লাস্টারিং ছাড়া: MATH নির্ভুলতা 51.25% এ হ্রাস (-4.66%)
  • যাচাইকরণ ছাড়া: 49.10% এ হ্রাস (-6.81%)
  • কাঠামোগত অপারেটর ছাড়া: 47.35% এ হ্রাস (-8.56%)
  • সংযোগ স্টপিং ছাড়া: খরচ 50% এর বেশি বৃদ্ধি পায়

স্থিতিশীলতা বিশ্লেষণ

স্থির ব্যর্থতা সেট E_0 এ অনুদৈর্ঘ্য মূল্যায়ন দেখায়:

  • CE-Graph মসৃণ একঘেয়ে বর্ধনশীল ট্র্যাজেক্টরি প্রদর্শন করে
  • বেসলাইন পদ্ধতি (বিশেষত AFlow) উল্লেখযোগ্য ওঠানামা প্রদর্শন করে, কৌশল দোলনের সমস্যা প্রতিফলিত করে

সম্পর্কিত কাজ

স্বয়ংক্রিয় ওয়ার্কফ্লো অপ্টিমাইজেশন

  • MaAS, AFlow ইত্যাদি বৈশ্বিক অনুসন্ধান কৌশল ব্যবহার করে (MCTS, বিবর্তনীয় অ্যালগরিদম)
  • DSPy এর মতো ফ্রেমওয়ার্ক প্রম্পট অপ্টিমাইজ করে কিন্তু স্কেলার মেট্রিক্সের উপর নির্ভর করে
  • CE-Graph ব্যর্থতার সিমান্টিক এবং কাঠামোগত তথ্য সংরক্ষণের মাধ্যমে অগ্রগতি অর্জন করে

প্রতিবাদী-গাইডেড পরিমার্জন

  • প্রোগ্রাম সংশ্লেষণ এবং আনুষ্ঠানিক যাচাইকরণ থেকে উদ্ভূত (যেমন CEGAR)
  • ঐতিহ্যবাহী পদ্ধতি নির্ধারণমূলক সিস্টেমের জন্য, LLM এর র্যান্ডম সিমান্টিক ব্যর্থতা পরিচালনা করা কঠিন
  • CE-Graph এই নীতিটি খোলা-শেষ LLM ক্ষেত্রে অভিযোজিত করে

উদাহরণ-স্তরের স্ব-সংশোধন

  • Self-Consistency, Reflexion ইত্যাদি ভোটিং বা প্রম্পট প্রতিফলনের মাধ্যমে একক আউটপুট উন্নত করে
  • অতিফিটিং ঝুঁকি রয়েছে, সিস্টেমেটিক ত্রুটি ক্যাপচার করা কঠিন
  • CE-Graph বৈশ্বিক বিতরণ দৃষ্টিভঙ্গি গ্রহণ করে, কাঠামোগত মেরামতের জন্য প্রতিবাদী সমন্বয় করে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. প্যারাডাইম রূপান্তর: স্কেলার অপ্টিমাইজেশন থেকে বিতরণ অপ্টিমাইজেশনে প্যারাডাইম রূপান্তর কার্যকর
  2. কাঠামোগত গুরুত্ব: ব্যর্থতার কাঠামোগত তথ্য ব্যবহার করা তাদের উপেক্ষা করার চেয়ে বেশি কার্যকর
  3. সিস্টেম নির্ভরযোগ্যতা: প্রকৃত নির্ভরযোগ্যতা সিস্টেমেটিক বোঝাপড়া এবং ব্যর্থতা বিতরণ পুনর্গঠন থেকে আসে, সহজ ব্যর্থতা এড়ানো নয়

সীমাবদ্ধতা

  1. এম্বেডিং নির্ভরতা: ব্যর্থতা স্বাক্ষর স্থান নির্মাণ সিমান্টিক এম্বেডিং গুণমানের উপর নির্ভর করে
  2. লোভী অনুমান: সবচেয়ে সাধারণ ব্যর্থতা প্যাটার্ন সবচেয়ে গুরুত্বপূর্ণ মেরামত লক্ষ্যের সাথে সামঞ্জস্যপূর্ণ অনুমান করে
  3. অপারেটর লাইব্রেরি ডিজাইন: অভিব্যক্তিশীলতা এবং সীমাবদ্ধতার মধ্যে ভারসাম্য প্রয়োজন
  4. সংযোগ গ্যারান্টি: বৈশ্বিক সর্বোত্তমতা গ্যারান্টি দিতে পারে না, স্থানীয় সর্বোত্তমে আটকে থাকতে পারে

ভবিষ্যত দিকনির্দেশনা

  1. অভিযোজিত এম্বেডিং: ওয়ার্কফ্লো বিবর্তনের সাথে এম্বেডিং পদ্ধতি
  2. ঝুঁকি-সংবেদনশীল উদ্দেশ্য: ঘন ঘন এবং বিরল ব্যর্থতার ভারসাম্য রাখার উদ্দেশ্য ফাংশন
  3. মেটা-লার্নিং কৌশল: অপারেটর লাইব্রেরি গতিশীলভাবে প্রসারিত বা ছাঁটাই করা
  4. মাল্টিমোডাল সম্প্রসারণ: মাল্টিমোডাল ওয়ার্কফ্লোতে সম্প্রসারণ

গভীর মূল্যায়ন

শক্তি

  1. তাত্ত্বিক অবদান: ওয়ার্কফ্লো অপ্টিমাইজেশনের জন্য নতুন তাত্ত্বিক কাঠামো প্রদান করে, দৃঢ় গাণিতিক ভিত্তি সহ
  2. ব্যবহারিক প্রভাব: একাধিক বেঞ্চমার্কে উল্লেখযোগ্য উন্নতি অর্জন করে, পদ্ধতির কার্যকারিতা প্রমাণ করে
  3. দক্ষতা বৃদ্ধি: বৈশ্বিক অনুসন্ধান পদ্ধতির তুলনায় গণনা খরচ উল্লেখযোগ্যভাবে হ্রাস করে
  4. সর্বজনীনতা: বিভিন্ন কাজের ডোমেন (গণিত, কোড, QA) জুড়ে কার্যকর
  5. ব্যাখ্যাযোগ্যতা: ব্যর্থতা প্যাটার্ন ক্লাস্টারিংয়ের মাধ্যমে অপ্টিমাইজেশন প্রক্রিয়ার ব্যাখ্যাযোগ্যতা প্রদান করে

অপূর্ণতা

  1. জটিলতা: ফ্রেমওয়ার্ক অপেক্ষাকৃত জটিল, একাধিক উপাদান অন্তর্ভুক্ত করে, বাস্তবায়ন এবং ডিবাগিং কঠিন হতে পারে
  2. নির্ভরতা: LLM গুণমান এবং এম্বেডিং মডেল কর্মক্ষমতার উপর শক্তিশালী নির্ভরতা রয়েছে
  3. স্কেলেবিলিটি: বড় আকারের ওয়ার্কফ্লো গ্রাফে স্কেলেবিলিটি আরও যাচাইকরণের প্রয়োজন
  4. সাধারণীকরণ: মডেল এবং ডেটাসেট জুড়ে সাধারণীকরণ ক্ষমতা পরীক্ষা সীমিত

প্রভাব

  1. একাডেমিক মূল্য: LLM ওয়ার্কফ্লো অপ্টিমাইজেশনের জন্য নতুন গবেষণা দিকনির্দেশনা প্রদান করে
  2. ব্যবহারিক মূল্য: প্রকৃত এজেন্ট সিস্টেম উন্নয়নে প্রয়োগ করা যায়
  3. অনুপ্রেরণা: ব্যর্থতা-চালিত চিন্তাভাবনা অন্যান্য AI সিস্টেমের অপ্টিমাইজেশন পদ্ধতিকে অনুপ্রাণিত করতে পারে

প্রযোজ্য পরিস্থিতি

  1. জটিল এজেন্ট সিস্টেম: উচ্চ নির্ভরযোগ্যতার প্রয়োজনীয় বহু-পদক্ষেপ যুক্তি সিস্টেম
  2. সম্পদ-সীমিত পরিবেশ: দক্ষ অপ্টিমাইজেশনের প্রয়োজনীয় পরিস্থিতি
  3. ব্যাখ্যাযোগ্যতার প্রয়োজনীয়তা: অপ্টিমাইজেশন প্রক্রিয়া বোঝার প্রয়োজনীয় অ্যাপ্লিকেশন
  4. পুনরাবৃত্তিমূলক উন্নয়ন: ক্রমাগত উন্নতির প্রয়োজনীয় ওয়ার্কফ্লো সিস্টেম

তথ্যসূত্র

পেপারটি বিস্তৃত সম্পর্কিত কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

  • ওয়ার্কফ্লো অপ্টিমাইজেশন: Zhang et al. (2025a,b), Khattab et al. (2024)
  • প্রতিবাদী-গাইডেড পদ্ধতি: Hidvégi et al. (2024), Renze & Guven (2024)
  • LLM এজেন্ট সিস্টেম: Chen et al. (2024), Liu et al. (2024)
  • বেঞ্চমার্ক: Cobbe et al. (2021), Hendrycks et al. (2021)

সামগ্রিক মূল্যায়ন: এটি একটি গুরুত্বপূর্ণ তাত্ত্বিক অবদান এবং ব্যবহারিক মূল্য সহ একটি পেপার, যা LLM ওয়ার্কফ্লো অপ্টিমাইজেশনের জন্য নতুন প্যারাডাইম প্রস্তাব করে। যদিও পদ্ধতিটি অপেক্ষাকৃত জটিল, পরীক্ষামূলক ফলাফল প্রভাবশালী এবং এই ক্ষেত্রের জন্য মূল্যবান নতুন চিন্তাভাবনা প্রদান করে। পেপারটির লেখা স্পষ্ট, তাত্ত্বিক বিশ্লেষণ পর্যাপ্ত এবং এটি এই ক্ষেত্রে একটি গুরুত্বপূর্ণ অগ্রগতি।