2025-11-19T01:19:13.619140

An approach for systematic decomposition of complex llm tasks

Zhou, Xu, Liu et al.

Large Language Models (LLMs) suffer from reliability issues on complex tasks, as existing decomposition methods are heuristic and rely on agent or manual decomposition. This work introduces a novel, systematic decomposition framework that we call Analysis of CONstraint-Induced Complexity (ACONIC), which models the task as a constraint problem and leveraging formal complexity measures to guide decomposition. On combinatorial (SATBench) and LLM database querying tasks (Spider), we find that by decomposing the tasks following the measure of complexity, agent can perform considerably better (10-40 percentage point).

academic

জটিল LLM কাজের পদ্ধতিগত বিয়োজনের জন্য একটি পদ্ধতি

মৌলিক তথ্য

পেপার ID: 2510.07772
শিরোনাম: An Approach for Systematic Decomposition of Complex LLM Tasks
লেখক: Tianle Zhou, Jiakai Xu, Guanhong Liu, Jiaxiang Liu, Haonan Wang, Eugene Wu (কলাম্বিয়া বিশ্ববিদ্যালয়)
শ্রেণীবিভাগ: cs.AI
প্রকাশনার সময়: ২০২৫ সালের ১৩ অক্টোবর (arXiv v2)
পেপার লিংক: https://arxiv.org/abs/2510.07772v2

সারসংক্ষেপ

বৃহৎ ভাষা মডেল (LLM) জটিল কাজে নির্ভরযোগ্যতার সমস্যার সম্মুখীন হয়, এবং বিদ্যমান বিয়োজন পদ্ধতিগুলি অনুমানমূলক, এজেন্ট বা ম্যানুয়াল বিয়োজনের উপর নির্ভরশীল। এই কাজটি একটি নতুন পদ্ধতিগত বিয়োজন কাঠামো প্রবর্তন করে, যাকে সীমাবদ্ধতা-প্ররোচিত জটিলতা বিশ্লেষণ (ACONIC) বলা হয়, যা কাজগুলিকে সীমাবদ্ধতা সমস্যা হিসাবে মডেল করে এবং আনুষ্ঠানিক জটিলতা পরিমাপ ব্যবহার করে বিয়োজনকে নির্দেশনা দেয়। সমন্বয় সমস্যা (SAT-Bench) এবং LLM ডাটাবেস অনুসন্ধান কাজ (Spider) এ, জটিলতা পরিমাপ দ্বারা কাজ বিয়োজন করে, এজেন্টের কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত হয় (১০-৪০ শতাংশ পয়েন্ট)।

গবেষণা পটভূমি এবং প্রেরণা

১. সমাধান করার সমস্যা

বৃহৎ ভাষা মডেলগুলি গভীর বহু-পদক্ষেপ যুক্তি বা সমন্বয় অনুসন্ধানের প্রয়োজন এমন জটিল কাজ পরিচালনা করার সময়, প্রায়শই একক ফরওয়ার্ড পাস থেকে সঠিক ফলাফল তৈরি করতে পারে না, নির্ভরযোগ্যতার সমস্যা রয়েছে।

২. সমস্যার গুরুত্ব

বিভিন্ন যুক্তি, প্রোগ্রামিং এবং সমস্যা সমাধানের কাজে LLM এর ব্যাপক প্রয়োগের সাথে, জটিল কাজগুলি পদ্ধতিগতভাবে বিয়োজন করে মডেল কর্মক্ষমতা উন্নত করা কীভাবে করতে হয় তা একটি মূল চ্যালেঞ্জ হয়ে উঠেছে। বিদ্যমান পদ্ধতিগুলি নীতিগত জটিলতা পরিমাপ এবং বিয়োজন কৌশলের অভাব রয়েছে।

৩. বিদ্যমান পদ্ধতির সীমাবদ্ধতা

অনুমানমূলক বিয়োজন: Chain-of-Thought এর মতো বিদ্যমান পদ্ধতিগুলি প্রধানত LLM নিজস্ব বিয়োজনের উপর নির্ভর করে, তাত্ত্বিক ভিত্তির অভাব রয়েছে
ম্যানুয়াল বিয়োজন: ডোমেইন বিশেষজ্ঞদের দ্বারা ম্যানুয়ালি ডিজাইন করা ওয়ার্কফ্লোর উপর নির্ভর করে, পদ্ধতিগত পদ্ধতির অভাব রয়েছে
জটিলতা পরিমাপের অভাব: কাজের জটিলতা পরিমাপ করতে পারে না, কখন বিয়োজনের প্রয়োজন এবং কীভাবে বিয়োজন করতে হয় তা নির্ধারণ করা কঠিন

৪. গবেষণা প্রেরণা

একটি আনুষ্ঠানিক কাজের জটিলতা কাঠামো স্থাপন করা, যা পদ্ধতিগত বিয়োজন কৌশল প্রদান করতে পারে, তুলনামূলক কঠিনতার কাজ গবেষণার ক্ষমতা প্রদান করে, এবং কখন সরঞ্জাম সহায়তার প্রয়োজন তা নির্দেশনা দেয়।

মূল অবদান

১. ACONIC কাঠামো প্রস্তাব: LLM কাজগুলিকে পদ্ধতিগতভাবে সীমাবদ্ধতা সন্তুষ্টি সমস্যায় হ্রাস করার প্রথম আনুষ্ঠানিক জটিলতা কাঠামো २. জটিলতা পরিমাপ স্থাপন: সীমাবদ্ধতা গ্রাফের গ্রাফ আকার এবং গাছের প্রস্থ ব্যবহার করে কাজের জটিলতার পরিমাপ হিসাবে ३. পদ্ধতিগত বিয়োজন পদ্ধতি: গাছ বিয়োজনের উপর ভিত্তি করে বিয়োজন কৌশল, উপ-কাজের জটিলতা কমিয়ে আনার সময় বৈশ্বিক সন্তুষ্টিযোগ্যতা বজায় রাখা ४. অভিজ্ঞতামূলক যাচাইকরণ: SAT-Bench এবং Spider বেঞ্চমার্কে জটিলতা পরিমাপ দ্বারা সংজ্ঞায়িত কঠিনতার সীমানা এবং বিয়োজন প্রভাব যাচাই করা ५. কর্মক্ষমতা উন্নতি: Chain-of-Thought পদ্ধতির তুলনায়, SAT-Bench এ ৯-১৫% উন্নতি, Spider এ ৩০-৪০% উন্নতি

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ACONIC LLM কাজকে সংজ্ঞায়িত করে: সীমাবদ্ধতা সেটের বর্ণনা দেওয়া প্রসঙ্গ এবং সীমাবদ্ধতার উপর যুক্তি করতে হবে এমন অনুসন্ধান দেওয়া, এটিকে আনুষ্ঠানিক সীমাবদ্ধতা সন্তুষ্টি সমস্যায় হ্রাস করা, তারপর বিয়োজন করা এবং উপ-কাজ ওয়ার্কফ্লো তৈরি করা।

মডেল আর্কিটেকচার

১. পরিকল্পনা সমস্যায় হ্রাস

অবস্থা-ভিত্তিক এজেন্ট অপারেশন কাঠামো ব্যবহার করে, কাজটিকে পরিকল্পনা-হিসাবে-সন্তুষ্টি (PaS) সমস্যা হিসাবে আনুষ্ঠানিক করা:

P = ⟨F, A, I, G⟩

যেখানে:

F: বিশ্বের তথ্য বর্ণনা করে এমন প্রস্তাবনামূলক প্রবাহ উপাদানের সীমিত সেট
A: ক্রিয়া সীমিত সেট
I, G: প্রাথমিক এবং লক্ষ্য প্রবাহ উপাদান
ক্রিয়া a এর জন্য: P(a) পূর্বশর্ত নির্ধারণ করে, A(a) সত্য হওয়া প্রবাহ উপাদান নির্ধারণ করে, D(a) মিথ্যা হওয়া প্রবাহ উপাদান নির্ধারণ করে

२. সীমাবদ্ধতা সন্তুষ্টি সমস্যায় হ্রাস

PaS সমস্যাকে CSP উদাহরণে হ্রাস করা, এনকোডিং এর মাধ্যমে:

পূর্বশর্ত fp ∈ P(a)
যোগ করা প্রভাব fa ∈ A(a)
মুছে ফেলা প্রভাব fd ∈ D(a) প্রবাহ উপাদান এবং ক্রিয়া মধ্যে বুলিয়ান নির্ভরতা সীমাবদ্ধতা হিসাবে।

३. গাছ বিয়োজন কৌশল

Bodlaender (1998) এর গাছ বিয়োজন তত্ত্ব ব্যবহার করা:

সর্বনিম্ন সর্বোচ্চ ব্যাগ আকারের গাছ বিয়োজন D* খুঁজে বের করা (গাছের প্রস্থ)
গাছের প্রস্থ অভ্যন্তরীণ সমস্যার জটিলতা চিহ্নিত করে
স্থানীয় সামঞ্জস্য বৈশ্বিক সামঞ্জস্য নিশ্চিত করে

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. আনুষ্ঠানিক জটিলতা পরিমাপ: প্রথমবার গ্রাফ তত্ত্বে গাছের প্রস্থ LLM কাজের জটিলতার পরিমাণগত সূচক হিসাবে ব্যবহার করা २. বৈশ্বিক সামঞ্জস্য নিশ্চিত করা: গাছ বিয়োজন নিশ্চিত করে যে স্থানীয় উপগ্রাফে সামঞ্জস্য মানে বৈশ্বিক CSP সমাধানের সামঞ্জস্য ३. সর্বোত্তম বিয়োজন কৌশল: সর্বনিম্ন গাছের প্রস্থের উপর ভিত্তি করে বিয়োজন স্থানীয় জটিলতা কমায় ४. স্বয়ংক্রিয় হ্রাস প্রক্রিয়া: নির্দিষ্ট বেঞ্চমার্কের জন্য স্বয়ংক্রিয় হ্রাস প্রক্রিয়া বিকাশ করা, হাতে-কলমে মডেলিং হ্রাস করা

পরীক্ষা সেটআপ

ডেটাসেট

১. SAT-Bench

SAT সমস্যার উপর ভিত্তি করে তৈরি প্রাকৃতিক ভাষা গল্প সমস্যা
CNF প্রতিনিধিত্ব, প্রাকৃতিক ভাষা বর্ণনা এবং সত্তা থেকে SAT এর সারিবদ্ধতা ম্যাপিং অন্তর্ভুক্ত করে
Claude3.5-Sonnet (এলোমেলোভাবে অর্ধেক কাজ নমুনা) এবং Llama-3-70B (সমস্ত কাজ) মূল্যায়ন করা

२. Spider

জনপ্রিয় NL2SQL বেঞ্চমার্ক ডেটাসেট
শত শত ডাটাবেস অন্তর্ভুক্ত করে, প্রতিটি সর্বাধিক ৩৭টি টেবিল, ৯০টি বিদেশী কী, ১০০+ কলাম
কাজ ডাটাবেস স্কিমা S, প্রাকৃতিক ভাষা অনুসন্ধান q এবং সত্য SQL অনুসন্ধান q* অন্তর্ভুক্ত করে

মূল্যায়ন মেট্রিক্স

SAT-Bench: কাজ সমাপ্তির হার (সাফল্য/ব্যর্থতা)
Spider: SQL অনুসন্ধান নির্ভুলতা, কঠিনতা স্তর অনুযায়ী (সহজ/মাঝারি/কঠিন/অতিরিক্ত) আলাদাভাবে মূল্যায়ন করা

তুলনা পদ্ধতি

Chain-of-Thought (CoT): মান চিন্তাভাবনা শৃঙ্খল প্রম্পটিং পদ্ধতি ভিত্তি হিসাবে
সম্পূর্ণ পর্যবেক্ষণ বনাম বিয়োজন পর্যবেক্ষণ: বৈশ্বিক তথ্য অ্যাক্সেস বনাম স্থানীয় বিয়োজন তথ্য অ্যাক্সেস তুলনা করা

বাস্তবায়ন বিবরণ

গাছ বিয়োজন গণনা করতে SageMath ব্যবহার করা, সর্বনিম্ন পূরণ হিউরিস্টিক এবং সঠিক সমাধক গ্রহণ করা
SAT-Bench ক্রমান্বয়ে পরিবর্তনশীল নিয়োগ কৌশল গ্রহণ করা
Spider WITH ধারার ক্রমান্বয় নির্মাণ কৌশল গ্রহণ করা

পরীক্ষা ফলাফল

প্রধান ফলাফল

१. SAT-Bench ফলাফল

Claude3.5-Sonnet: ৪৯.৩% থেকে ৫৮.১% এ উন্নীত (+৮.৮%)
Llama-3-70B: ২১.৫% থেকে ৩৬.৫% এ উন্নীত (+১৫.০%)
জটিলতা পরিমাপ স্পষ্টভাবে কঠিনতার সীমানা সংজ্ঞায়িত করে, ACONIC সীমানা আরও জটিল সমস্যার দিকে ঠেলে দেয়

२. Spider ফলাফল

CoT ভিত্তির তুলনায়, ACONIC সমস্ত কঠিনতা স্তরে উল্লেখযোগ্য উন্নতি দেখায়:

সহজ: ৪२.७% থেকে ७५.८% এ উন্নীত (+३३.१%)
মাঝারি: ३८.१% থেকে ५८.१% এ উন্নীত (+२०.०%)
কঠিন: ३६.२% থেকে ६२.७% এ উন্নীত (+२६.५%)
অতিরিক্ত: १९.३% থেকে ३७.९% এ উন্নীত (+१८.६%)

পরীক্ষা আবিষ্কার

१. জটিলতা সীমানা: পরীক্ষা সমস্যার গাছের প্রস্থ এবং ব্যাগ সংখ্যার উপর ভিত্তি করে নির্ধারিত "মোট কাজের জটিলতা" সীমানা প্রকাশ করে २. সামঞ্জস্য উন্নতি: ACONIC বিয়োজন দুটি ভিন্ন মডেল (Claude এবং LLaMA) এ সামঞ্জস্যপূর্ণ কর্মক্ষমতা উন্নতি দেখায় ३. কঠিনতা গ্রেডিয়েন্ট: শক্তিশালী মডেল (যেমন Claude) সীমানা আরও জটিল সমস্যার দিকে স্থানান্তরিত করে ४. বিয়োজন প্রভাব: ট্র্যাজেক্টরি সংখ্যা বৃদ্ধি নির্ভুলতা সামান্য উন্নত করে, কিন্তু জটিলতা-নির্দেশিত বিয়োজন আরও উল্লেখযোগ্য উন্নতি নিয়ে আসে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. আনুষ্ঠানিক কাঠামোর কার্যকারিতা: ACONIC সীমাবদ্ধতা সন্তুষ্টির উপর ভিত্তি করে LLM কাজের জটিলতা পরিমাপের প্রথম কাঠামো প্রদান করে २. পদ্ধতিগত বিয়োজনের সুবিধা: জটিলতা-ভিত্তিক বিয়োজন অনুমানমূলক পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে ভাল ३. সর্বজনীনতা: কাঠামো বিভিন্ন ধরনের কাজে কার্যকর (সমন্বয় সমস্যা এবং ডাটাবেস অনুসন্ধান) ४. তত্ত্ব অনুশীলন নির্দেশনা: গাছের প্রস্থের মতো গ্রাফ তত্ত্ব ধারণা LLM কাজ বিয়োজনের জন্য তাত্ত্বিক ভিত্তি প্রদান করে

সীমাবদ্ধতা

१. প্রয়োগযোগ্যতার পরিসীমা সীমাবদ্ধতা: শুধুমাত্র সীমাবদ্ধতা সন্তুষ্টি সমস্যা হিসাবে সুবিধাজনকভাবে মডেল করা যায় এমন কাজের জন্য প্রযোজ্য २. সম্পূর্ণ প্রতিনিধিত্ব চ্যালেঞ্জ: বাস্তব সমস্যা প্রায়শই সমস্যা অস্পষ্টতা, এজেন্ট ক্রিয়া অস্বচ্ছতা বা অস্পষ্ট প্রসঙ্গ তথ্যের কারণে সম্পূর্ণভাবে যুক্তিসঙ্গতভাবে প্রতিনিধিত্ব করা যায় না ३. সম্পূর্ণ স্বায়ত্তশাসিত নয়: ACONIC সম্পূর্ণ স্বায়ত্তশাসিত বিয়োজন বা যুক্তি ব্যবস্থা গঠন করে না ४. বেঞ্চমার্ক বিশেষত্ব: মূল্যায়ন কাজ সরাসরি সীমাবদ্ধতা সমাধক বা সহজ অ্যালগরিদম দ্বারা সমাধান করা যায়

ভবিষ্যত দিকনির্দেশনা

१. হাইব্রিড বিয়োজন পদ্ধতি: যুক্তিসঙ্গত সীমাবদ্ধতা এবং সাধারণ জ্ঞান সীমাবদ্ধতা সমন্বয় করে এমন হাইব্রিড বিয়োজন পদ্ধতি গবেষণা করা २. আরও বিস্তৃত কাজের ধরন: আরও বাস্তব সমস্যায় সম্প্রসারণ, যেমন ডেডলক সনাক্তকরণ, সম্পদ সময়সূচী ইত্যাদি ३. সম্পূর্ণ স্বায়ত্তশাসিত ব্যবস্থা: সম্পূর্ণ স্বায়ত্তশাসিত বিয়োজন এবং যুক্তি ব্যবস্থার দিকে বিকাশ ४. শেখা-ভিত্তিক বিয়োজন: অন্যান্য তাত্ত্বিক ভিত্তি বা শেখা-ভিত্তিক বিয়োজন কাঠামোর সাথে তুলনা গবেষণা

গভীর মূল্যায়ন

শক্তি

१. তাত্ত্বিক উদ্ভাবন: প্রথমবার গ্রাফ তত্ত্বে গাছ বিয়োজন তত্ত্ব পদ্ধতিগতভাবে LLM কাজ বিয়োজনে প্রয়োগ করা २. আনুষ্ঠানিক কঠোরতা: PaS থেকে CSP এবং গাছ বিয়োজন পর্যন্ত সম্পূর্ণ হ্রাস শৃঙ্খলের সাথে কঠোর গাণিতিক কাঠামো প্রদান করা ३. অভিজ্ঞতামূলক সম্পূর্ণতা: দুটি ভিন্ন ধরনের বেঞ্চমার্কে যাচাই করা, ফলাফল সামঞ্জস্যপূর্ণ এবং উল্লেখযোগ্য ४. ব্যাখ্যাযোগ্যতা শক্তিশালী: জটিলতা পরিমাপ কাজের কঠিনতার স্বজ্ঞাত বোঝাপড়া প্রদান করে ५. সর্বজনীন কাঠামো: নির্দিষ্ট কাজের ধরনে সীমাবদ্ধ নয়, ভাল সর্বজনীনতা রয়েছে

অপূর্ণতা

१. মডেলিং জটিলতা: বাস্তব কাজগুলি CSP এ হ্রাস করার জন্য বিশেষজ্ঞ জ্ঞান এবং হাতে-কলমে প্রকৌশল প্রয়োজন २. গণনা ওভারহেড: গাছ বিয়োজন গণনা নিজেই উচ্চ জটিলতা থাকতে পারে ३. সীমিত ভিত্তি তুলনা: প্রধানত CoT এর সাথে তুলনা করা, অন্যান্য পদ্ধতিগত বিয়োজন পদ্ধতির সাথে তুলনার অভাব রয়েছে ४. কাজের ধরন সীমাবদ্ধতা: শুধুমাত্র দুটি ধরনের কাজে যাচাই করা, সাধারণীকরণ ক্ষমতা আরও বিস্তৃত যাচাইয়ের জন্য অপেক্ষা করছে

প্রভাব

१. তাত্ত্বিক অবদান: LLM কাজ বিয়োজনের জন্য নতুন তাত্ত্বিক দৃষ্টিভঙ্গি প্রদান করে २. পদ্ধতিগত মূল্য: ACONIC কাঠামো আনুষ্ঠানিক পদ্ধতির উপর ভিত্তি করে আরও বেশি LLM গবেষণা অনুপ্রাণিত করতে পারে
३. ব্যবহারিক মূল্য: নির্দিষ্ট ধরনের কাজে উল্লেখযোগ্য কর্মক্ষমতা উন্নতি ব্যবহারিক প্রয়োগ মূল্য রয়েছে ४. গবেষণা দিকনির্দেশনা: LLM এবং ঐতিহ্যবাহী AI প্রতীকী পদ্ধতির সমন্বয়ের নতুন গবেষণা দিক খুলে দিতে পারে

প্রযোজ্য দৃশ্যকল্প

१. সমন্বয় অপ্টিমাইজেশন সমস্যা: সময়সূচী, সম্পদ বরাদ্দ ইত্যাদি CSP হিসাবে মডেল করা যায় এমন সমস্যা २. কাঠামোগত অনুসন্ধান কাজ: ডাটাবেস অনুসন্ধান, জ্ঞান গ্রাফ যুক্তি ইত্যাদি ३. মাল্টি-সীমাবদ্ধতা পরিকল্পনা: একাধিক সীমাবদ্ধতা শর্ত পূরণ করার প্রয়োজন এমন পরিকল্পনা কাজ ४. যুক্তিসঙ্গত যুক্তি কাজ: যুক্তিসঙ্গত সীমাবদ্ধতায় আনুষ্ঠানিক করা যায় এমন যুক্তি সমস্যা

সংদর্ভ

१. Bodlaender, H. L. (1998). A partial k-arboretum of graphs with bounded treewidth. Theoretical computer science, 209(1-2):1–45. २. Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. arXiv preprint arXiv:2201.11903. ३. Yu, T., et al. (2019). Spider: A large-scale human-labeled dataset for complex and cross-domain semantic parsing and text-to-sql task. ४. Gottlob, G., Leone, N., & Scarcello, F. (2001). Hypertree decompositions: A survey. International Symposium on Mathematical Foundations of Computer Science.

সারসংক্ষেপ: এই পেপারে প্রস্তাবিত ACONIC কাঠামো LLM কাজ বিয়োজন ক্ষেত্রে একটি গুরুত্বপূর্ণ তাত্ত্বিক অগ্রগতি প্রতিনিধিত্ব করে, আনুষ্ঠানিক জটিলতা পরিমাপ এবং পদ্ধতিগত বিয়োজন কৌশল প্রবর্তনের মাধ্যমে, জটিল LLM কাজ সমাধানের জন্য নতুন চিন্তাভাবনা প্রদান করে। প্রয়োগযোগ্যতার পরিসীমা এবং মডেলিং জটিলতার সীমাবদ্ধতা থাকলেও, নির্দিষ্ট কাজে উল্লেখযোগ্য কর্মক্ষমতা উন্নতি এবং তাত্ত্বিক অবদান এটিকে এই ক্ষেত্রের একটি গুরুত্বপূর্ণ কাজ করে তোলে।