2025-11-19T01:19:13.619140

An approach for systematic decomposition of complex llm tasks

Zhou, Xu, Liu et al.

Large Language Models (LLMs) suffer from reliability issues on complex tasks, as existing decomposition methods are heuristic and rely on agent or manual decomposition. This work introduces a novel, systematic decomposition framework that we call Analysis of CONstraint-Induced Complexity (ACONIC), which models the task as a constraint problem and leveraging formal complexity measures to guide decomposition. On combinatorial (SATBench) and LLM database querying tasks (Spider), we find that by decomposing the tasks following the measure of complexity, agent can perform considerably better (10-40 percentage point).

academic

نهج منهجي لتحليل المهام المعقدة للنماذج اللغوية الكبيرة

المعلومات الأساسية

معرّف الورقة: 2510.07772
العنوان: An Approach for Systematic Decomposition of Complex LLM Tasks
المؤلفون: Tianle Zhou, Jiakai Xu, Guanhong Liu, Jiaxiang Liu, Haonan Wang, Eugene Wu (جامعة كولومبيا)
التصنيف: cs.AI
تاريخ النشر: 13 أكتوبر 2025 (arXiv v2)
رابط الورقة: https://arxiv.org/abs/2510.07772v2

الملخص

تعاني النماذج اللغوية الكبيرة (LLMs) من مشاكل الموثوقية في المهام المعقدة، والطرق الحالية للتحليل هي استكشافية وتعتمد على الوكلاء أو التحليل اليدوي. يقدم هذا العمل إطار عمل تحليل جديد ومنهجي يسمى تحليل التعقيد المستحث بالقيود (ACONIC)، الذي يصيغ المهام كمشاكل قيود ويستخدم مقاييس التعقيد الرسمية لتوجيه التحليل. على مشاكل التوليفات (SAT-Bench) ومهام استعلام قواعد بيانات LLM (Spider)، يؤدي تحليل المهام حسب مقاييس التعقيد إلى تحسن كبير في أداء الوكيل (10-40 نقطة مئوية).

خلفية البحث والدافع

1. المشكلة المراد حلها

تفشل النماذج اللغوية الكبيرة في إنتاج نتائج صحيحة في تمريرة أمامية واحدة عند التعامل مع المهام المعقدة التي تتطلب استدلالاً متعدد الخطوات عميقاً أو بحثاً توليفياً، مما يؤدي إلى مشاكل الموثوقية.

2. أهمية المشكلة

مع الاستخدام الواسع للنماذج اللغوية الكبيرة في مختلف مهام الاستدلال والبرمجة وحل المشاكل، أصبح كيفية تحليل المهام المعقدة بشكل منهجي لتحسين أداء النموذج تحدياً رئيسياً. تفتقر الطرق الحالية إلى مقاييس التعقيد المبدئية واستراتيجيات التحليل.

3. قيود الطرق الموجودة

التحليل الاستكشافي: تعتمد الطرق الموجودة مثل Chain-of-Thought بشكل أساسي على تحليل النموذج اللغوي نفسه، وتفتقر إلى أساس نظري
التحليل اليدوي: يعتمد على خبراء المجال لتصميم سير العمل يدويًا، وينقصه الطابع المنهجي
غياب مقاييس التعقيد: يصعب تحديد كمية تعقيد المهمة، مما يجعل من الصعب تحديد متى يكون التحليل ضروريًا وكيفية إجراؤه

4. دافع البحث

إنشاء إطار عمل رسمي لتعقيد المهام، وتوفير استراتيجيات تحليل منهجية، وتوفير القدرة على دراسة المهام ذات الصعوبة القابلة للمقارنة، وتوجيه متى يكون المساعدة بالأدوات ضرورية.

المساهمات الأساسية

اقتراح إطار عمل ACONIC: أول إطار عمل تعقيد رسمي يختزل مهام النماذج اللغوية الكبيرة بشكل منهجي إلى مشاكل إرضاء القيود
إنشاء مقاييس التعقيد: استخدام حجم الرسم البياني للقيود وعرض الشجرة كمقاييس لتعقيد المهام
طريقة تحليل منهجية: استراتيجية تحليل قائمة على تحليل الشجرة، مع تقليل تعقيد المهام الفرعية مع الحفاظ على الرضا العام
التحقق التجريبي: التحقق من حدود الصعوبة المحددة بمقاييس التعقيد وتأثير التحليل على معايير SAT-Bench و Spider
تحسن الأداء: تحسن بنسبة 9-15% على SAT-Bench و 30-40% على Spider مقارنة بطريقة Chain-of-Thought

شرح الطريقة

تعريف المهمة

يعرّف ACONIC مهام النماذج اللغوية الكبيرة على أنها: بالنظر إلى السياق الذي يصف مجموعة القيود والاستعلام الذي يجب الاستدلال عليه بناءً على القيود، يتم اختزاله إلى مشكلة إرضاء قيود رسمية، ثم تحليله وبناء سير عمل المهام الفرعية.

معمارية النموذج

1. الاختزال إلى مشاكل التخطيط

استخدام إطار عمل العمليات القائمة على الحالة للوكيل، وتصيغة المهمة كمشكلة التخطيط كإرضاء (PaS):

P = ⟨F, A, I, G⟩

حيث:

F: مجموعة محدودة من عناصر التدفق الاقتراحية التي تصف حقائق العالم
A: مجموعة محدودة من الإجراءات
I, G: عناصر التدفق الأولية والهدف
بالنسبة للإجراء a: P(a) يحدد الشروط المسبقة، A(a) يحدد عناصر التدفق التي تصبح صحيحة، D(a) يحدد عناصر التدفق التي تصبح خاطئة

2. الاختزال إلى مشكلة إرضاء القيود

اختزال مشكلة PaS إلى مثيل CSP من خلال الترميز:

الشروط المسبقة fp ∈ P(a)
إضافة التأثيرات fa ∈ A(a)
حذف التأثيرات fd ∈ D(a) كقيود الاعتماد البوليانية بين عناصر التدفق والإجراءات.

3. استراتيجية تحليل الشجرة

الاستفادة من نظرية تحليل الشجرة لـ Bodlaender (1998):

البحث عن تحليل الشجرة بأصغر حد أقصى لحجم الحقيبة (عرض الشجرة)
يميز عرض الشجرة التعقيد الجوهري للمشكلة
الاتساق المحلي يضمن الاتساق العام

نقاط الابتكار التقني

مقياس التعقيد الرسمي: أول استخدام لعرض الشجرة من نظرية الرسوم البيانية كمؤشر كمي لتعقيد مهام النماذج اللغوية الكبيرة
ضمان الاتساق العام: يضمن تحليل الشجرة أن الاتساق على الرسوم البيانية الفرعية المحلية يعني اتساق حل CSP العام
استراتيجية التحليل الأمثل: يقلل التحليل القائم على أصغر عرض شجرة من التعقيد المحلي
إجراء الاختزال التلقائي: تطوير إجراءات اختزال تلقائية للمعايير المحددة، مما يقلل من النمذجة اليدوية

إعداد التجارب

مجموعات البيانات

1. SAT-Bench

مشاكل القصص الطبيعية المبنية على مشاكل SAT
تتضمن تمثيل CNF والوصف باللغة الطبيعية وخريطة المحاذاة من الكيانات إلى SAT
تقييم Claude3.5-Sonnet (عينة عشوائية من نصف المهام) و Llama-3-70B (جميع المهام)

2. Spider

معيار NL2SQL الشهير
يتضمن مئات قواعد البيانات، كل منها يحتوي على ما يصل إلى 37 جدول و 90 مفتاح خارجي وأكثر من 100 عمود
تتضمن المهام مخطط قاعدة البيانات S والاستعلام باللغة الطبيعية q والاستعلام SQL الفعلي q*

مقاييس التقييم

SAT-Bench: معدل إكمال المهمة (نجاح/فشل)
Spider: دقة استعلام SQL، مقيمة حسب مستويات الصعوبة (سهل/متوسط/صعب/إضافي)

طرق المقارنة

Chain-of-Thought (CoT): طريقة الإشارة القياسية لسلسلة الأفكار كخط أساس
الملاحظة الكاملة مقابل الملاحظة المحللة: مقارنة الوصول إلى المعلومات العامة مقابل الوصول إلى المعلومات المحللة المحلية

تفاصيل التنفيذ

استخدام SageMath لحساب تحليل الشجرة، مع استخدام الاستدلال الحد الأدنى للملء والحل الدقيق
SAT-Bench يستخدم استراتيجية إسناد المتغيرات التدريجي
Spider يستخدم استراتيجية البناء الإضافي باستخدام بند WITH

نتائج التجارب

النتائج الرئيسية

1. نتائج SAT-Bench

Claude3.5-Sonnet: تحسن من 49.3% إلى 58.1% (+8.8%)
Llama-3-70B: تحسن من 21.5% إلى 36.5% (+15.0%)
يحدد مقياس التعقيد بوضوح حدود الصعوبة، ويدفع ACONIC الحدود نحو مشاكل أكثر تعقيداً

2. نتائج Spider

تحسن كبير على جميع مستويات الصعوبة مقارنة بخط الأساس CoT:

سهل: تحسن من 42.7% إلى 75.8% (+33.1%)
متوسط: تحسن من 38.1% إلى 58.1% (+20.0%)
صعب: تحسن من 36.2% إلى 62.7% (+26.5%)
إضافي: تحسن من 19.3% إلى 37.9% (+18.6%)

النتائج التجريبية

حدود التعقيد: تكشف التجارب عن حدود "التعقيد الكلي للمهمة" الثابتة بناءً على عرض شجرة المشكلة وعدد الحقائب
تحسن الاتساق: يُظهر تحليل ACONIC تحسناً متسقاً في الأداء على نموذجين مختلفين (Claude و LLaMA)
تدرج الصعوبة: تدفع النماذج الأقوى (مثل Claude) الحدود نحو مشاكل أكثر تعقيداً
تأثير التحليل: يؤدي زيادة عدد المسارات إلى تحسن طفيف في الدقة، لكن التحليل الموجه بالتعقيد يحقق تحسناً أكثر أهمية

الأعمال ذات الصلة

1. طرق تحليل المهام

سلسلة Chain-of-Thought: Wei et al.(2022), Yao et al.(2023), Khot et al.(2023)
طرق مساعدة الأدوات: Wang et al.(2024), Singh et al.(2024)
التحليل الخاص بالمجال: Pourreza and Rafiei(2023), Chen et al.(2024)

2. إرضاء القيود والتخطيط

التخطيط كإرضاء: الأعمال الكلاسيكية لـ Selman et al.
نظرية تحليل الشجرة: الأساس النظري للرسوم البيانية لـ Bodlaender(1998)
تخطيط المسارات متعدد الوكلاء: Surynek et al.(2016)

3. تطبيقات نظرية قواعد البيانات

نمذجة الرسم البياني للقيود: Gottlob et al.(2001)
طرق NL2SQL: ترميز الوعي بالعلاقات لـ Wang et al.(2019)

الخلاصة والنقاش

الاستنتاجات الرئيسية

فعالية الإطار الرسمي: يوفر ACONIC أول إطار عمل لتحديد كمية تعقيد مهام النماذج اللغوية الكبيرة بناءً على إرضاء القيود
مزايا التحليل المنهجي: يؤدي التحليل القائم على التعقيد إلى تحسن كبير على الطرق الاستكشافية
العمومية: يكون الإطار فعالاً على أنواع مختلفة من المهام (مشاكل التوليفات واستعلامات قواعد البيانات)
النظرية توجه الممارسة: توفر مفاهيم نظرية الرسوم البيانية مثل عرض الشجرة أساساً نظرياً لتحليل مهام النماذج اللغوية الكبيرة

القيود

تقييد نطاق التطبيق: ينطبق فقط على المهام التي يمكن نمذجتها بسهولة كمشاكل إرضاء قيود
تحديات التمثيل الكامل: غالباً ما تفشل المشاكل الفعلية في التعبير المنطقي الكامل بسبب غموض المشكلة أو عدم شفافية إجراءات الوكيل أو معلومات السياق الغامضة
عدم الاستقلالية الكاملة: لا يشكل ACONIC نظام تحليل واستدلال مستقل تماماً
خصوصية المعيار: يمكن حل مهام التقييم مباشرة باستخدام محللات القيود أو خوارزميات بسيطة

الاتجاهات المستقبلية

طرق التحليل الهجينة: دراسة طرق التحليل الهجينة التي تجمع بين القيود المنطقية والقيود الشائعة
أنواع مهام أوسع: التوسع إلى مشاكل عملية أكثر، مثل كشف الجمود وجدولة الموارد وغيرها
أنظمة مستقلة تماماً: التطور نحو أنظمة تحليل واستدلال مستقلة تماماً
دراسة التحليل المستند إلى التعلم: دراسات مقارنة مع إطارات التحليل الأخرى المستندة إلى النظرية أو التعلم

التقييم المتعمق

المزايا

الابتكار النظري: أول تطبيق منهجي لنظرية تحليل الشجرة من نظرية الرسوم البيانية على تحليل مهام النماذج اللغوية الكبيرة
الصرامة الرسمية: توفير إطار عمل رياضي صارم، مع سلسلة اختزال كاملة من PaS إلى CSP إلى تحليل الشجرة
التحقق التجريبي الكافي: التحقق على معايير من نوعين مختلفين، مع نتائج متسقة وكبيرة
قابلية التفسير القوية: يوفر مقياس التعقيد فهماً حدسياً لصعوبة المهام
إطار عمل عام: لا يقتصر على نوع مهمة معين، مع عمومية جيدة

أوجه القصور

تعقيد النمذجة: يتطلب اختزال المهام الفعلية إلى CSP معرفة متخصصة وهندسة يدوية
النفقات الحسابية: قد يكون لحساب تحليل الشجرة نفسه تعقيد عالي
مقارنة الخط الأساسي محدودة: المقارنة الأساسية مع CoT، مع نقص المقارنة مع طرق تحليل منهجية أخرى
تقييد نوع المهام: التحقق فقط على نوعين من المهام، مع حاجة إلى التحقق من القدرة على التعميم على نطاق أوسع

التأثير

المساهمة النظرية: توفير منظور نظري جديد لتحليل مهام النماذج اللغوية الكبيرة
القيمة المنهجية: قد يلهم إطار عمل ACONIC المزيد من أبحاث النماذج اللغوية الكبيرة بناءً على طرق رسمية
القيمة العملية: يتمتع التحسن الكبير في الأداء على أنواع مهام معينة بقيمة تطبيقية عملية
اتجاه البحث: قد يفتح اتجاهات بحثية جديدة لدمج النماذج اللغوية الكبيرة مع الطرق الرمزية التقليدية للذكاء الاصطناعي

السيناريوهات المطبقة

مشاكل التحسين التوليفي: الجدولة وتخصيص الموارد وغيرها من المشاكل التي يمكن نمذجتها كـ CSP
مهام الاستعلام المنظمة: استعلامات قواعد البيانات واستدلال الرسوم البيانية للمعرفة وغيرها
التخطيط متعدد القيود: مهام التخطيط التي تتطلب تلبية شروط قيود متعددة
مهام الاستدلال المنطقي: مشاكل الاستدلال التي يمكن صيغتها كقيود منطقية

المراجع

Bodlaender, H. L. (1998). A partial k-arboretum of graphs with bounded treewidth. Theoretical computer science, 209(1-2):1–45.
Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. arXiv preprint arXiv:2201.11903.
Yu, T., et al. (2019). Spider: A large-scale human-labeled dataset for complex and cross-domain semantic parsing and text-to-sql task.
Gottlob, G., Leone, N., & Scarcello, F. (2001). Hypertree decompositions: A survey. International Symposium on Mathematical Foundations of Computer Science.

الملخص: يمثل إطار عمل ACONIC المقترح في هذه الورقة تقدماً نظرياً مهماً في مجال تحليل مهام النماذج اللغوية الكبيرة. من خلال إدخال مقاييس تعقيد رسمية واستراتيجيات تحليل منهجية، يوفر أفكاراً جديدة لحل مهام النماذج اللغوية الكبيرة المعقدة. على الرغم من وجود قيود في نطاق التطبيق وتعقيد النمذجة، فإن التحسن الكبير في الأداء على مهام معينة والمساهمات النظرية تجعلها عملاً مهماً في هذا المجال.