Large Language Models (LLMs) suffer from reliability issues on complex tasks, as existing decomposition methods are heuristic and rely on agent or manual decomposition. This work introduces a novel, systematic decomposition framework that we call Analysis of CONstraint-Induced Complexity (ACONIC), which models the task as a constraint problem and leveraging formal complexity measures to guide decomposition. On combinatorial (SATBench) and LLM database querying tasks (Spider), we find that by decomposing the tasks following the measure of complexity, agent can perform considerably better (10-40 percentage point).
- معرّف الورقة: 2510.07772
- العنوان: An Approach for Systematic Decomposition of Complex LLM Tasks
- المؤلفون: Tianle Zhou, Jiakai Xu, Guanhong Liu, Jiaxiang Liu, Haonan Wang, Eugene Wu (جامعة كولومبيا)
- التصنيف: cs.AI
- تاريخ النشر: 13 أكتوبر 2025 (arXiv v2)
- رابط الورقة: https://arxiv.org/abs/2510.07772v2
تعاني النماذج اللغوية الكبيرة (LLMs) من مشاكل الموثوقية في المهام المعقدة، والطرق الحالية للتحليل هي استكشافية وتعتمد على الوكلاء أو التحليل اليدوي. يقدم هذا العمل إطار عمل تحليل جديد ومنهجي يسمى تحليل التعقيد المستحث بالقيود (ACONIC)، الذي يصيغ المهام كمشاكل قيود ويستخدم مقاييس التعقيد الرسمية لتوجيه التحليل. على مشاكل التوليفات (SAT-Bench) ومهام استعلام قواعد بيانات LLM (Spider)، يؤدي تحليل المهام حسب مقاييس التعقيد إلى تحسن كبير في أداء الوكيل (10-40 نقطة مئوية).
تفشل النماذج اللغوية الكبيرة في إنتاج نتائج صحيحة في تمريرة أمامية واحدة عند التعامل مع المهام المعقدة التي تتطلب استدلالاً متعدد الخطوات عميقاً أو بحثاً توليفياً، مما يؤدي إلى مشاكل الموثوقية.
مع الاستخدام الواسع للنماذج اللغوية الكبيرة في مختلف مهام الاستدلال والبرمجة وحل المشاكل، أصبح كيفية تحليل المهام المعقدة بشكل منهجي لتحسين أداء النموذج تحدياً رئيسياً. تفتقر الطرق الحالية إلى مقاييس التعقيد المبدئية واستراتيجيات التحليل.
- التحليل الاستكشافي: تعتمد الطرق الموجودة مثل Chain-of-Thought بشكل أساسي على تحليل النموذج اللغوي نفسه، وتفتقر إلى أساس نظري
- التحليل اليدوي: يعتمد على خبراء المجال لتصميم سير العمل يدويًا، وينقصه الطابع المنهجي
- غياب مقاييس التعقيد: يصعب تحديد كمية تعقيد المهمة، مما يجعل من الصعب تحديد متى يكون التحليل ضروريًا وكيفية إجراؤه
إنشاء إطار عمل رسمي لتعقيد المهام، وتوفير استراتيجيات تحليل منهجية، وتوفير القدرة على دراسة المهام ذات الصعوبة القابلة للمقارنة، وتوجيه متى يكون المساعدة بالأدوات ضرورية.
- اقتراح إطار عمل ACONIC: أول إطار عمل تعقيد رسمي يختزل مهام النماذج اللغوية الكبيرة بشكل منهجي إلى مشاكل إرضاء القيود
- إنشاء مقاييس التعقيد: استخدام حجم الرسم البياني للقيود وعرض الشجرة كمقاييس لتعقيد المهام
- طريقة تحليل منهجية: استراتيجية تحليل قائمة على تحليل الشجرة، مع تقليل تعقيد المهام الفرعية مع الحفاظ على الرضا العام
- التحقق التجريبي: التحقق من حدود الصعوبة المحددة بمقاييس التعقيد وتأثير التحليل على معايير SAT-Bench و Spider
- تحسن الأداء: تحسن بنسبة 9-15% على SAT-Bench و 30-40% على Spider مقارنة بطريقة Chain-of-Thought
يعرّف ACONIC مهام النماذج اللغوية الكبيرة على أنها: بالنظر إلى السياق الذي يصف مجموعة القيود والاستعلام الذي يجب الاستدلال عليه بناءً على القيود، يتم اختزاله إلى مشكلة إرضاء قيود رسمية، ثم تحليله وبناء سير عمل المهام الفرعية.
استخدام إطار عمل العمليات القائمة على الحالة للوكيل، وتصيغة المهمة كمشكلة التخطيط كإرضاء (PaS):
حيث:
- F: مجموعة محدودة من عناصر التدفق الاقتراحية التي تصف حقائق العالم
- A: مجموعة محدودة من الإجراءات
- I, G: عناصر التدفق الأولية والهدف
- بالنسبة للإجراء a: P(a) يحدد الشروط المسبقة، A(a) يحدد عناصر التدفق التي تصبح صحيحة، D(a) يحدد عناصر التدفق التي تصبح خاطئة
اختزال مشكلة PaS إلى مثيل CSP من خلال الترميز:
- الشروط المسبقة fp ∈ P(a)
- إضافة التأثيرات fa ∈ A(a)
- حذف التأثيرات fd ∈ D(a)
كقيود الاعتماد البوليانية بين عناصر التدفق والإجراءات.
الاستفادة من نظرية تحليل الشجرة لـ Bodlaender (1998):
- البحث عن تحليل الشجرة بأصغر حد أقصى لحجم الحقيبة (عرض الشجرة)
- يميز عرض الشجرة التعقيد الجوهري للمشكلة
- الاتساق المحلي يضمن الاتساق العام
- مقياس التعقيد الرسمي: أول استخدام لعرض الشجرة من نظرية الرسوم البيانية كمؤشر كمي لتعقيد مهام النماذج اللغوية الكبيرة
- ضمان الاتساق العام: يضمن تحليل الشجرة أن الاتساق على الرسوم البيانية الفرعية المحلية يعني اتساق حل CSP العام
- استراتيجية التحليل الأمثل: يقلل التحليل القائم على أصغر عرض شجرة من التعقيد المحلي
- إجراء الاختزال التلقائي: تطوير إجراءات اختزال تلقائية للمعايير المحددة، مما يقلل من النمذجة اليدوية
- مشاكل القصص الطبيعية المبنية على مشاكل SAT
- تتضمن تمثيل CNF والوصف باللغة الطبيعية وخريطة المحاذاة من الكيانات إلى SAT
- تقييم Claude3.5-Sonnet (عينة عشوائية من نصف المهام) و Llama-3-70B (جميع المهام)
- معيار NL2SQL الشهير
- يتضمن مئات قواعد البيانات، كل منها يحتوي على ما يصل إلى 37 جدول و 90 مفتاح خارجي وأكثر من 100 عمود
- تتضمن المهام مخطط قاعدة البيانات S والاستعلام باللغة الطبيعية q والاستعلام SQL الفعلي q*
- SAT-Bench: معدل إكمال المهمة (نجاح/فشل)
- Spider: دقة استعلام SQL، مقيمة حسب مستويات الصعوبة (سهل/متوسط/صعب/إضافي)
- Chain-of-Thought (CoT): طريقة الإشارة القياسية لسلسلة الأفكار كخط أساس
- الملاحظة الكاملة مقابل الملاحظة المحللة: مقارنة الوصول إلى المعلومات العامة مقابل الوصول إلى المعلومات المحللة المحلية
- استخدام SageMath لحساب تحليل الشجرة، مع استخدام الاستدلال الحد الأدنى للملء والحل الدقيق
- SAT-Bench يستخدم استراتيجية إسناد المتغيرات التدريجي
- Spider يستخدم استراتيجية البناء الإضافي باستخدام بند WITH
- Claude3.5-Sonnet: تحسن من 49.3% إلى 58.1% (+8.8%)
- Llama-3-70B: تحسن من 21.5% إلى 36.5% (+15.0%)
- يحدد مقياس التعقيد بوضوح حدود الصعوبة، ويدفع ACONIC الحدود نحو مشاكل أكثر تعقيداً
تحسن كبير على جميع مستويات الصعوبة مقارنة بخط الأساس CoT:
- سهل: تحسن من 42.7% إلى 75.8% (+33.1%)
- متوسط: تحسن من 38.1% إلى 58.1% (+20.0%)
- صعب: تحسن من 36.2% إلى 62.7% (+26.5%)
- إضافي: تحسن من 19.3% إلى 37.9% (+18.6%)
- حدود التعقيد: تكشف التجارب عن حدود "التعقيد الكلي للمهمة" الثابتة بناءً على عرض شجرة المشكلة وعدد الحقائب
- تحسن الاتساق: يُظهر تحليل ACONIC تحسناً متسقاً في الأداء على نموذجين مختلفين (Claude و LLaMA)
- تدرج الصعوبة: تدفع النماذج الأقوى (مثل Claude) الحدود نحو مشاكل أكثر تعقيداً
- تأثير التحليل: يؤدي زيادة عدد المسارات إلى تحسن طفيف في الدقة، لكن التحليل الموجه بالتعقيد يحقق تحسناً أكثر أهمية
- سلسلة Chain-of-Thought: Wei et al.(2022), Yao et al.(2023), Khot et al.(2023)
- طرق مساعدة الأدوات: Wang et al.(2024), Singh et al.(2024)
- التحليل الخاص بالمجال: Pourreza and Rafiei(2023), Chen et al.(2024)
- التخطيط كإرضاء: الأعمال الكلاسيكية لـ Selman et al.
- نظرية تحليل الشجرة: الأساس النظري للرسوم البيانية لـ Bodlaender(1998)
- تخطيط المسارات متعدد الوكلاء: Surynek et al.(2016)
- نمذجة الرسم البياني للقيود: Gottlob et al.(2001)
- طرق NL2SQL: ترميز الوعي بالعلاقات لـ Wang et al.(2019)
- فعالية الإطار الرسمي: يوفر ACONIC أول إطار عمل لتحديد كمية تعقيد مهام النماذج اللغوية الكبيرة بناءً على إرضاء القيود
- مزايا التحليل المنهجي: يؤدي التحليل القائم على التعقيد إلى تحسن كبير على الطرق الاستكشافية
- العمومية: يكون الإطار فعالاً على أنواع مختلفة من المهام (مشاكل التوليفات واستعلامات قواعد البيانات)
- النظرية توجه الممارسة: توفر مفاهيم نظرية الرسوم البيانية مثل عرض الشجرة أساساً نظرياً لتحليل مهام النماذج اللغوية الكبيرة
- تقييد نطاق التطبيق: ينطبق فقط على المهام التي يمكن نمذجتها بسهولة كمشاكل إرضاء قيود
- تحديات التمثيل الكامل: غالباً ما تفشل المشاكل الفعلية في التعبير المنطقي الكامل بسبب غموض المشكلة أو عدم شفافية إجراءات الوكيل أو معلومات السياق الغامضة
- عدم الاستقلالية الكاملة: لا يشكل ACONIC نظام تحليل واستدلال مستقل تماماً
- خصوصية المعيار: يمكن حل مهام التقييم مباشرة باستخدام محللات القيود أو خوارزميات بسيطة
- طرق التحليل الهجينة: دراسة طرق التحليل الهجينة التي تجمع بين القيود المنطقية والقيود الشائعة
- أنواع مهام أوسع: التوسع إلى مشاكل عملية أكثر، مثل كشف الجمود وجدولة الموارد وغيرها
- أنظمة مستقلة تماماً: التطور نحو أنظمة تحليل واستدلال مستقلة تماماً
- دراسة التحليل المستند إلى التعلم: دراسات مقارنة مع إطارات التحليل الأخرى المستندة إلى النظرية أو التعلم
- الابتكار النظري: أول تطبيق منهجي لنظرية تحليل الشجرة من نظرية الرسوم البيانية على تحليل مهام النماذج اللغوية الكبيرة
- الصرامة الرسمية: توفير إطار عمل رياضي صارم، مع سلسلة اختزال كاملة من PaS إلى CSP إلى تحليل الشجرة
- التحقق التجريبي الكافي: التحقق على معايير من نوعين مختلفين، مع نتائج متسقة وكبيرة
- قابلية التفسير القوية: يوفر مقياس التعقيد فهماً حدسياً لصعوبة المهام
- إطار عمل عام: لا يقتصر على نوع مهمة معين، مع عمومية جيدة
- تعقيد النمذجة: يتطلب اختزال المهام الفعلية إلى CSP معرفة متخصصة وهندسة يدوية
- النفقات الحسابية: قد يكون لحساب تحليل الشجرة نفسه تعقيد عالي
- مقارنة الخط الأساسي محدودة: المقارنة الأساسية مع CoT، مع نقص المقارنة مع طرق تحليل منهجية أخرى
- تقييد نوع المهام: التحقق فقط على نوعين من المهام، مع حاجة إلى التحقق من القدرة على التعميم على نطاق أوسع
- المساهمة النظرية: توفير منظور نظري جديد لتحليل مهام النماذج اللغوية الكبيرة
- القيمة المنهجية: قد يلهم إطار عمل ACONIC المزيد من أبحاث النماذج اللغوية الكبيرة بناءً على طرق رسمية
- القيمة العملية: يتمتع التحسن الكبير في الأداء على أنواع مهام معينة بقيمة تطبيقية عملية
- اتجاه البحث: قد يفتح اتجاهات بحثية جديدة لدمج النماذج اللغوية الكبيرة مع الطرق الرمزية التقليدية للذكاء الاصطناعي
- مشاكل التحسين التوليفي: الجدولة وتخصيص الموارد وغيرها من المشاكل التي يمكن نمذجتها كـ CSP
- مهام الاستعلام المنظمة: استعلامات قواعد البيانات واستدلال الرسوم البيانية للمعرفة وغيرها
- التخطيط متعدد القيود: مهام التخطيط التي تتطلب تلبية شروط قيود متعددة
- مهام الاستدلال المنطقي: مشاكل الاستدلال التي يمكن صيغتها كقيود منطقية
- Bodlaender, H. L. (1998). A partial k-arboretum of graphs with bounded treewidth. Theoretical computer science, 209(1-2):1–45.
- Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. arXiv preprint arXiv:2201.11903.
- Yu, T., et al. (2019). Spider: A large-scale human-labeled dataset for complex and cross-domain semantic parsing and text-to-sql task.
- Gottlob, G., Leone, N., & Scarcello, F. (2001). Hypertree decompositions: A survey. International Symposium on Mathematical Foundations of Computer Science.
الملخص: يمثل إطار عمل ACONIC المقترح في هذه الورقة تقدماً نظرياً مهماً في مجال تحليل مهام النماذج اللغوية الكبيرة. من خلال إدخال مقاييس تعقيد رسمية واستراتيجيات تحليل منهجية، يوفر أفكاراً جديدة لحل مهام النماذج اللغوية الكبيرة المعقدة. على الرغم من وجود قيود في نطاق التطبيق وتعقيد النمذجة، فإن التحسن الكبير في الأداء على مهام معينة والمساهمات النظرية تجعلها عملاً مهماً في هذا المجال.