Large Language Models (LLMs) suffer from reliability issues on complex tasks, as existing decomposition methods are heuristic and rely on agent or manual decomposition. This work introduces a novel, systematic decomposition framework that we call Analysis of CONstraint-Induced Complexity (ACONIC), which models the task as a constraint problem and leveraging formal complexity measures to guide decomposition. On combinatorial (SATBench) and LLM database querying tasks (Spider), we find that by decomposing the tasks following the measure of complexity, agent can perform considerably better (10-40 percentage point).
- Paper-ID: 2510.07772
- Titel: An Approach for Systematic Decomposition of Complex LLM Tasks
- Autoren: Tianle Zhou, Jiakai Xu, Guanhong Liu, Jiaxiang Liu, Haonan Wang, Eugene Wu (Columbia University)
- Klassifizierung: cs.AI
- Veröffentlichungsdatum: 13. Oktober 2025 (arXiv v2)
- Paper-Link: https://arxiv.org/abs/2510.07772v2
Große Sprachmodelle (LLMs) weisen Zuverlässigkeitsprobleme bei komplexen Aufgaben auf. Bestehende Zerlegungsmethoden sind heuristisch und basieren auf Agenten oder manueller Zerlegung. Diese Arbeit führt ein neuartiges systematisches Zerlegungsframework ein, das als Constraint-Induced Complexity Analysis (ACONIC) bezeichnet wird. Dieses Framework modelliert Aufgaben als Constraint-Satisfaction-Probleme und nutzt formale Komplexitätsmessungen zur Anleitung der Zerlegung. Bei kombinatorischen Problemen (SAT-Bench) und LLM-Datenbankabfrage-Aufgaben (Spider) zeigt sich eine signifikante Leistungssteigerung der Agenten (10-40 Prozentpunkte) durch die Zerlegung von Aufgaben nach Komplexitätsmessungen.
Große Sprachmodelle können bei komplexen Aufgaben, die tiefgreifendes mehrstufiges Denken oder kombinatorische Suche erfordern, häufig nicht das richtige Ergebnis in einem einzigen Vorwärtsdurchlauf erzeugen. Dies führt zu Zuverlässigkeitsproblemen.
Mit der weit verbreiteten Anwendung von LLMs in verschiedenen Reasoning-, Programmier- und Problemlösungsaufgaben wird die systematische Zerlegung komplexer Aufgaben zur Verbesserung der Modellleistung zu einer Schlüsselherausforderung. Bestehende Methoden mangelt es an prinzipiellen Komplexitätsmessungen und Zerlegungsstrategien.
- Heuristische Zerlegung: Bestehende Methoden wie Chain-of-Thought basieren hauptsächlich auf der Selbstzerlegung durch LLMs und mangelt es an theoretischer Grundlage
- Manuelle Zerlegung: Abhängig von der manuellen Gestaltung von Workflows durch Domänenexperten, mangelt es an Systematik
- Fehlende Komplexitätsmessungen: Unmöglichkeit, die Aufgabenkomplexität zu quantifizieren, macht es schwierig zu bestimmen, wann und wie eine Zerlegung erforderlich ist
Etablierung eines formalisierten Aufgabenkomplexitäts-Frameworks, das systematische Zerlegungsstrategien ermöglicht, die Fähigkeit bietet, Aufgaben vergleichbarer Schwierigkeit zu untersuchen, und anleitet, wann werkzeuggestützte Hilfe erforderlich ist.
- ACONIC-Framework: Erstes formalisiertes Komplexitäts-Framework, das LLM-Aufgaben systematisch auf Constraint-Satisfaction-Probleme reduziert
- Komplexitätsmessungen: Verwendung der Graphgröße und Baumbreite des Constraint-Graphen als Komplexitätsmessungen für Aufgaben
- Systematische Zerlegungsmethode: Zerlegungsstrategie basierend auf Baumzerlegung, die die Komplexität von Teilaufgaben minimiert und gleichzeitig die globale Erfüllbarkeit bewahrt
- Empirische Validierung: Validierung der durch Komplexitätsmessungen definierten Schwierigkeitsgrenzen und Zerlegungseffekte auf SAT-Bench und Spider
- Leistungssteigerung: Verbesserung um 9-15% auf SAT-Bench und 30-40% auf Spider im Vergleich zu Chain-of-Thought-Methoden
ACONIC definiert LLM-Aufgaben wie folgt: Gegeben ein Kontext, der eine Menge von Constraints beschreibt, und eine Abfrage, die über diese Constraints nachdenken muss, wird diese auf ein formalisiertes Constraint-Satisfaction-Problem reduziert, dann zerlegt und ein Workflow für Teilaufgaben konstruiert.
Verwendung eines zustandsbasierten Agenten-Operationsframeworks zur Formalisierung von Aufgaben als Planning-as-Satisfiability (PaS)-Probleme:
wobei:
- F: Endliche Menge von Propositions-Fluenten, die Weltfakten beschreiben
- A: Endliche Menge von Aktionen
- I, G: Initiale und Ziel-Fluenten
- Für Aktion a: P(a) bestimmt Vorbedingungen, A(a) bestimmt wahr werdende Fluenten, D(a) bestimmt falsch werdende Fluenten
Reduktion von PaS-Problemen auf CSP-Instanzen durch Kodierung von:
- Vorbedingungen fp ∈ P(a)
- Hinzufügende Effekte fa ∈ A(a)
- Löschende Effekte fd ∈ D(a)
als boolesche Abhängigkeits-Constraints zwischen Fluenten und Aktionen.
Nutzung der Baumzerlegungstheorie von Bodlaender (1998):
- Suche nach Baumzerlegung D* mit minimaler maximaler Beutelgröße (Baumbreite)
- Baumbreite charakterisiert inhärente Problemkomplexität
- Lokale Konsistenz garantiert globale Konsistenz
- Formalisierte Komplexitätsmessungen: Erstmalige Verwendung der Baumbreite aus der Graphentheorie als Quantifizierungsindikator für LLM-Aufgabenkomplexität
- Garantie globaler Konsistenz: Baumzerlegung stellt sicher, dass Konsistenz auf lokalen Subgraphen globale CSP-Lösungskonsistenz impliziert
- Optimale Zerlegungsstrategie: Auf minimaler Baumbreite basierende Zerlegung minimiert lokale Komplexität
- Automatisierte Reduktionsprozeduren: Entwicklung automatisierter Reduktionsprozeduren für spezifische Benchmarks zur Reduzierung manueller Modellierung
- Auf SAT-Problemen basierende natürlichsprachige Geschichtenprobleme
- Enthält CNF-Darstellung, natürlichsprachige Beschreibung und Entitäts-zu-SAT-Ausrichtungsmapping
- Evaluierung von Claude3.5-Sonnet (zufällige Stichprobe der Hälfte der Aufgaben) und Llama-3-70B (alle Aufgaben)
- Beliebter NL2SQL-Benchmark-Datensatz
- Enthält Hunderte von Datenbanken, jede mit bis zu 37 Tabellen, 90 Fremdschlüsseln und über 100 Spalten
- Aufgaben umfassen Datenbankschema S, natürlichsprachige Abfrage q und echte SQL-Abfrage q*
- SAT-Bench: Aufgabenabschlussrate (Erfolg/Misserfolg)
- Spider: SQL-Abfragegenauigkeit, separat nach Schwierigkeitsstufen (Easy/Medium/Hard/Extra) bewertet
- Chain-of-Thought (CoT): Standard-Thought-Chain-Prompting-Methode als Baseline
- Vollständige Beobachtung vs. Zerlegte Beobachtung: Vergleich des Zugriffs auf globale Informationen mit lokalem Zerlegungsinformationszugriff
- Verwendung von SageMath zur Berechnung der Baumzerlegung mit minimaler Fill-Heuristik und exaktem Solver
- SAT-Bench nutzt schrittweise Variablenzuweisungsstrategie
- Spider nutzt inkrementelle Konstruktionsstrategie mit WITH-Klauseln
- Claude3.5-Sonnet: Verbesserung von 49,3% auf 58,1% (+8,8%)
- Llama-3-70B: Verbesserung von 21,5% auf 36,5% (+15,0%)
- Komplexitätsmessungen definieren eindeutig Schwierigkeitsgrenzen; ACONIC verschiebt Grenzen zu komplexeren Problemen
Im Vergleich zur CoT-Baseline zeigt ACONIC signifikante Verbesserungen auf allen Schwierigkeitsstufen:
- Easy: Verbesserung von 42,7% auf 75,8% (+33,1%)
- Medium: Verbesserung von 38,1% auf 58,1% (+20,0%)
- Hard: Verbesserung von 36,2% auf 62,7% (+26,5%)
- Extra: Verbesserung von 19,3% auf 37,9% (+18,6%)
- Komplexitätsgrenzen: Experimente offenbaren feste "Gesamtaufgabenkomplexitäts"-Grenzen basierend auf Problembaum-breite und Beutelanzahl
- Konsistenzverbesserung: ACONIC-Zerlegung zeigt konsistente Leistungssteigerungen auf zwei verschiedenen Modellen (Claude und LLaMA)
- Schwierigkeitsgradient: Stärkere Modelle (wie Claude) verschieben Grenzen zu komplexeren Problemen
- Zerlegungseffekt: Erhöhung der Trajektorienanzahl verbessert die Genauigkeit leicht, aber komplexitätsgesteuerte Zerlegung bringt signifikantere Verbesserungen
- Chain-of-Thought-Serie: Wei et al. (2022), Yao et al. (2023), Khot et al. (2023)
- Werkzeuggestützte Methoden: Wang et al. (2024), Singh et al. (2024)
- Domänenspezifische Zerlegung: Pourreza and Rafiei (2023), Chen et al. (2024)
- Planning as Satisfiability: Klassische Arbeiten von Selman et al.
- Baumzerlegungstheorie: Graphentheoretische Grundlagen von Bodlaender (1998)
- Multi-Agent Path Planning: Surynek et al. (2016)
- Constraint-Graph-Modellierung: Gottlob et al. (2001)
- NL2SQL-Methoden: Beziehungsbewusste Kodierung von Wang et al. (2019)
- Effektivität des formalisierten Frameworks: ACONIC bietet das erste auf Constraint-Satisfaction basierende Framework zur Quantifizierung der LLM-Aufgabenkomplexität
- Vorteile systematischer Zerlegung: Auf Komplexität basierende Zerlegung ist signifikant überlegen gegenüber heuristischen Methoden
- Universalität: Framework ist auf verschiedenen Aufgabentypen (kombinatorische Probleme und Datenbankabfragen) wirksam
- Theorie leitet Praxis: Graphentheoretische Konzepte wie Baumbreite bieten theoretische Grundlagen für LLM-Aufgabenzerlegung
- Begrenzte Anwendbarkeit: Nur auf Aufgaben anwendbar, die bequem als Constraint-Satisfaction-Probleme modelliert werden können
- Herausforderungen bei vollständiger Darstellung: Praktische Probleme können aufgrund von Problemuneindeutigkeit, undurchsichtigen Agenten-Aktionen oder mehrdeutigen Kontextinformationen nicht vollständig logisch dargestellt werden
- Nicht vollständig autonom: ACONIC stellt kein vollständig autonomes Zerlegungs- oder Reasoning-System dar
- Benchmark-Spezifität: Bewertungsaufgaben können direkt mit Constraint-Solvern oder einfachen Algorithmen gelöst werden
- Hybride Zerlegungsmethoden: Untersuchung von Zerlegungsmethoden, die logische und Common-Sense-Constraints kombinieren
- Breitere Aufgabentypen: Erweiterung auf mehr praktische Probleme wie Deadlock-Erkennung, Ressourcenplanung usw.
- Vollständig autonome Systeme: Entwicklung zu vollständig autonomen Zerlegungs- und Reasoning-Systemen
- Lernbasierte Zerlegung: Vergleichsstudien mit anderen theoretisch fundierten oder lernbasierten Zerlegungsframeworks
- Theoretische Innovation: Erstmalige systematische Anwendung der Baumzerlegungstheorie aus der Graphentheorie auf LLM-Aufgabenzerlegung
- Formale Strenge: Bietet ein striktes mathematisches Framework mit vollständiger Reduktionskette von PaS zu CSP bis zur Baumzerlegung
- Ausreichende empirische Validierung: Validierung auf zwei verschiedenen Benchmark-Typen mit konsistenten und signifikanten Ergebnissen
- Starke Interpretierbarkeit: Komplexitätsmessungen bieten intuitive Verständlichkeit der Aufgabenschwierigkeit
- Universelles Framework: Nicht auf spezifische Aufgabentypen beschränkt, mit guter Universalität
- Modellierungskomplexität: Die Reduktion praktischer Aufgaben auf CSP erfordert Fachkompetenz und manuelle Entwicklung
- Rechnerischer Aufwand: Die Baumzerlegungsberechnung selbst kann erhebliche Komplexität aufweisen
- Begrenzte Baseline-Vergleiche: Hauptsächlich Vergleich mit CoT, mangelt es an Vergleichen mit anderen systematischen Zerlegungsmethoden
- Aufgabentypbeschränkung: Validierung nur auf zwei Aufgabentypen, Generalisierungsfähigkeit bedarf breiterer Validierung
- Theoretischer Beitrag: Bietet neue theoretische Perspektive für LLM-Aufgabenzerlegung
- Methodologischer Wert: ACONIC-Framework könnte mehr auf formalisierten Methoden basierende LLM-Forschung inspirieren
- Praktischer Wert: Signifikante Leistungssteigerungen bei spezifischen Aufgabentypen haben praktischen Anwendungswert
- Forschungsrichtung: Könnte neue Forschungsrichtung zur Kombination von LLMs mit traditionellen symbolischen AI-Methoden eröffnen
- Kombinatorische Optimierungsprobleme: Planung, Ressourcenallokation und andere als CSP modellierbare Probleme
- Strukturierte Abfrageaufgaben: Datenbankabfragen, Wissensdiagramm-Reasoning usw.
- Multi-Constraint-Planung: Planungsaufgaben, die mehrere Constraint-Bedingungen erfüllen müssen
- Logische Reasoning-Aufgaben: Reasoning-Probleme, die als logische Constraints formalisiert werden können
- Bodlaender, H. L. (1998). A partial k-arboretum of graphs with bounded treewidth. Theoretical computer science, 209(1-2):1–45.
- Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. arXiv preprint arXiv:2201.11903.
- Yu, T., et al. (2019). Spider: A large-scale human-labeled dataset for complex and cross-domain semantic parsing and text-to-sql task.
- Gottlob, G., Leone, N., & Scarcello, F. (2001). Hypertree decompositions: A survey. International Symposium on Mathematical Foundations of Computer Science.
Zusammenfassung: Das in dieser Arbeit vorgeschlagene ACONIC-Framework stellt einen wichtigen theoretischen Fortschritt im Bereich der LLM-Aufgabenzerlegung dar. Durch die Einführung formalisierter Komplexitätsmessungen und systematischer Zerlegungsstrategien bietet es neue Ansätze zur Lösung komplexer LLM-Aufgaben. Trotz Einschränkungen bei der Anwendbarkeit und Modellierungskomplexität machen die signifikanten Leistungssteigerungen bei spezifischen Aufgaben und theoretischen Beiträge es zu einer wichtigen Arbeit in diesem Forschungsbereich.