Large Language Models (LLMs) suffer from reliability issues on complex tasks, as existing decomposition methods are heuristic and rely on agent or manual decomposition. This work introduces a novel, systematic decomposition framework that we call Analysis of CONstraint-Induced Complexity (ACONIC), which models the task as a constraint problem and leveraging formal complexity measures to guide decomposition. On combinatorial (SATBench) and LLM database querying tasks (Spider), we find that by decomposing the tasks following the measure of complexity, agent can perform considerably better (10-40 percentage point).
- 論文ID: 2510.07772
- タイトル: An Approach for Systematic Decomposition of Complex LLM Tasks
- 著者: Tianle Zhou, Jiakai Xu, Guanhong Liu, Jiaxiang Liu, Haonan Wang, Eugene Wu (Columbia University)
- 分類: cs.AI
- 発表日時: 2025年10月13日 (arXiv v2)
- 論文リンク: https://arxiv.org/abs/2510.07772v2
大規模言語モデル(LLM)は複雑なタスクにおいて信頼性の問題を抱えており、既存の分解方法はヒューリスティックであり、エージェントまたは手動分解に依存している。本研究は、制約誘導複雑度分析(ACONIC)と呼ばれる新規の体系的分解フレームワークを導入する。このフレームワークはタスクを制約問題としてモデル化し、形式的複雑度尺度を活用して分解を指導する。組合せ問題(SAT-Bench)およびLLMデータベースクエリタスク(Spider)において、複雑度尺度に基づいてタスクを分解することにより、エージェントのパフォーマンスが著しく向上する(10~40パーセンテージポイント)。
大規模言語モデルは、深い多段階推論または組合せ探索を必要とする複雑なタスクを処理する際、単一の前向きパスで正しい結果を生成することができず、信頼性の問題を抱えている。
推論、プログラミング、問題解決タスクなど様々な領域でのLLMの広範な応用に伴い、複雑なタスクを体系的に分解してモデルのパフォーマンスを向上させることが重要な課題となっている。既存の方法は原則的な複雑度尺度と分解戦略を欠いている。
- ヒューリスティック分解: Chain-of-Thoughtなどの既存方法は主にLLM自体による分解に依存しており、理論的基礎に欠ける
- 手動分解: 領域専門家による手動ワークフロー設計に依存しており、体系性に欠ける
- 複雑度尺度の欠如: タスク複雑度を定量化できず、分解の必要性と方法の決定が困難
形式的なタスク複雑度フレームワークを確立し、体系的な分解戦略を提供し、比較可能な難度のタスク研究能力を提供し、ツール支援が必要な時期を指導する。
- ACONICフレームワークの提案: LLMタスクを体系的に制約充足問題に約減する初の形式的複雑度フレームワーク
- 複雑度尺度の確立: 制約グラフのグラフサイズと木幅をタスク複雑度の尺度として使用
- 体系的分解方法: 木分解に基づく分解戦略により、部分タスク複雑度を最小化しながら全体的充足可能性を維持
- 実証的検証: SAT-BenchおよびSpiderベンチマークで複雑度尺度が定義する難度境界と分解効果を検証
- パフォーマンス向上: Chain-of-Thoughtメソッドと比較して、SAT-Benchで9~15%向上、Spiderで30~40%向上
ACONICはLLMタスクを以下のように定義する: 制約集合を記述するコンテキストと制約に関する推論が必要なクエリが与えられた場合、これを形式的制約充足問題に約減し、その後分解してサブタスクワークフローを構築する。
状態ベースのエージェント操作フレームワークを使用し、タスクを計画即充足可能性(PaS)問題として形式化する:
ここで:
- F: 世界の事実を記述する命題流元の有限集合
- A: 動作の有限集合
- I, G: 初期および目標流元
- 動作aについて: P(a)は前提条件を決定、A(a)は真になる流元を決定、D(a)は偽になる流元を決定
PaS問題をCSPインスタンスに約減し、以下をエンコードする:
- 前提条件 fp ∈ P(a)
- 追加効果 fa ∈ A(a)
- 削除効果 fd ∈ D(a)
流元と動作間のブール依存制約として。
Bodlaender(1998)の木分解理論を活用する:
- 最小最大バッグサイズの木分解D*を探索(木幅)
- 木幅は問題の内在的複雑度を特徴付ける
- 局所一貫性が全体一貫性を保証
- 形式的複雑度尺度: グラフ理論の木幅をLLMタスク複雑度の定量指標として初めて使用
- 全体一貫性の保証: 木分解により、局所部分グラフ上の一貫性が全体CSP解の一貫性を意味することを保証
- 最適分解戦略: 最小木幅に基づく分解により局所複雑度を最小化
- 自動約減手順: 特定ベンチマーク用の自動約減手順を開発し、手作業モデリングを削減
- SAT問題に基づいて構築された自然言語ストーリー問題
- CNF表現、自然言語記述、エンティティからSATへの対応マッピングを含む
- Claude3.5-Sonnet(タスクの半分をランダムサンプリング)およびLlama-3-70B(全タスク)を評価
- 一般的なNL2SQLベンチマークデータセット
- 数百のデータベースを含み、各データベースは最大37テーブル、90外部キー、100列以上
- タスクはデータベーススキーマS、自然言語クエリq、真のSQLクエリq*を含む
- SAT-Bench: タスク完了率(成功/失敗)
- Spider: SQLクエリ精度、難度レベル別(Easy/Medium/Hard/Extra)に評価
- Chain-of-Thought (CoT): 標準的な思考の連鎖プロンプト方法をベースラインとして使用
- 完全観察 vs 分解観察: グローバル情報アクセスと局所分解情報アクセスの比較
- SageMathを使用して木分解を計算、最小充填ヒューリスティックと正確なソルバーを採用
- SAT-Benchは段階的変数割り当て戦略を採用
- SpiderはWITH句の増分構築戦略を採用
- Claude3.5-Sonnet: 49.3%から58.1%に向上(+8.8%)
- Llama-3-70B: 21.5%から36.5%に向上(+15.0%)
- 複雑度尺度は難度境界を明確に定義し、ACONICはより複雑な問題へ境界を推し進める
CoTベースラインと比較して、ACONICはすべての難度レベルで著しい向上を示す:
- Easy: 42.7%から75.8%に向上(+33.1%)
- Medium: 38.1%から58.1%に向上(+20.0%)
- Hard: 36.2%から62.7%に向上(+26.5%)
- Extra: 19.3%から37.9%に向上(+18.6%)
- 複雑度境界: 実験は問題の木幅とバッグ数に基づく固定「総タスク複雑度」境界を明らかにする
- 一貫性改善: ACONIC分解は2つの異なるモデル(ClaudeとLLaMA)で一貫したパフォーマンス向上を示す
- 難度勾配: より強力なモデル(Claudeなど)は境界をより複雑な問題方向に推し進める
- 分解効果: トレース数の増加は精度をわずかに改善するが、複雑度ガイド分解はより顕著な向上をもたらす
- Chain-of-Thoughtシリーズ: Wei et al.(2022), Yao et al.(2023), Khot et al.(2023)
- ツール支援方法: Wang et al.(2024), Singh et al.(2024)
- 領域特定分解: Pourreza and Rafiei(2023), Chen et al.(2024)
- 計画即充足可能性: Selmanらの古典的研究
- 木分解理論: Bodlaender(1998)のグラフ理論基礎
- マルチエージェント経路計画: Surynek et al.(2016)
- 制約グラフモデリング: Gottlob et al.(2001)
- NL2SQL方法: Wang et al.(2019)の関係認識エンコーディング
- 形式的フレームワークの有効性: ACONICは制約充足に基づくLLMタスク複雑度の定量化フレームワークを初めて提供
- 体系的分解の利点: 複雑度ベースの分解はヒューリスティック方法を著しく上回る
- 汎用性: フレームワークは異なるタイプのタスク(組合せ問題とデータベースクエリ)で有効
- 理論が実践を指導: 木幅などのグラフ理論概念はLLMタスク分解に理論的基礎を提供
- 適用範囲の制限: 制約充足問題として便利にモデル化できるタスクにのみ適用可能
- 完全表現の課題: 実際の問題は問題の曖昧性、エージェント動作の不透明性、またはコンテキスト情報の曖昧性のため、完全に論理的に表現できないことが多い
- 完全自律性ではない: ACONICは完全自律的な分解または推論システムを構成しない
- ベンチマーク特異性: 評価タスクは制約ソルバーまたは単純なアルゴリズムで直接解決可能
- 混合分解方法: 論理制約と常識制約を組み合わせた混合分解方法の研究
- より広範なタスクタイプ: デッドロック検出、リソーススケジューリングなどより多くの実際の問題への拡張
- 完全自律システム: 完全自律的な分解および推論システムへの発展
- 学習ベース分解: 他の理論ベースまたは学習ベース分解フレームワークとの比較研究
- 理論的革新: グラフ理論の木分解理論をLLMタスク分解に体系的に適用した初の研究
- 形式的厳密性: PaS、CSP、木分解への完全な約減チェーンを含む厳密な数学フレームワークを提供
- 実証的充実: 2つの異なるタイプのベンチマークで検証、結果は一貫かつ著しい
- 解釈可能性の強さ: 複雑度尺度はタスク難度の直感的理解を提供
- 汎用フレームワーク: 特定のタスクタイプに限定されず、良好な汎用性を持つ
- モデリング複雑性: 実際のタスクをCSPに約減するには専門知識と手作業エンジニアリングが必要
- 計算オーバーヘッド: 木分解計算自体が高い複雑度を持つ可能性がある
- 限定的なベースライン比較: 主にCoTとの比較であり、他の体系的分解方法との比較に欠ける
- タスクタイプの制限: 2つのタスクタイプでのみ検証、汎化能力はより広範な検証が必要
- 理論的貢献: LLMタスク分解に新しい理論的視点を提供
- 方法論的価値: ACONICフレームワークは形式的方法に基づくLLM研究をさらに刺激する可能性がある
- 実用的価値: 特定のタイプのタスクにおける著しいパフォーマンス向上は実際の応用価値を持つ
- 研究方向: LLMと従来のAI記号方法の結合に関する新しい研究方向を開く可能性がある
- 組合せ最適化問題: スケジューリング、リソース割り当てなどCSPとしてモデル化可能な問題
- 構造化クエリタスク: データベースクエリ、知識グラフ推論など
- マルチ制約計画: 複数の制約条件を満たす必要がある計画タスク
- 論理推論タスク: 論理制約として形式化可能な推論問題
- Bodlaender, H. L. (1998). A partial k-arboretum of graphs with bounded treewidth. Theoretical computer science, 209(1-2):1–45.
- Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. arXiv preprint arXiv:2201.11903.
- Yu, T., et al. (2019). Spider: A large-scale human-labeled dataset for complex and cross-domain semantic parsing and text-to-sql task.
- Gottlob, G., Leone, N., & Scarcello, F. (2001). Hypertree decompositions: A survey. International Symposium on Mathematical Foundations of Computer Science.
要約: 本論文で提案されたACONICフレームワークは、LLMタスク分解領域における重要な理論的進展を表している。形式的複雑度尺度と体系的分解戦略を導入することにより、複雑なLLMタスク解決のための新しい視点を提供する。適用範囲とモデリング複雑性の制限にもかかわらず、特定のタスクにおける著しいパフォーマンス向上と理論的貢献により、本研究は当該分野における重要な研究となっている。