The generate-filter-refine (iterative paradigm) based on large language models (LLMs) has achieved progress in reasoning, programming, and program discovery in AI+Science. However, the effectiveness of search depends on where to search, namely, how to encode the domain prior into an operationally structured hypothesis space. To this end, this paper proposes a compact formal theory that describes and measures LLM-assisted iterative search guided by domain priors. We represent an agent as a fuzzy relation operator on inputs and outputs to capture feasible transitions; the agent is thereby constrained by a fixed safety envelope. To describe multi-step reasoning/search, we weight all reachable paths by a single continuation parameter and sum them to obtain a coverage generating function; this induces a measure of reachability difficulty; and it provides a geometric interpretation of search on the graph induced by the safety envelope. We further provide the simplest testable inferences and validate them via a majority-vote instantiation. This theory offers a workable language and operational tools to measure agents and their search spaces, proposing a systematic formal description of iterative search constructed by LLMs.
- 论文ID: 2510.14846
- 标题: Where to Search: Measure the Prior-Structured Search Space of LLM Agents
- 作者: Zhuo-Yang Song
- 分类: cs.AI cs.CL cs.LO
- 发表时间: 2025年10月16日 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2510.14846
基于大型语言模型(LLMs)的生成-过滤-优化(generate-filter-refine)迭代范式在推理、编程和AI+科学的程序发现方面取得了进展。然而,搜索的有效性取决于在哪里搜索,即如何将领域先验编码到可操作的结构化假设空间中。为此,本文提出了一个紧凑的形式化理论,用以描述和测量由领域先验指导的LLM辅助迭代搜索。作者将智能体表示为输入和输出上的模糊关系算子来捕获可行转换;智能体因此被固定的安全包络约束。为了描述多步推理/搜索,作者通过单一延续参数对所有可达路径进行加权并求和,得到覆盖生成函数;这诱导了可达性难度的度量;并提供了对安全包络诱导图上搜索的几何解释。
本研究要解决的核心问题是:如何系统性地测量和描述LLM智能体的搜索空间。具体来说,在基于LLM的迭代搜索过程中,搜索效率根本上受限于"在哪里搜索"这一问题,即如何将领域先验编码到智能体可操作的空间中。
- 长时域任务需求:长时域任务对安全性和可控性提出更高要求,需要在可验证和可控的边界内操作
- 复杂性挑战:长时域问题往往涉及组合爆炸和稀疏奖励,纯启发式或0/1评分不足以量化可达性难度
- 理论缺失:当前实践主要依赖工程启发式(提示设计、过滤器、评分函数等),缺乏统一的语言和定量工具
- 缺乏统一的智能体-空间-搜索测量语言
- 难以可比较地测量不同智能体间可达性与安全性的权衡
- 缺乏对智能体长时域行为特征的清晰刻画和解释
建立一个简洁、可计算、模型无关的形式化理论,统一安全性和可达性测量,提供可测试的预测和工程可用的设计原则。
- 提出了紧凑的形式化理论:将智能体形式化为模糊关系算子,通过覆盖生成函数统一描述迭代搜索过程
- 建立了统一的测量框架:引入延续参数和覆盖指数,提供安全性与可达性的统一量化方法
- 提供了几何解释:在安全包络诱导的有向图上定义几何量,给出搜索过程的几何解释
- 验证了理论预测:通过多数投票实例化验证了理论的可测试推论,提供了外部验证
- 输入空间:C1 (智能体输入空间)
- 输出空间:C2 (智能体输出空间,满足C2⊆C1以支持迭代)
- 目标:测量和描述在安全约束下的迭代搜索过程
理想智能体定义为模糊关系算子:
T(f,g):=μf(g),μf:C2→[0,1]
脆性理想智能体(安全包络):
μf(g)∈{0,1},0≤T(f,g)≤T0(f,g)
引入延续参数p∈[0,1],定义从f到g的覆盖生成函数:
Pf,g(p):=∑n=0∞∑ST:f(0)=f,f(n)=gpn∏i=0n−1μf(i)(f(i+1))
当C1,C2可数时,可表示为矩阵形式:
P(p)=∑n≥0pnMn=(I−pM)−1
- 最短距离:d0(f,g):=inf{n∈N:Nn(f,g)≥1}
- 最短路径数:Nd0(f,g)
- 临界参数:pc(f,g):=inf{p∈[0,1]:Pf,gideal(p)≥1}
- 覆盖指数:Rc(f,g):=1−pc(f,g)
通过模糊关系算子统一表示智能体,使得安全性和可达性可用相同的数学符号和几何量测量。
引入单一延续参数p对轨迹长度进行加权,避免了概率解释的复杂性,提供了可计算的测量方法。
在安全包络诱导的有向图上定义搜索几何,将抽象的搜索过程转化为具体的图论问题。
提出了针对LLM构造的迭代智能体的两个关键假设:
- 假设1:近似单向搜索(闭环路径稀少)
- 假设2:低阶项主导(过长轨迹相对稀少)
- 搜索空间:二维网格GN:={0,…,N−1}2
- 网格规模:N=3,5,8
- 目标点:分别为(1,2),(3,4),(6,7)
- LLM模型集合:gpt-4-mini, gpt-4, qwen3, qwen-plus, gemini-2.5-flash, deepseek-v3, grok-4, doubao
- 多数投票机制:对每个位置f独立采样m=5次,取众数作为决策
- 理想智能体:μf(t)(g):=n1∑Lμf(L,t)(g)
- 安全包络:μf0,(t)(g):=1{μf(t)(g)>0}
- 最短距离d0(f,t)
- 最短路径数Nd0(f,t)
- 验证不等式:logNd0(f,g)≪d0(f,g)
实验显示LLM诱导的安全包络在2D网格上产生单向性和各向异性的可达结构,严格递减到目标的曼哈顿距离,与假设1的有限项前提一致。
图2显示了三种网格规模下(d0,Nd0)的关系:
- 数据点位于理论预测的经验上界之下
- 当d0较大时,不等式logNd0≪d0拟合更好
- 支持小Rc极限下的经验规律
- 单向图结构:实验观察到的图具有单向特征,支持假设1
- 路径计数有限:有限的路径计数与假设2的设定一致
- 复杂性主导:验证了复杂性(最短距离)主导而路径多样性有限的特征
- 阈值行为:在小延续参数下,搜索处于不充分扩展状态,最短路径项主导Pf,g(p)的行为
- 几何约束:LLM的语义约束导致图呈现单向结构,有效限制了搜索空间
- 可达性模式:观察到的(d0,Nd0)关系符合理论预测的上界趋势
- LLM推理范式:ReAct、Tree of Thoughts、Chain-of-Thought等迭代推理方法
- 规划和工具使用:Plan-and-Solve、Toolformer、Voyager等智能体框架
- AI+科学应用:程序搜索、算法发现、科学计算等领域的LLM应用
- 提供了统一的理论框架,而现有方法多为经验性启发式
- 建立了可测量的安全性-可达性权衡机制
- 给出了模型无关的形式化描述
- 理论贡献:建立了LLM辅助迭代搜索的紧凑形式化理论
- 测量工具:提供了统一测量安全性和可达性的操作性工具
- 几何洞察:揭示了搜索过程的几何结构和约束机制
- 实证验证:通过多数投票实例化验证了理论的可测试预测
- 实验规模:当前验证仅限于小规模2D网格,需要更大规模和更复杂任务的验证
- 模型覆盖:虽然使用了多个LLM,但仍需要更广泛的模型和任务覆盖
- 理论完备性:某些理论预测(如Rc的直接估计)尚未在实验中完全验证
- 详细实验验证:在更复杂任务上测试理论有效性
- 强化学习连接:将理论指标与强化学习奖励和训练过程连接
- 实际应用:将测量工具应用于复杂任务的智能体设计和训练
- 理论创新性强:首次提出LLM智能体搜索空间的形式化测量理论
- 数学框架严谨:基于模糊关系算子和生成函数的数学基础扎实
- 实用价值高:提供了可操作的测量工具和设计指导原则
- 验证充分:通过具体实例化提供了理论的外部验证
- 实验规模有限:验证实验相对简单,缺乏复杂现实任务的测试
- 假设依赖性:理论预测依赖于特定假设(单向性、低阶主导)的成立
- 计算复杂性:对于大规模问题,生成函数的计算可能面临复杂性挑战
- 学术贡献:为LLM智能体研究提供了新的理论基础和分析工具
- 实用价值:为复杂任务的智能体设计提供了量化指导
- 可复现性:提供了详细的实验设置和代码,具有良好的可复现性
- 需要安全约束的LLM智能体设计
- 长时域推理和规划任务的性能分析
- 复杂搜索空间的结构化分析和优化
- 多智能体系统的比较和评估
论文引用了32篇相关文献,涵盖了LLM推理、强化学习、约束优化、模糊系统等多个领域的重要工作,为理论构建提供了坚实的基础。