2025-11-16T09:07:12.223206

Where to Search: Measure the Prior-Structured Search Space of LLM Agents

Song
The generate-filter-refine (iterative paradigm) based on large language models (LLMs) has achieved progress in reasoning, programming, and program discovery in AI+Science. However, the effectiveness of search depends on where to search, namely, how to encode the domain prior into an operationally structured hypothesis space. To this end, this paper proposes a compact formal theory that describes and measures LLM-assisted iterative search guided by domain priors. We represent an agent as a fuzzy relation operator on inputs and outputs to capture feasible transitions; the agent is thereby constrained by a fixed safety envelope. To describe multi-step reasoning/search, we weight all reachable paths by a single continuation parameter and sum them to obtain a coverage generating function; this induces a measure of reachability difficulty; and it provides a geometric interpretation of search on the graph induced by the safety envelope. We further provide the simplest testable inferences and validate them via a majority-vote instantiation. This theory offers a workable language and operational tools to measure agents and their search spaces, proposing a systematic formal description of iterative search constructed by LLMs.
academic

Where to Search: Measure the Prior-Structured Search Space of LLM Agents

基本信息

  • 论文ID: 2510.14846
  • 标题: Where to Search: Measure the Prior-Structured Search Space of LLM Agents
  • 作者: Zhuo-Yang Song
  • 分类: cs.AI cs.CL cs.LO
  • 发表时间: 2025年10月16日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.14846

摘要

基于大型语言模型(LLMs)的生成-过滤-优化(generate-filter-refine)迭代范式在推理、编程和AI+科学的程序发现方面取得了进展。然而,搜索的有效性取决于在哪里搜索,即如何将领域先验编码到可操作的结构化假设空间中。为此,本文提出了一个紧凑的形式化理论,用以描述和测量由领域先验指导的LLM辅助迭代搜索。作者将智能体表示为输入和输出上的模糊关系算子来捕获可行转换;智能体因此被固定的安全包络约束。为了描述多步推理/搜索,作者通过单一延续参数对所有可达路径进行加权并求和,得到覆盖生成函数;这诱导了可达性难度的度量;并提供了对安全包络诱导图上搜索的几何解释。

研究背景与动机

核心问题

本研究要解决的核心问题是:如何系统性地测量和描述LLM智能体的搜索空间。具体来说,在基于LLM的迭代搜索过程中,搜索效率根本上受限于"在哪里搜索"这一问题,即如何将领域先验编码到智能体可操作的空间中。

问题重要性

  1. 长时域任务需求:长时域任务对安全性和可控性提出更高要求,需要在可验证和可控的边界内操作
  2. 复杂性挑战:长时域问题往往涉及组合爆炸和稀疏奖励,纯启发式或0/1评分不足以量化可达性难度
  3. 理论缺失:当前实践主要依赖工程启发式(提示设计、过滤器、评分函数等),缺乏统一的语言和定量工具

现有方法局限性

  • 缺乏统一的智能体-空间-搜索测量语言
  • 难以可比较地测量不同智能体间可达性与安全性的权衡
  • 缺乏对智能体长时域行为特征的清晰刻画和解释

研究动机

建立一个简洁、可计算、模型无关的形式化理论,统一安全性和可达性测量,提供可测试的预测和工程可用的设计原则。

核心贡献

  1. 提出了紧凑的形式化理论:将智能体形式化为模糊关系算子,通过覆盖生成函数统一描述迭代搜索过程
  2. 建立了统一的测量框架:引入延续参数和覆盖指数,提供安全性与可达性的统一量化方法
  3. 提供了几何解释:在安全包络诱导的有向图上定义几何量,给出搜索过程的几何解释
  4. 验证了理论预测:通过多数投票实例化验证了理论的可测试推论,提供了外部验证

方法详解

任务定义

  • 输入空间C1C_1 (智能体输入空间)
  • 输出空间C2C_2 (智能体输出空间,满足C2C1C_2 \subseteq C_1以支持迭代)
  • 目标:测量和描述在安全约束下的迭代搜索过程

核心数学框架

1. 智能体表示

理想智能体定义为模糊关系算子: T(f,g):=μf(g),μf:C2[0,1]T(f,g) := \mu_f(g), \quad \mu_f: C_2 \to [0,1]

脆性理想智能体(安全包络): μf(g){0,1},0T(f,g)T0(f,g)\mu_f(g) \in \{0,1\}, \quad 0 \leq T(f,g) \leq T_0(f,g)

2. 覆盖生成函数

引入延续参数p[0,1]p \in [0,1],定义从ffgg的覆盖生成函数: Pf,g(p):=n=0ST:f(0)=f,f(n)=gpni=0n1μf(i)(f(i+1))P_{f,g}(p) := \sum_{n=0}^{\infty} \sum_{S_T: f^{(0)}=f, f^{(n)}=g} p^n \prod_{i=0}^{n-1} \mu_{f^{(i)}}(f^{(i+1)})

C1,C2C_1, C_2可数时,可表示为矩阵形式: P(p)=n0pnMn=(IpM)1P(p) = \sum_{n \geq 0} p^n M^n = (I - pM)^{-1}

3. 关键几何量

  • 最短距离d0(f,g):=inf{nN:Nn(f,g)1}d_0(f,g) := \inf\{n \in \mathbb{N}: N_n(f,g) \geq 1\}
  • 最短路径数Nd0(f,g)N_{d_0}(f,g)
  • 临界参数pc(f,g):=inf{p[0,1]:Pf,gideal(p)1}p_c(f,g) := \inf\{p \in [0,1]: P_{f,g}^{ideal}(p) \geq 1\}
  • 覆盖指数Rc(f,g):=1pc(f,g)R_c(f,g) := 1 - p_c(f,g)

技术创新点

1. 统一的测量语言

通过模糊关系算子统一表示智能体,使得安全性和可达性可用相同的数学符号和几何量测量。

2. 延续参数机制

引入单一延续参数pp对轨迹长度进行加权,避免了概率解释的复杂性,提供了可计算的测量方法。

3. 几何解释

在安全包络诱导的有向图上定义搜索几何,将抽象的搜索过程转化为具体的图论问题。

4. 可测试假设

提出了针对LLM构造的迭代智能体的两个关键假设:

  • 假设1:近似单向搜索(闭环路径稀少)
  • 假设2:低阶项主导(过长轨迹相对稀少)

实验设置

实验环境

  • 搜索空间:二维网格GN:={0,,N1}2G_N := \{0,\ldots,N-1\}^2
  • 网格规模N=3,5,8N = 3, 5, 8
  • 目标点:分别为(1,2),(3,4),(6,7)(1,2), (3,4), (6,7)

智能体构造

  1. LLM模型集合:gpt-4-mini, gpt-4, qwen3, qwen-plus, gemini-2.5-flash, deepseek-v3, grok-4, doubao
  2. 多数投票机制:对每个位置ff独立采样m=5m=5次,取众数作为决策
  3. 理想智能体μf(t)(g):=1nLμf(L,t)(g)\mu_f^{(t)}(g) := \frac{1}{n}\sum_L \mu_f^{(L,t)}(g)
  4. 安全包络μf0,(t)(g):=1{μf(t)(g)>0}\mu_f^{0,(t)}(g) := \mathbf{1}\{\mu_f^{(t)}(g) > 0\}

评价指标

  • 最短距离d0(f,t)d_0(f,t)
  • 最短路径数Nd0(f,t)N_{d_0}(f,t)
  • 验证不等式:logNd0(f,g)d0(f,g)\log N_{d_0}(f,g) \ll d_0(f,g)

实验结果

主要结果

1. 图结构特征

实验显示LLM诱导的安全包络在2D网格上产生单向性和各向异性的可达结构,严格递减到目标的曼哈顿距离,与假设1的有限项前提一致。

2. 几何关系验证

图2显示了三种网格规模下(d0,Nd0)(d_0, N_{d_0})的关系:

  • 数据点位于理论预测的经验上界之下
  • d0d_0较大时,不等式logNd0d0\log N_{d_0} \ll d_0拟合更好
  • 支持小RcR_c极限下的经验规律

3. 假设验证

  • 单向图结构:实验观察到的图具有单向特征,支持假设1
  • 路径计数有限:有限的路径计数与假设2的设定一致
  • 复杂性主导:验证了复杂性(最短距离)主导而路径多样性有限的特征

实验发现

  1. 阈值行为:在小延续参数下,搜索处于不充分扩展状态,最短路径项主导Pf,g(p)P_{f,g}(p)的行为
  2. 几何约束:LLM的语义约束导致图呈现单向结构,有效限制了搜索空间
  3. 可达性模式:观察到的(d0,Nd0)(d_0, N_{d_0})关系符合理论预测的上界趋势

相关工作

主要研究方向

  1. LLM推理范式:ReAct、Tree of Thoughts、Chain-of-Thought等迭代推理方法
  2. 规划和工具使用:Plan-and-Solve、Toolformer、Voyager等智能体框架
  3. AI+科学应用:程序搜索、算法发现、科学计算等领域的LLM应用

本文优势

  • 提供了统一的理论框架,而现有方法多为经验性启发式
  • 建立了可测量的安全性-可达性权衡机制
  • 给出了模型无关的形式化描述

结论与讨论

主要结论

  1. 理论贡献:建立了LLM辅助迭代搜索的紧凑形式化理论
  2. 测量工具:提供了统一测量安全性和可达性的操作性工具
  3. 几何洞察:揭示了搜索过程的几何结构和约束机制
  4. 实证验证:通过多数投票实例化验证了理论的可测试预测

局限性

  1. 实验规模:当前验证仅限于小规模2D网格,需要更大规模和更复杂任务的验证
  2. 模型覆盖:虽然使用了多个LLM,但仍需要更广泛的模型和任务覆盖
  3. 理论完备性:某些理论预测(如RcR_c的直接估计)尚未在实验中完全验证

未来方向

  1. 详细实验验证:在更复杂任务上测试理论有效性
  2. 强化学习连接:将理论指标与强化学习奖励和训练过程连接
  3. 实际应用:将测量工具应用于复杂任务的智能体设计和训练

深度评价

优点

  1. 理论创新性强:首次提出LLM智能体搜索空间的形式化测量理论
  2. 数学框架严谨:基于模糊关系算子和生成函数的数学基础扎实
  3. 实用价值高:提供了可操作的测量工具和设计指导原则
  4. 验证充分:通过具体实例化提供了理论的外部验证

不足

  1. 实验规模有限:验证实验相对简单,缺乏复杂现实任务的测试
  2. 假设依赖性:理论预测依赖于特定假设(单向性、低阶主导)的成立
  3. 计算复杂性:对于大规模问题,生成函数的计算可能面临复杂性挑战

影响力

  1. 学术贡献:为LLM智能体研究提供了新的理论基础和分析工具
  2. 实用价值:为复杂任务的智能体设计提供了量化指导
  3. 可复现性:提供了详细的实验设置和代码,具有良好的可复现性

适用场景

  • 需要安全约束的LLM智能体设计
  • 长时域推理和规划任务的性能分析
  • 复杂搜索空间的结构化分析和优化
  • 多智能体系统的比较和评估

参考文献

论文引用了32篇相关文献,涵盖了LLM推理、强化学习、约束优化、模糊系统等多个领域的重要工作,为理论构建提供了坚实的基础。