2025-11-16T09:07:12.223206

Where to Search: Measure the Prior-Structured Search Space of LLM Agents

Song
The generate-filter-refine (iterative paradigm) based on large language models (LLMs) has achieved progress in reasoning, programming, and program discovery in AI+Science. However, the effectiveness of search depends on where to search, namely, how to encode the domain prior into an operationally structured hypothesis space. To this end, this paper proposes a compact formal theory that describes and measures LLM-assisted iterative search guided by domain priors. We represent an agent as a fuzzy relation operator on inputs and outputs to capture feasible transitions; the agent is thereby constrained by a fixed safety envelope. To describe multi-step reasoning/search, we weight all reachable paths by a single continuation parameter and sum them to obtain a coverage generating function; this induces a measure of reachability difficulty; and it provides a geometric interpretation of search on the graph induced by the safety envelope. We further provide the simplest testable inferences and validate them via a majority-vote instantiation. This theory offers a workable language and operational tools to measure agents and their search spaces, proposing a systematic formal description of iterative search constructed by LLMs.
academic

Dónde Buscar: Medir el Espacio de Búsqueda Estructurado por Priors de Agentes LLM

Información Básica

  • ID del Artículo: 2510.14846
  • Título: Where to Search: Measure the Prior-Structured Search Space of LLM Agents
  • Autor: Zhuo-Yang Song
  • Clasificación: cs.AI cs.CL cs.LO
  • Fecha de Publicación: 16 de octubre de 2025 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.14846

Resumen

El paradigma iterativo de generación-filtrado-refinamiento (generate-filter-refine) basado en modelos de lenguaje grandes (LLMs) ha logrado avances en razonamiento, programación y descubrimiento de programas en IA+ciencia. Sin embargo, la efectividad de la búsqueda depende de dónde buscar, es decir, cómo codificar los priors del dominio en un espacio de hipótesis estructurado y operacionalizable. Con este propósito, el artículo propone una teoría formalizada compacta para describir y medir la búsqueda iterativa asistida por LLM guiada por priors del dominio. Los autores representan agentes como operadores de relaciones difusas en entradas y salidas para capturar transformaciones viables; los agentes están así restringidos por una envoltura de seguridad fija. Para describir el razonamiento/búsqueda multietapa, los autores ponderan y suman todas las rutas alcanzables mediante un único parámetro de continuación, obteniendo una función generadora de cobertura; esto induce una métrica de dificultad de alcanzabilidad; y proporciona una interpretación geométrica de la búsqueda en gráficos inducidos por envolturas de seguridad.

Contexto de Investigación y Motivación

Problema Central

El problema central que aborda esta investigación es: ¿Cómo medir y describir sistemáticamente el espacio de búsqueda de agentes LLM?. Específicamente, en procesos de búsqueda iterativa basados en LLM, la eficiencia de búsqueda está fundamentalmente limitada por la pregunta "dónde buscar", es decir, cómo codificar los priors del dominio en un espacio operacionalizable para el agente.

Importancia del Problema

  1. Requisitos de Tareas de Largo Horizonte Temporal: Las tareas de largo horizonte temporal imponen mayores demandas de seguridad y controlabilidad, requiriendo operación dentro de límites verificables y controlables
  2. Desafíos de Complejidad: Los problemas de largo horizonte temporal frecuentemente implican explosión combinatoria y recompensas dispersas, siendo insuficientes las puntuaciones puramente heurísticas o binarias para cuantificar la dificultad de alcanzabilidad
  3. Ausencia de Teoría: La práctica actual depende principalmente de heurísticas de ingeniería (diseño de prompts, filtros, funciones de puntuación, etc.), careciendo de un lenguaje unificado y herramientas cuantitativas

Limitaciones de Métodos Existentes

  • Falta de lenguaje unificado para medir agentes-espacio-búsqueda
  • Dificultad para medir comparativamente el equilibrio entre alcanzabilidad y seguridad entre diferentes agentes
  • Ausencia de caracterización clara y explicación de características de comportamiento de largo horizonte temporal de agentes

Motivación de la Investigación

Establecer una teoría formalizada simple, computable y agnóstica respecto al modelo, que unifique mediciones de seguridad y alcanzabilidad, proporcionando predicciones verificables y principios de diseño útiles para ingeniería.

Contribuciones Principales

  1. Propone una teoría formalizada compacta: Formaliza agentes como operadores de relaciones difusas, describiendo unificadamente procesos de búsqueda iterativa mediante funciones generadoras de cobertura
  2. Establece un marco de medición unificado: Introduce parámetros de continuación e índices de cobertura, proporcionando métodos de cuantificación unificados para seguridad y alcanzabilidad
  3. Proporciona interpretación geométrica: Define cantidades geométricas en gráficos dirigidos inducidos por envolturas de seguridad, ofreciendo interpretación geométrica de procesos de búsqueda
  4. Verifica predicciones teóricas: Valida conclusiones verificables de la teoría mediante instanciación de votación por mayoría, proporcionando validación externa

Detalles del Método

Definición de Tareas

  • Espacio de Entrada: C1C_1 (espacio de entrada del agente)
  • Espacio de Salida: C2C_2 (espacio de salida del agente, satisfaciendo C2C1C_2 \subseteq C_1 para soportar iteración)
  • Objetivo: Medir y describir procesos de búsqueda iterativa bajo restricciones de seguridad

Marco Matemático Principal

1. Representación de Agentes

Agente Ideal definido como operador de relación difusa: T(f,g):=μf(g),μf:C2[0,1]T(f,g) := \mu_f(g), \quad \mu_f: C_2 \to [0,1]

Agente Ideal Frágil (envoltura de seguridad): μf(g){0,1},0T(f,g)T0(f,g)\mu_f(g) \in \{0,1\}, \quad 0 \leq T(f,g) \leq T_0(f,g)

2. Función Generadora de Cobertura

Introduciendo parámetro de continuación p[0,1]p \in [0,1], se define la función generadora de cobertura de ff a gg: Pf,g(p):=n=0ST:f(0)=f,f(n)=gpni=0n1μf(i)(f(i+1))P_{f,g}(p) := \sum_{n=0}^{\infty} \sum_{S_T: f^{(0)}=f, f^{(n)}=g} p^n \prod_{i=0}^{n-1} \mu_{f^{(i)}}(f^{(i+1)})

Cuando C1,C2C_1, C_2 son contables, puede expresarse en forma matricial: P(p)=n0pnMn=(IpM)1P(p) = \sum_{n \geq 0} p^n M^n = (I - pM)^{-1}

3. Cantidades Geométricas Clave

  • Distancia Mínima: d0(f,g):=inf{nN:Nn(f,g)1}d_0(f,g) := \inf\{n \in \mathbb{N}: N_n(f,g) \geq 1\}
  • Número de Caminos Mínimos: Nd0(f,g)N_{d_0}(f,g)
  • Parámetro Crítico: pc(f,g):=inf{p[0,1]:Pf,gideal(p)1}p_c(f,g) := \inf\{p \in [0,1]: P_{f,g}^{ideal}(p) \geq 1\}
  • Índice de Cobertura: Rc(f,g):=1pc(f,g)R_c(f,g) := 1 - p_c(f,g)

Puntos de Innovación Técnica

1. Lenguaje de Medición Unificado

Mediante operadores de relaciones difusas se unifican representaciones de agentes, permitiendo que seguridad y alcanzabilidad se midan con símbolos matemáticos y cantidades geométricas idénticas.

2. Mecanismo de Parámetro de Continuación

Introduciendo un único parámetro de continuación pp para ponderar longitudes de trayectoria, se evita la complejidad de interpretaciones probabilísticas, proporcionando métodos de medición computables.

3. Interpretación Geométrica

Definiendo geometría de búsqueda en gráficos dirigidos inducidos por envolturas de seguridad, se transforman procesos de búsqueda abstractos en problemas concretos de teoría de grafos.

4. Hipótesis Verificables

Se proponen dos hipótesis clave para agentes iterativos construidos para LLMs:

  • Hipótesis 1: Búsqueda aproximadamente unidireccional (rutas de ciclo cerrado escasas)
  • Hipótesis 2: Dominancia de términos de bajo orden (trayectorias excesivamente largas relativamente escasas)

Configuración Experimental

Entorno Experimental

  • Espacio de Búsqueda: Cuadrícula bidimensional GN:={0,,N1}2G_N := \{0,\ldots,N-1\}^2
  • Escala de Cuadrícula: N=3,5,8N = 3, 5, 8
  • Puntos Objetivo: (1,2),(3,4),(6,7)(1,2), (3,4), (6,7) respectivamente

Construcción de Agentes

  1. Conjunto de Modelos LLM: gpt-4-mini, gpt-4, qwen3, qwen-plus, gemini-2.5-flash, deepseek-v3, grok-4, doubao
  2. Mecanismo de Votación por Mayoría: Para cada posición ff se muestrean independientemente m=5m=5 veces, tomando la moda como decisión
  3. Agente Ideal: μf(t)(g):=1nLμf(L,t)(g)\mu_f^{(t)}(g) := \frac{1}{n}\sum_L \mu_f^{(L,t)}(g)
  4. Envoltura de Seguridad: μf0,(t)(g):=1{μf(t)(g)>0}\mu_f^{0,(t)}(g) := \mathbf{1}\{\mu_f^{(t)}(g) > 0\}

Métricas de Evaluación

  • Distancia mínima d0(f,t)d_0(f,t)
  • Número de caminos mínimos Nd0(f,t)N_{d_0}(f,t)
  • Verificación de desigualdad: logNd0(f,g)d0(f,g)\log N_{d_0}(f,g) \ll d_0(f,g)

Resultados Experimentales

Resultados Principales

1. Características de Estructura de Gráficos

Los experimentos muestran que la envoltura de seguridad inducida por LLM produce estructuras de alcanzabilidad unidireccionales y anisotrópicas en cuadrículas 2D, decreciendo estrictamente hacia la distancia de Manhattan del objetivo, consistente con la premisa de términos finitos de la Hipótesis 1.

2. Verificación de Relaciones Geométricas

La Figura 2 muestra relaciones (d0,Nd0)(d_0, N_{d_0}) bajo tres escalas de cuadrícula:

  • Los puntos de datos se encuentran por debajo del límite superior empírico predicho teóricamente
  • Cuando d0d_0 es mayor, la desigualdad logNd0d0\log N_{d_0} \ll d_0 se ajusta mejor
  • Apoya la ley empírica en el límite de pequeño RcR_c

3. Verificación de Hipótesis

  • Estructura de Gráfico Unidireccional: Los gráficos observados experimentalmente exhiben características unidireccionales, apoyando la Hipótesis 1
  • Conteo de Caminos Finito: El conteo finito de caminos es consistente con la configuración de la Hipótesis 2
  • Complejidad Dominante: Se verifica que la complejidad (distancia mínima) domina mientras la diversidad de caminos es limitada

Hallazgos Experimentales

  1. Comportamiento de Umbral: Bajo parámetros de continuación pequeños, la búsqueda está en estado de expansión insuficiente, con términos de camino mínimo dominando el comportamiento de Pf,g(p)P_{f,g}(p)
  2. Restricciones Geométricas: Las restricciones semánticas de LLM causan que el gráfico presente estructura unidireccional, limitando efectivamente el espacio de búsqueda
  3. Patrones de Alcanzabilidad: La relación (d0,Nd0)(d_0, N_{d_0}) observada es consistente con la tendencia de límite superior predicha teóricamente

Trabajo Relacionado

Direcciones Principales de Investigación

  1. Paradigmas de Razonamiento LLM: Métodos de razonamiento iterativo como ReAct, Tree of Thoughts, Chain-of-Thought
  2. Planificación y Uso de Herramientas: Marcos de agentes como Plan-and-Solve, Toolformer, Voyager
  3. Aplicaciones IA+Ciencia: Aplicaciones de LLM en búsqueda de programas, descubrimiento de algoritmos, computación científica

Ventajas de Este Artículo

  • Proporciona un marco teórico unificado, mientras que métodos existentes son principalmente heurísticos empíricos
  • Establece mecanismo medible de equilibrio seguridad-alcanzabilidad
  • Proporciona descripción formalizada agnóstica respecto al modelo

Conclusiones y Discusión

Conclusiones Principales

  1. Contribución Teórica: Establece una teoría formalizada compacta de búsqueda iterativa asistida por LLM
  2. Herramientas de Medición: Proporciona herramientas operacionales unificadas para medir seguridad y alcanzabilidad
  3. Perspectivas Geométricas: Revela estructura geométrica y mecanismos de restricción de procesos de búsqueda
  4. Verificación Empírica: Valida predicciones verificables de la teoría mediante instanciación de votación por mayoría

Limitaciones

  1. Escala Experimental: La verificación actual se limita a cuadrículas 2D pequeñas, requiriendo verificación en tareas más grandes y complejas
  2. Cobertura de Modelos: Aunque se utilizan múltiples LLMs, se requiere cobertura más amplia de modelos y tareas
  3. Completitud Teórica: Algunas predicciones teóricas (como estimación directa de RcR_c) aún no se verifican completamente en experimentos

Direcciones Futuras

  1. Verificación Experimental Detallada: Probar validez teórica en tareas más complejas
  2. Conexión con Aprendizaje Reforzado: Conectar métricas teóricas con recompensas de aprendizaje reforzado y procesos de entrenamiento
  3. Aplicaciones Prácticas: Aplicar herramientas de medición al diseño y entrenamiento de agentes en tareas complejas

Evaluación Profunda

Fortalezas

  1. Innovación Teórica Fuerte: Primera propuesta de teoría formalizada de medición de espacio de búsqueda de agentes LLM
  2. Marco Matemático Riguroso: Base matemática sólida basada en operadores de relaciones difusas y funciones generadoras
  3. Alto Valor Práctico: Proporciona herramientas de medición operacionales y principios de diseño orientadores
  4. Verificación Suficiente: Proporciona validación externa de la teoría mediante instanciación concreta

Insuficiencias

  1. Escala Experimental Limitada: Experimentos de verificación relativamente simples, careciendo de pruebas en tareas reales complejas
  2. Dependencia de Hipótesis: Las predicciones teóricas dependen del cumplimiento de hipótesis específicas (unidireccionalidad, dominancia de bajo orden)
  3. Complejidad Computacional: Para problemas a gran escala, el cálculo de funciones generadoras puede enfrentar desafíos de complejidad

Impacto

  1. Contribución Académica: Proporciona nueva base teórica y herramientas de análisis para investigación de agentes LLM
  2. Valor Práctico: Proporciona orientación cuantificada para diseño de agentes en tareas complejas
  3. Reproducibilidad: Proporciona configuración experimental detallada y código, con buena reproducibilidad

Escenarios Aplicables

  • Diseño de agentes LLM que requieren restricciones de seguridad
  • Análisis de rendimiento de tareas de razonamiento y planificación de largo horizonte temporal
  • Análisis estructural y optimización de espacios de búsqueda complejos
  • Comparación y evaluación de sistemas multiagente

Referencias

El artículo cita 32 referencias relacionadas, abarcando trabajos importantes en múltiples campos incluyendo razonamiento LLM, aprendizaje reforzado, optimización con restricciones, sistemas difusos, proporcionando base sólida para construcción teórica.