2025-11-16T09:07:12.223206

Where to Search: Measure the Prior-Structured Search Space of LLM Agents

Song

The generate-filter-refine (iterative paradigm) based on large language models (LLMs) has achieved progress in reasoning, programming, and program discovery in AI+Science. However, the effectiveness of search depends on where to search, namely, how to encode the domain prior into an operationally structured hypothesis space. To this end, this paper proposes a compact formal theory that describes and measures LLM-assisted iterative search guided by domain priors. We represent an agent as a fuzzy relation operator on inputs and outputs to capture feasible transitions; the agent is thereby constrained by a fixed safety envelope. To describe multi-step reasoning/search, we weight all reachable paths by a single continuation parameter and sum them to obtain a coverage generating function; this induces a measure of reachability difficulty; and it provides a geometric interpretation of search on the graph induced by the safety envelope. We further provide the simplest testable inferences and validate them via a majority-vote instantiation. This theory offers a workable language and operational tools to measure agents and their search spaces, proposing a systematic formal description of iterative search constructed by LLMs.

academic

Dónde Buscar: Medir el Espacio de Búsqueda Estructurado por Priors de Agentes LLM

Información Básica

ID del Artículo: 2510.14846
Título: Where to Search: Measure the Prior-Structured Search Space of LLM Agents
Autor: Zhuo-Yang Song
Clasificación: cs.AI cs.CL cs.LO
Fecha de Publicación: 16 de octubre de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.14846

Resumen

El paradigma iterativo de generación-filtrado-refinamiento (generate-filter-refine) basado en modelos de lenguaje grandes (LLMs) ha logrado avances en razonamiento, programación y descubrimiento de programas en IA+ciencia. Sin embargo, la efectividad de la búsqueda depende de dónde buscar, es decir, cómo codificar los priors del dominio en un espacio de hipótesis estructurado y operacionalizable. Con este propósito, el artículo propone una teoría formalizada compacta para describir y medir la búsqueda iterativa asistida por LLM guiada por priors del dominio. Los autores representan agentes como operadores de relaciones difusas en entradas y salidas para capturar transformaciones viables; los agentes están así restringidos por una envoltura de seguridad fija. Para describir el razonamiento/búsqueda multietapa, los autores ponderan y suman todas las rutas alcanzables mediante un único parámetro de continuación, obteniendo una función generadora de cobertura; esto induce una métrica de dificultad de alcanzabilidad; y proporciona una interpretación geométrica de la búsqueda en gráficos inducidos por envolturas de seguridad.

Contexto de Investigación y Motivación

Problema Central

El problema central que aborda esta investigación es: ¿Cómo medir y describir sistemáticamente el espacio de búsqueda de agentes LLM?. Específicamente, en procesos de búsqueda iterativa basados en LLM, la eficiencia de búsqueda está fundamentalmente limitada por la pregunta "dónde buscar", es decir, cómo codificar los priors del dominio en un espacio operacionalizable para el agente.

Importancia del Problema

Requisitos de Tareas de Largo Horizonte Temporal: Las tareas de largo horizonte temporal imponen mayores demandas de seguridad y controlabilidad, requiriendo operación dentro de límites verificables y controlables
Desafíos de Complejidad: Los problemas de largo horizonte temporal frecuentemente implican explosión combinatoria y recompensas dispersas, siendo insuficientes las puntuaciones puramente heurísticas o binarias para cuantificar la dificultad de alcanzabilidad
Ausencia de Teoría: La práctica actual depende principalmente de heurísticas de ingeniería (diseño de prompts, filtros, funciones de puntuación, etc.), careciendo de un lenguaje unificado y herramientas cuantitativas

Limitaciones de Métodos Existentes

Falta de lenguaje unificado para medir agentes-espacio-búsqueda
Dificultad para medir comparativamente el equilibrio entre alcanzabilidad y seguridad entre diferentes agentes
Ausencia de caracterización clara y explicación de características de comportamiento de largo horizonte temporal de agentes

Motivación de la Investigación

Establecer una teoría formalizada simple, computable y agnóstica respecto al modelo, que unifique mediciones de seguridad y alcanzabilidad, proporcionando predicciones verificables y principios de diseño útiles para ingeniería.

Contribuciones Principales

Propone una teoría formalizada compacta: Formaliza agentes como operadores de relaciones difusas, describiendo unificadamente procesos de búsqueda iterativa mediante funciones generadoras de cobertura
Establece un marco de medición unificado: Introduce parámetros de continuación e índices de cobertura, proporcionando métodos de cuantificación unificados para seguridad y alcanzabilidad
Proporciona interpretación geométrica: Define cantidades geométricas en gráficos dirigidos inducidos por envolturas de seguridad, ofreciendo interpretación geométrica de procesos de búsqueda
Verifica predicciones teóricas: Valida conclusiones verificables de la teoría mediante instanciación de votación por mayoría, proporcionando validación externa

Detalles del Método

Definición de Tareas

Espacio de Entrada: $C_1$ (espacio de entrada del agente)
Espacio de Salida: $C_2$ (espacio de salida del agente, satisfaciendo $C_2 \subseteq C_1$ para soportar iteración)
Objetivo: Medir y describir procesos de búsqueda iterativa bajo restricciones de seguridad

Marco Matemático Principal

1. Representación de Agentes

Agente Ideal definido como operador de relación difusa: $T(f,g) := \mu_f(g), \quad \mu_f: C_2 \to [0,1]$

Agente Ideal Frágil (envoltura de seguridad): $\mu_f(g) \in \{0,1\}, \quad 0 \leq T(f,g) \leq T_0(f,g)$

2. Función Generadora de Cobertura

Introduciendo parámetro de continuación $p \in [0,1]$ , se define la función generadora de cobertura de $f$ a $g$ : $P_{f,g}(p) := \sum_{n=0}^{\infty} \sum_{S_T: f^{(0)}=f, f^{(n)}=g} p^n \prod_{i=0}^{n-1} \mu_{f^{(i)}}(f^{(i+1)})$

Cuando $C_1, C_2$ son contables, puede expresarse en forma matricial: $P(p) = \sum_{n \geq 0} p^n M^n = (I - pM)^{-1}$

3. Cantidades Geométricas Clave

Distancia Mínima: $d_0(f,g) := \inf\{n \in \mathbb{N}: N_n(f,g) \geq 1\}$
Número de Caminos Mínimos: $N_{d_0}(f,g)$
Parámetro Crítico: $p_c(f,g) := \inf\{p \in [0,1]: P_{f,g}^{ideal}(p) \geq 1\}$
Índice de Cobertura: $R_c(f,g) := 1 - p_c(f,g)$

Puntos de Innovación Técnica

1. Lenguaje de Medición Unificado

Mediante operadores de relaciones difusas se unifican representaciones de agentes, permitiendo que seguridad y alcanzabilidad se midan con símbolos matemáticos y cantidades geométricas idénticas.

2. Mecanismo de Parámetro de Continuación

Introduciendo un único parámetro de continuación $p$ para ponderar longitudes de trayectoria, se evita la complejidad de interpretaciones probabilísticas, proporcionando métodos de medición computables.

3. Interpretación Geométrica

Definiendo geometría de búsqueda en gráficos dirigidos inducidos por envolturas de seguridad, se transforman procesos de búsqueda abstractos en problemas concretos de teoría de grafos.

4. Hipótesis Verificables

Se proponen dos hipótesis clave para agentes iterativos construidos para LLMs:

Hipótesis 1: Búsqueda aproximadamente unidireccional (rutas de ciclo cerrado escasas)
Hipótesis 2: Dominancia de términos de bajo orden (trayectorias excesivamente largas relativamente escasas)

Configuración Experimental

Entorno Experimental

Espacio de Búsqueda: Cuadrícula bidimensional $G_N := \{0,\ldots,N-1\}^2$
Escala de Cuadrícula: $N = 3, 5, 8$
Puntos Objetivo: $(1,2), (3,4), (6,7)$ respectivamente

Construcción de Agentes

Conjunto de Modelos LLM: gpt-4-mini, gpt-4, qwen3, qwen-plus, gemini-2.5-flash, deepseek-v3, grok-4, doubao
Mecanismo de Votación por Mayoría: Para cada posición $f$ se muestrean independientemente $m=5$ veces, tomando la moda como decisión
Agente Ideal: $\mu_f^{(t)}(g) := \frac{1}{n}\sum_L \mu_f^{(L,t)}(g)$
Envoltura de Seguridad: $\mu_f^{0,(t)}(g) := \mathbf{1}\{\mu_f^{(t)}(g) > 0\}$

Métricas de Evaluación

Distancia mínima $d_0(f,t)$
Número de caminos mínimos $N_{d_0}(f,t)$
Verificación de desigualdad: $\log N_{d_0}(f,g) \ll d_0(f,g)$

Resultados Experimentales

Resultados Principales

1. Características de Estructura de Gráficos

Los experimentos muestran que la envoltura de seguridad inducida por LLM produce estructuras de alcanzabilidad unidireccionales y anisotrópicas en cuadrículas 2D, decreciendo estrictamente hacia la distancia de Manhattan del objetivo, consistente con la premisa de términos finitos de la Hipótesis 1.

2. Verificación de Relaciones Geométricas

La Figura 2 muestra relaciones $(d_0, N_{d_0})$ bajo tres escalas de cuadrícula:

Los puntos de datos se encuentran por debajo del límite superior empírico predicho teóricamente
Cuando $d_0$ es mayor, la desigualdad $\log N_{d_0} \ll d_0$ se ajusta mejor
Apoya la ley empírica en el límite de pequeño $R_c$

3. Verificación de Hipótesis

Estructura de Gráfico Unidireccional: Los gráficos observados experimentalmente exhiben características unidireccionales, apoyando la Hipótesis 1
Conteo de Caminos Finito: El conteo finito de caminos es consistente con la configuración de la Hipótesis 2
Complejidad Dominante: Se verifica que la complejidad (distancia mínima) domina mientras la diversidad de caminos es limitada

Hallazgos Experimentales

Comportamiento de Umbral: Bajo parámetros de continuación pequeños, la búsqueda está en estado de expansión insuficiente, con términos de camino mínimo dominando el comportamiento de $P_{f,g}(p)$
Restricciones Geométricas: Las restricciones semánticas de LLM causan que el gráfico presente estructura unidireccional, limitando efectivamente el espacio de búsqueda
Patrones de Alcanzabilidad: La relación $(d_0, N_{d_0})$ observada es consistente con la tendencia de límite superior predicha teóricamente

Trabajo Relacionado

Direcciones Principales de Investigación

Paradigmas de Razonamiento LLM: Métodos de razonamiento iterativo como ReAct, Tree of Thoughts, Chain-of-Thought
Planificación y Uso de Herramientas: Marcos de agentes como Plan-and-Solve, Toolformer, Voyager
Aplicaciones IA+Ciencia: Aplicaciones de LLM en búsqueda de programas, descubrimiento de algoritmos, computación científica

Ventajas de Este Artículo

Proporciona un marco teórico unificado, mientras que métodos existentes son principalmente heurísticos empíricos
Establece mecanismo medible de equilibrio seguridad-alcanzabilidad
Proporciona descripción formalizada agnóstica respecto al modelo

Conclusiones y Discusión

Conclusiones Principales

Contribución Teórica: Establece una teoría formalizada compacta de búsqueda iterativa asistida por LLM
Herramientas de Medición: Proporciona herramientas operacionales unificadas para medir seguridad y alcanzabilidad
Perspectivas Geométricas: Revela estructura geométrica y mecanismos de restricción de procesos de búsqueda
Verificación Empírica: Valida predicciones verificables de la teoría mediante instanciación de votación por mayoría

Limitaciones

Escala Experimental: La verificación actual se limita a cuadrículas 2D pequeñas, requiriendo verificación en tareas más grandes y complejas
Cobertura de Modelos: Aunque se utilizan múltiples LLMs, se requiere cobertura más amplia de modelos y tareas
Completitud Teórica: Algunas predicciones teóricas (como estimación directa de $R_c$ ) aún no se verifican completamente en experimentos

Direcciones Futuras

Verificación Experimental Detallada: Probar validez teórica en tareas más complejas
Conexión con Aprendizaje Reforzado: Conectar métricas teóricas con recompensas de aprendizaje reforzado y procesos de entrenamiento
Aplicaciones Prácticas: Aplicar herramientas de medición al diseño y entrenamiento de agentes en tareas complejas

Evaluación Profunda

Fortalezas

Innovación Teórica Fuerte: Primera propuesta de teoría formalizada de medición de espacio de búsqueda de agentes LLM
Marco Matemático Riguroso: Base matemática sólida basada en operadores de relaciones difusas y funciones generadoras
Alto Valor Práctico: Proporciona herramientas de medición operacionales y principios de diseño orientadores
Verificación Suficiente: Proporciona validación externa de la teoría mediante instanciación concreta

Insuficiencias

Escala Experimental Limitada: Experimentos de verificación relativamente simples, careciendo de pruebas en tareas reales complejas
Dependencia de Hipótesis: Las predicciones teóricas dependen del cumplimiento de hipótesis específicas (unidireccionalidad, dominancia de bajo orden)
Complejidad Computacional: Para problemas a gran escala, el cálculo de funciones generadoras puede enfrentar desafíos de complejidad

Impacto

Contribución Académica: Proporciona nueva base teórica y herramientas de análisis para investigación de agentes LLM
Valor Práctico: Proporciona orientación cuantificada para diseño de agentes en tareas complejas
Reproducibilidad: Proporciona configuración experimental detallada y código, con buena reproducibilidad

Escenarios Aplicables

Diseño de agentes LLM que requieren restricciones de seguridad
Análisis de rendimiento de tareas de razonamiento y planificación de largo horizonte temporal
Análisis estructural y optimización de espacios de búsqueda complejos
Comparación y evaluación de sistemas multiagente

Referencias

El artículo cita 32 referencias relacionadas, abarcando trabajos importantes en múltiples campos incluyendo razonamiento LLM, aprendizaje reforzado, optimización con restricciones, sistemas difusos, proporcionando base sólida para construcción teórica.