2025-11-16T09:07:12.223206

Where to Search: Measure the Prior-Structured Search Space of LLM Agents

Song

The generate-filter-refine (iterative paradigm) based on large language models (LLMs) has achieved progress in reasoning, programming, and program discovery in AI+Science. However, the effectiveness of search depends on where to search, namely, how to encode the domain prior into an operationally structured hypothesis space. To this end, this paper proposes a compact formal theory that describes and measures LLM-assisted iterative search guided by domain priors. We represent an agent as a fuzzy relation operator on inputs and outputs to capture feasible transitions; the agent is thereby constrained by a fixed safety envelope. To describe multi-step reasoning/search, we weight all reachable paths by a single continuation parameter and sum them to obtain a coverage generating function; this induces a measure of reachability difficulty; and it provides a geometric interpretation of search on the graph induced by the safety envelope. We further provide the simplest testable inferences and validate them via a majority-vote instantiation. This theory offers a workable language and operational tools to measure agents and their search spaces, proposing a systematic formal description of iterative search constructed by LLMs.

academic

Где искать: Измерение структурированного поиском пространства приоров агентов LLM

Основная информация

ID статьи: 2510.14846
Название: Where to Search: Measure the Prior-Structured Search Space of LLM Agents
Автор: Zhuo-Yang Song
Классификация: cs.AI cs.CL cs.LO
Дата публикации: 16 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.14846

Аннотация

Итеративная парадигма генерирования-фильтрации-уточнения (generate-filter-refine), основанная на больших языковых моделях (LLM), достигла прогресса в рассуждении, программировании и обнаружении программ в AI+науке. Однако эффективность поиска зависит от того, где искать, то есть от того, как кодировать предметные приоры в операционализируемое структурированное пространство гипотез. В этой работе авторы предлагают компактную формальную теорию для описания и измерения итеративного поиска, вспомогательного для LLM и управляемого предметными приорами. Авторы представляют агентов как нечёткие операторы отношений на входах и выходах для захвата осуществимых преобразований; агенты, таким образом, ограничены фиксированной оболочкой безопасности. Для описания многошагового рассуждения/поиска авторы суммируют и взвешивают все достижимые пути по единственному параметру продолжения, получая производящую функцию покрытия; это индуцирует меру сложности достижимости и обеспечивает геометрическую интерпретацию поиска на графе, индуцированном оболочкой безопасности.

Исследовательский контекст и мотивация

Основная проблема

Основная проблема, которую решает данное исследование: как систематически измерять и описывать пространство поиска агентов LLM. Конкретно, в процессе итеративного поиска на основе LLM эффективность поиска фундаментально ограничена вопросом "где искать", то есть как кодировать предметные приоры в пространство, операционализируемое агентом.

Важность проблемы

Требования долгосрочных задач: Долгосрочные задачи предъявляют повышенные требования к безопасности и управляемости, требуя работы в проверяемых и контролируемых границах
Вызовы сложности: Долгосрочные проблемы часто включают комбинаторный взрыв и разреженные награды; чистые эвристики или оценки 0/1 недостаточны для количественной оценки сложности достижимости
Отсутствие теории: Текущая практика в основном опирается на инженерные эвристики (проектирование подсказок, фильтры, функции оценки и т.д.), но не имеет единого языка и количественных инструментов

Ограничения существующих методов

Отсутствие единого языка для измерения агента-пространства-поиска
Сложность сравнительного измерения компромисса между достижимостью и безопасностью различных агентов
Отсутствие четкой характеристики и объяснения долгосрочного поведения агентов

Исследовательская мотивация

Установить компактную, вычислимую, модель-независимую формальную теорию, которая объединяет измерения безопасности и достижимости, обеспечивает проверяемые предсказания и инженерно-полезные принципы проектирования.

Основные вклады

Предложена компактная формальная теория: Агенты формализованы как нечёткие операторы отношений, итеративный процесс поиска описан единообразно через производящую функцию покрытия
Установлена единая система измерения: Введены параметр продолжения и индекс покрытия, обеспечивающие единую количественную оценку безопасности и достижимости
Предоставлена геометрическая интерпретация: На ориентированном графе, индуцированном оболочкой безопасности, определены геометрические величины, дающие геометрическую интерпретацию процесса поиска
Проверены теоретические предсказания: Через инстанцирование голосованием большинства проверены проверяемые следствия теории, обеспечена внешняя валидация

Подробное описание методов

Определение задачи

Входное пространство: $C_1$ (входное пространство агента)
Выходное пространство: $C_2$ (выходное пространство агента, удовлетворяющее $C_2 \subseteq C_1$ для поддержки итерации)
Цель: Измерить и описать итеративный процесс поиска при ограничениях безопасности

Основная математическая структура

1. Представление агента

Идеальный агент определяется как нечёткий оператор отношения: $T(f,g) := \mu_f(g), \quad \mu_f: C_2 \to [0,1]$

Жёсткий идеальный агент (оболочка безопасности): $\mu_f(g) \in \{0,1\}, \quad 0 \leq T(f,g) \leq T_0(f,g)$

2. Производящая функция покрытия

Введён параметр продолжения $p \in [0,1]$ , определена производящая функция покрытия от $f$ к $g$ : $P_{f,g}(p) := \sum_{n=0}^{\infty} \sum_{S_T: f^{(0)}=f, f^{(n)}=g} p^n \prod_{i=0}^{n-1} \mu_{f^{(i)}}(f^{(i+1)})$

Когда $C_1, C_2$ счётны, может быть представлена в матричной форме: $P(p) = \sum_{n \geq 0} p^n M^n = (I - pM)^{-1}$

3. Ключевые геометрические величины

Кратчайшее расстояние: $d_0(f,g) := \inf\{n \in \mathbb{N}: N_n(f,g) \geq 1\}$
Количество кратчайших путей: $N_{d_0}(f,g)$
Критический параметр: $p_c(f,g) := \inf\{p \in [0,1]: P_{f,g}^{ideal}(p) \geq 1\}$
Индекс покрытия: $R_c(f,g) := 1 - p_c(f,g)$

Технические инновации

1. Единый язык измерения

Через нечёткие операторы отношений единообразно представлены агенты, позволяя измерять безопасность и достижимость одинаковыми математическими символами и геометрическими величинами.

2. Механизм параметра продолжения

Введён единственный параметр продолжения $p$ для взвешивания длины траектории, избегая сложности вероятностной интерпретации, обеспечивая вычислимый метод измерения.

3. Геометрическая интерпретация

На ориентированном графе, индуцированном оболочкой безопасности, определена геометрия поиска, преобразуя абстрактный процесс поиска в конкретную задачу теории графов.

4. Проверяемые гипотезы

Предложены две ключевые гипотезы для итеративных агентов, построенных на LLM:

Гипотеза 1: Приблизительно однонаправленный поиск (замкнутые пути редки)
Гипотеза 2: Низкие порядки доминируют (очень длинные траектории относительно редки)

Экспериментальная установка

Экспериментальная среда

Пространство поиска: Двумерная сетка $G_N := \{0,\ldots,N-1\}^2$
Размеры сетки: $N = 3, 5, 8$
Целевые точки: Соответственно $(1,2), (3,4), (6,7)$

Конструкция агента

Набор моделей LLM: gpt-4-mini, gpt-4, qwen3, qwen-plus, gemini-2.5-flash, deepseek-v3, grok-4, doubao
Механизм голосования большинством: Для каждой позиции $f$ независимо выполнено $m=5$ выборок, мода принята как решение
Идеальный агент: $\mu_f^{(t)}(g) := \frac{1}{n}\sum_L \mu_f^{(L,t)}(g)$
Оболочка безопасности: $\mu_f^{0,(t)}(g) := \mathbf{1}\{\mu_f^{(t)}(g) > 0\}$

Метрики оценки

Кратчайшее расстояние $d_0(f,t)$
Количество кратчайших путей $N_{d_0}(f,t)$
Проверка неравенства: $\log N_{d_0}(f,g) \ll d_0(f,g)$

Экспериментальные результаты

Основные результаты

1. Характеристики структуры графа

Эксперименты показывают, что оболочка безопасности, индуцированная LLM, на двумерной сетке производит однонаправленность и анизотропию достижимой структуры, строго убывающую к манхэттенскому расстоянию до цели, что соответствует предпосылке конечных членов гипотезы 1.

2. Проверка геометрических отношений

График 2 показывает отношение $(d_0, N_{d_0})$ при трёх размерах сетки:

Точки данных лежат ниже эмпирической верхней границы теоретического предсказания
Когда $d_0$ больше, неравенство $\log N_{d_0} \ll d_0$ лучше подходит
Поддерживает эмпирический закон в пределе малого $R_c$

3. Проверка гипотез

Однонаправленная структура графа: Наблюдаемый граф имеет однонаправленные характеристики, поддерживая гипотезу 1
Конечный подсчёт путей: Конечный подсчёт путей соответствует установке гипотезы 2
Доминирование сложности: Проверено, что сложность (кратчайшее расстояние) доминирует, а разнообразие путей ограничено

Экспериментальные находки

Пороговое поведение: При малых параметрах продолжения поиск находится в состоянии недостаточного расширения, члены кратчайшего пути доминируют поведение $P_{f,g}(p)$
Геометрические ограничения: Семантические ограничения LLM приводят к однонаправленной структуре графа, эффективно ограничивая пространство поиска
Модели достижимости: Наблюдаемое отношение $(d_0, N_{d_0})$ соответствует тенденции верхней границы, предсказанной теорией

Связанные работы

Основные направления исследований

Парадигмы рассуждения LLM: ReAct, Tree of Thoughts, Chain-of-Thought и другие методы итеративного рассуждения
Планирование и использование инструментов: Plan-and-Solve, Toolformer, Voyager и другие структуры агентов
Приложения AI+наука: Поиск программ, обнаружение алгоритмов, научные вычисления и другие области применения LLM

Преимущества данной работы

Предоставляет единую теоретическую структуру, тогда как существующие методы в основном являются эмпирическими эвристиками
Устанавливает измеримый механизм компромисса между безопасностью и достижимостью
Даёт модель-независимое формальное описание

Выводы и обсуждение

Основные выводы

Теоретический вклад: Установлена компактная формальная теория итеративного поиска, вспомогательного для LLM
Инструменты измерения: Предоставлены операционные инструменты для единого измерения безопасности и достижимости
Геометрические инсайты: Раскрыта геометрическая структура и механизмы ограничений процесса поиска
Эмпирическая валидация: Через инстанцирование голосованием большинством проверены проверяемые предсказания теории

Ограничения

Масштаб экспериментов: Текущая валидация ограничена небольшими двумерными сетками, требуется валидация на более крупных масштабах и сложных задачах
Охват моделей: Хотя использовано несколько LLM, требуется более широкое охватывание моделей и задач
Полнота теории: Некоторые теоретические предсказания (такие как прямая оценка $R_c$ ) ещё полностью не проверены в экспериментах

Будущие направления

Детальная экспериментальная валидация: Тестирование теоретической эффективности на более сложных задачах
Связь с обучением с подкреплением: Связывание теоретических метрик с наградами и процессами обучения в обучении с подкреплением
Практические приложения: Применение инструментов измерения к проектированию и обучению агентов для сложных задач

Глубокая оценка

Достоинства

Сильная теоретическая новизна: Впервые предложена формальная теория измерения пространства поиска агентов LLM
Строгая математическая структура: Математическая основа, основанная на нечётких операторах отношений и производящих функциях, прочна
Высокая практическая ценность: Предоставлены операционные инструменты измерения и принципы проектирования
Достаточная валидация: Через конкретное инстанцирование обеспечена внешняя валидация теории

Недостатки

Ограниченный масштаб экспериментов: Валидационные эксперименты относительно просты, отсутствует тестирование на сложных реальных задачах
Зависимость от гипотез: Теоретические предсказания зависят от выполнения конкретных гипотез (однонаправленность, доминирование низких порядков)
Вычислительная сложность: Для крупномасштабных проблем вычисление производящей функции может столкнуться с проблемами сложности

Влияние

Академический вклад: Предоставляет новую теоретическую основу и инструменты анализа для исследований агентов LLM
Практическая ценность: Обеспечивает количественное руководство для проектирования агентов для сложных задач
Воспроизводимость: Предоставляет детальные экспериментальные установки и код, обладает хорошей воспроизводимостью

Применимые сценарии

Проектирование агентов LLM, требующих ограничений безопасности
Анализ производительности долгосрочных задач рассуждения и планирования
Структурированный анализ и оптимизация сложных пространств поиска
Сравнение и оценка многоагентных систем

Библиография

Статья цитирует 32 связанные работы, охватывающие важные работы в нескольких областях, включая рассуждение LLM, обучение с подкреплением, оптимизацию с ограничениями, нечёткие системы и т.д., обеспечивая прочную основу для построения теории.