2025-11-16T09:07:12.223206

Where to Search: Measure the Prior-Structured Search Space of LLM Agents

Song
The generate-filter-refine (iterative paradigm) based on large language models (LLMs) has achieved progress in reasoning, programming, and program discovery in AI+Science. However, the effectiveness of search depends on where to search, namely, how to encode the domain prior into an operationally structured hypothesis space. To this end, this paper proposes a compact formal theory that describes and measures LLM-assisted iterative search guided by domain priors. We represent an agent as a fuzzy relation operator on inputs and outputs to capture feasible transitions; the agent is thereby constrained by a fixed safety envelope. To describe multi-step reasoning/search, we weight all reachable paths by a single continuation parameter and sum them to obtain a coverage generating function; this induces a measure of reachability difficulty; and it provides a geometric interpretation of search on the graph induced by the safety envelope. We further provide the simplest testable inferences and validate them via a majority-vote instantiation. This theory offers a workable language and operational tools to measure agents and their search spaces, proposing a systematic formal description of iterative search constructed by LLMs.
academic

Где искать: Измерение структурированного поиском пространства приоров агентов LLM

Основная информация

  • ID статьи: 2510.14846
  • Название: Where to Search: Measure the Prior-Structured Search Space of LLM Agents
  • Автор: Zhuo-Yang Song
  • Классификация: cs.AI cs.CL cs.LO
  • Дата публикации: 16 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.14846

Аннотация

Итеративная парадигма генерирования-фильтрации-уточнения (generate-filter-refine), основанная на больших языковых моделях (LLM), достигла прогресса в рассуждении, программировании и обнаружении программ в AI+науке. Однако эффективность поиска зависит от того, где искать, то есть от того, как кодировать предметные приоры в операционализируемое структурированное пространство гипотез. В этой работе авторы предлагают компактную формальную теорию для описания и измерения итеративного поиска, вспомогательного для LLM и управляемого предметными приорами. Авторы представляют агентов как нечёткие операторы отношений на входах и выходах для захвата осуществимых преобразований; агенты, таким образом, ограничены фиксированной оболочкой безопасности. Для описания многошагового рассуждения/поиска авторы суммируют и взвешивают все достижимые пути по единственному параметру продолжения, получая производящую функцию покрытия; это индуцирует меру сложности достижимости и обеспечивает геометрическую интерпретацию поиска на графе, индуцированном оболочкой безопасности.

Исследовательский контекст и мотивация

Основная проблема

Основная проблема, которую решает данное исследование: как систематически измерять и описывать пространство поиска агентов LLM. Конкретно, в процессе итеративного поиска на основе LLM эффективность поиска фундаментально ограничена вопросом "где искать", то есть как кодировать предметные приоры в пространство, операционализируемое агентом.

Важность проблемы

  1. Требования долгосрочных задач: Долгосрочные задачи предъявляют повышенные требования к безопасности и управляемости, требуя работы в проверяемых и контролируемых границах
  2. Вызовы сложности: Долгосрочные проблемы часто включают комбинаторный взрыв и разреженные награды; чистые эвристики или оценки 0/1 недостаточны для количественной оценки сложности достижимости
  3. Отсутствие теории: Текущая практика в основном опирается на инженерные эвристики (проектирование подсказок, фильтры, функции оценки и т.д.), но не имеет единого языка и количественных инструментов

Ограничения существующих методов

  • Отсутствие единого языка для измерения агента-пространства-поиска
  • Сложность сравнительного измерения компромисса между достижимостью и безопасностью различных агентов
  • Отсутствие четкой характеристики и объяснения долгосрочного поведения агентов

Исследовательская мотивация

Установить компактную, вычислимую, модель-независимую формальную теорию, которая объединяет измерения безопасности и достижимости, обеспечивает проверяемые предсказания и инженерно-полезные принципы проектирования.

Основные вклады

  1. Предложена компактная формальная теория: Агенты формализованы как нечёткие операторы отношений, итеративный процесс поиска описан единообразно через производящую функцию покрытия
  2. Установлена единая система измерения: Введены параметр продолжения и индекс покрытия, обеспечивающие единую количественную оценку безопасности и достижимости
  3. Предоставлена геометрическая интерпретация: На ориентированном графе, индуцированном оболочкой безопасности, определены геометрические величины, дающие геометрическую интерпретацию процесса поиска
  4. Проверены теоретические предсказания: Через инстанцирование голосованием большинства проверены проверяемые следствия теории, обеспечена внешняя валидация

Подробное описание методов

Определение задачи

  • Входное пространство: C1C_1 (входное пространство агента)
  • Выходное пространство: C2C_2 (выходное пространство агента, удовлетворяющее C2C1C_2 \subseteq C_1 для поддержки итерации)
  • Цель: Измерить и описать итеративный процесс поиска при ограничениях безопасности

Основная математическая структура

1. Представление агента

Идеальный агент определяется как нечёткий оператор отношения: T(f,g):=μf(g),μf:C2[0,1]T(f,g) := \mu_f(g), \quad \mu_f: C_2 \to [0,1]

Жёсткий идеальный агент (оболочка безопасности): μf(g){0,1},0T(f,g)T0(f,g)\mu_f(g) \in \{0,1\}, \quad 0 \leq T(f,g) \leq T_0(f,g)

2. Производящая функция покрытия

Введён параметр продолжения p[0,1]p \in [0,1], определена производящая функция покрытия от ff к gg: Pf,g(p):=n=0ST:f(0)=f,f(n)=gpni=0n1μf(i)(f(i+1))P_{f,g}(p) := \sum_{n=0}^{\infty} \sum_{S_T: f^{(0)}=f, f^{(n)}=g} p^n \prod_{i=0}^{n-1} \mu_{f^{(i)}}(f^{(i+1)})

Когда C1,C2C_1, C_2 счётны, может быть представлена в матричной форме: P(p)=n0pnMn=(IpM)1P(p) = \sum_{n \geq 0} p^n M^n = (I - pM)^{-1}

3. Ключевые геометрические величины

  • Кратчайшее расстояние: d0(f,g):=inf{nN:Nn(f,g)1}d_0(f,g) := \inf\{n \in \mathbb{N}: N_n(f,g) \geq 1\}
  • Количество кратчайших путей: Nd0(f,g)N_{d_0}(f,g)
  • Критический параметр: pc(f,g):=inf{p[0,1]:Pf,gideal(p)1}p_c(f,g) := \inf\{p \in [0,1]: P_{f,g}^{ideal}(p) \geq 1\}
  • Индекс покрытия: Rc(f,g):=1pc(f,g)R_c(f,g) := 1 - p_c(f,g)

Технические инновации

1. Единый язык измерения

Через нечёткие операторы отношений единообразно представлены агенты, позволяя измерять безопасность и достижимость одинаковыми математическими символами и геометрическими величинами.

2. Механизм параметра продолжения

Введён единственный параметр продолжения pp для взвешивания длины траектории, избегая сложности вероятностной интерпретации, обеспечивая вычислимый метод измерения.

3. Геометрическая интерпретация

На ориентированном графе, индуцированном оболочкой безопасности, определена геометрия поиска, преобразуя абстрактный процесс поиска в конкретную задачу теории графов.

4. Проверяемые гипотезы

Предложены две ключевые гипотезы для итеративных агентов, построенных на LLM:

  • Гипотеза 1: Приблизительно однонаправленный поиск (замкнутые пути редки)
  • Гипотеза 2: Низкие порядки доминируют (очень длинные траектории относительно редки)

Экспериментальная установка

Экспериментальная среда

  • Пространство поиска: Двумерная сетка GN:={0,,N1}2G_N := \{0,\ldots,N-1\}^2
  • Размеры сетки: N=3,5,8N = 3, 5, 8
  • Целевые точки: Соответственно (1,2),(3,4),(6,7)(1,2), (3,4), (6,7)

Конструкция агента

  1. Набор моделей LLM: gpt-4-mini, gpt-4, qwen3, qwen-plus, gemini-2.5-flash, deepseek-v3, grok-4, doubao
  2. Механизм голосования большинством: Для каждой позиции ff независимо выполнено m=5m=5 выборок, мода принята как решение
  3. Идеальный агент: μf(t)(g):=1nLμf(L,t)(g)\mu_f^{(t)}(g) := \frac{1}{n}\sum_L \mu_f^{(L,t)}(g)
  4. Оболочка безопасности: μf0,(t)(g):=1{μf(t)(g)>0}\mu_f^{0,(t)}(g) := \mathbf{1}\{\mu_f^{(t)}(g) > 0\}

Метрики оценки

  • Кратчайшее расстояние d0(f,t)d_0(f,t)
  • Количество кратчайших путей Nd0(f,t)N_{d_0}(f,t)
  • Проверка неравенства: logNd0(f,g)d0(f,g)\log N_{d_0}(f,g) \ll d_0(f,g)

Экспериментальные результаты

Основные результаты

1. Характеристики структуры графа

Эксперименты показывают, что оболочка безопасности, индуцированная LLM, на двумерной сетке производит однонаправленность и анизотропию достижимой структуры, строго убывающую к манхэттенскому расстоянию до цели, что соответствует предпосылке конечных членов гипотезы 1.

2. Проверка геометрических отношений

График 2 показывает отношение (d0,Nd0)(d_0, N_{d_0}) при трёх размерах сетки:

  • Точки данных лежат ниже эмпирической верхней границы теоретического предсказания
  • Когда d0d_0 больше, неравенство logNd0d0\log N_{d_0} \ll d_0 лучше подходит
  • Поддерживает эмпирический закон в пределе малого RcR_c

3. Проверка гипотез

  • Однонаправленная структура графа: Наблюдаемый граф имеет однонаправленные характеристики, поддерживая гипотезу 1
  • Конечный подсчёт путей: Конечный подсчёт путей соответствует установке гипотезы 2
  • Доминирование сложности: Проверено, что сложность (кратчайшее расстояние) доминирует, а разнообразие путей ограничено

Экспериментальные находки

  1. Пороговое поведение: При малых параметрах продолжения поиск находится в состоянии недостаточного расширения, члены кратчайшего пути доминируют поведение Pf,g(p)P_{f,g}(p)
  2. Геометрические ограничения: Семантические ограничения LLM приводят к однонаправленной структуре графа, эффективно ограничивая пространство поиска
  3. Модели достижимости: Наблюдаемое отношение (d0,Nd0)(d_0, N_{d_0}) соответствует тенденции верхней границы, предсказанной теорией

Связанные работы

Основные направления исследований

  1. Парадигмы рассуждения LLM: ReAct, Tree of Thoughts, Chain-of-Thought и другие методы итеративного рассуждения
  2. Планирование и использование инструментов: Plan-and-Solve, Toolformer, Voyager и другие структуры агентов
  3. Приложения AI+наука: Поиск программ, обнаружение алгоритмов, научные вычисления и другие области применения LLM

Преимущества данной работы

  • Предоставляет единую теоретическую структуру, тогда как существующие методы в основном являются эмпирическими эвристиками
  • Устанавливает измеримый механизм компромисса между безопасностью и достижимостью
  • Даёт модель-независимое формальное описание

Выводы и обсуждение

Основные выводы

  1. Теоретический вклад: Установлена компактная формальная теория итеративного поиска, вспомогательного для LLM
  2. Инструменты измерения: Предоставлены операционные инструменты для единого измерения безопасности и достижимости
  3. Геометрические инсайты: Раскрыта геометрическая структура и механизмы ограничений процесса поиска
  4. Эмпирическая валидация: Через инстанцирование голосованием большинством проверены проверяемые предсказания теории

Ограничения

  1. Масштаб экспериментов: Текущая валидация ограничена небольшими двумерными сетками, требуется валидация на более крупных масштабах и сложных задачах
  2. Охват моделей: Хотя использовано несколько LLM, требуется более широкое охватывание моделей и задач
  3. Полнота теории: Некоторые теоретические предсказания (такие как прямая оценка RcR_c) ещё полностью не проверены в экспериментах

Будущие направления

  1. Детальная экспериментальная валидация: Тестирование теоретической эффективности на более сложных задачах
  2. Связь с обучением с подкреплением: Связывание теоретических метрик с наградами и процессами обучения в обучении с подкреплением
  3. Практические приложения: Применение инструментов измерения к проектированию и обучению агентов для сложных задач

Глубокая оценка

Достоинства

  1. Сильная теоретическая новизна: Впервые предложена формальная теория измерения пространства поиска агентов LLM
  2. Строгая математическая структура: Математическая основа, основанная на нечётких операторах отношений и производящих функциях, прочна
  3. Высокая практическая ценность: Предоставлены операционные инструменты измерения и принципы проектирования
  4. Достаточная валидация: Через конкретное инстанцирование обеспечена внешняя валидация теории

Недостатки

  1. Ограниченный масштаб экспериментов: Валидационные эксперименты относительно просты, отсутствует тестирование на сложных реальных задачах
  2. Зависимость от гипотез: Теоретические предсказания зависят от выполнения конкретных гипотез (однонаправленность, доминирование низких порядков)
  3. Вычислительная сложность: Для крупномасштабных проблем вычисление производящей функции может столкнуться с проблемами сложности

Влияние

  1. Академический вклад: Предоставляет новую теоретическую основу и инструменты анализа для исследований агентов LLM
  2. Практическая ценность: Обеспечивает количественное руководство для проектирования агентов для сложных задач
  3. Воспроизводимость: Предоставляет детальные экспериментальные установки и код, обладает хорошей воспроизводимостью

Применимые сценарии

  • Проектирование агентов LLM, требующих ограничений безопасности
  • Анализ производительности долгосрочных задач рассуждения и планирования
  • Структурированный анализ и оптимизация сложных пространств поиска
  • Сравнение и оценка многоагентных систем

Библиография

Статья цитирует 32 связанные работы, охватывающие важные работы в нескольких областях, включая рассуждение LLM, обучение с подкреплением, оптимизацию с ограничениями, нечёткие системы и т.д., обеспечивая прочную основу для построения теории.