The generate-filter-refine (iterative paradigm) based on large language models (LLMs) has achieved progress in reasoning, programming, and program discovery in AI+Science. However, the effectiveness of search depends on where to search, namely, how to encode the domain prior into an operationally structured hypothesis space. To this end, this paper proposes a compact formal theory that describes and measures LLM-assisted iterative search guided by domain priors. We represent an agent as a fuzzy relation operator on inputs and outputs to capture feasible transitions; the agent is thereby constrained by a fixed safety envelope. To describe multi-step reasoning/search, we weight all reachable paths by a single continuation parameter and sum them to obtain a coverage generating function; this induces a measure of reachability difficulty; and it provides a geometric interpretation of search on the graph induced by the safety envelope. We further provide the simplest testable inferences and validate them via a majority-vote instantiation. This theory offers a workable language and operational tools to measure agents and their search spaces, proposing a systematic formal description of iterative search constructed by LLMs.
- ID статьи: 2510.14846
- Название: Where to Search: Measure the Prior-Structured Search Space of LLM Agents
- Автор: Zhuo-Yang Song
- Классификация: cs.AI cs.CL cs.LO
- Дата публикации: 16 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.14846
Итеративная парадигма генерирования-фильтрации-уточнения (generate-filter-refine), основанная на больших языковых моделях (LLM), достигла прогресса в рассуждении, программировании и обнаружении программ в AI+науке. Однако эффективность поиска зависит от того, где искать, то есть от того, как кодировать предметные приоры в операционализируемое структурированное пространство гипотез. В этой работе авторы предлагают компактную формальную теорию для описания и измерения итеративного поиска, вспомогательного для LLM и управляемого предметными приорами. Авторы представляют агентов как нечёткие операторы отношений на входах и выходах для захвата осуществимых преобразований; агенты, таким образом, ограничены фиксированной оболочкой безопасности. Для описания многошагового рассуждения/поиска авторы суммируют и взвешивают все достижимые пути по единственному параметру продолжения, получая производящую функцию покрытия; это индуцирует меру сложности достижимости и обеспечивает геометрическую интерпретацию поиска на графе, индуцированном оболочкой безопасности.
Основная проблема, которую решает данное исследование: как систематически измерять и описывать пространство поиска агентов LLM. Конкретно, в процессе итеративного поиска на основе LLM эффективность поиска фундаментально ограничена вопросом "где искать", то есть как кодировать предметные приоры в пространство, операционализируемое агентом.
- Требования долгосрочных задач: Долгосрочные задачи предъявляют повышенные требования к безопасности и управляемости, требуя работы в проверяемых и контролируемых границах
- Вызовы сложности: Долгосрочные проблемы часто включают комбинаторный взрыв и разреженные награды; чистые эвристики или оценки 0/1 недостаточны для количественной оценки сложности достижимости
- Отсутствие теории: Текущая практика в основном опирается на инженерные эвристики (проектирование подсказок, фильтры, функции оценки и т.д.), но не имеет единого языка и количественных инструментов
- Отсутствие единого языка для измерения агента-пространства-поиска
- Сложность сравнительного измерения компромисса между достижимостью и безопасностью различных агентов
- Отсутствие четкой характеристики и объяснения долгосрочного поведения агентов
Установить компактную, вычислимую, модель-независимую формальную теорию, которая объединяет измерения безопасности и достижимости, обеспечивает проверяемые предсказания и инженерно-полезные принципы проектирования.
- Предложена компактная формальная теория: Агенты формализованы как нечёткие операторы отношений, итеративный процесс поиска описан единообразно через производящую функцию покрытия
- Установлена единая система измерения: Введены параметр продолжения и индекс покрытия, обеспечивающие единую количественную оценку безопасности и достижимости
- Предоставлена геометрическая интерпретация: На ориентированном графе, индуцированном оболочкой безопасности, определены геометрические величины, дающие геометрическую интерпретацию процесса поиска
- Проверены теоретические предсказания: Через инстанцирование голосованием большинства проверены проверяемые следствия теории, обеспечена внешняя валидация
- Входное пространство: C1 (входное пространство агента)
- Выходное пространство: C2 (выходное пространство агента, удовлетворяющее C2⊆C1 для поддержки итерации)
- Цель: Измерить и описать итеративный процесс поиска при ограничениях безопасности
Идеальный агент определяется как нечёткий оператор отношения:
T(f,g):=μf(g),μf:C2→[0,1]
Жёсткий идеальный агент (оболочка безопасности):
μf(g)∈{0,1},0≤T(f,g)≤T0(f,g)
Введён параметр продолжения p∈[0,1], определена производящая функция покрытия от f к g:
Pf,g(p):=∑n=0∞∑ST:f(0)=f,f(n)=gpn∏i=0n−1μf(i)(f(i+1))
Когда C1,C2 счётны, может быть представлена в матричной форме:
P(p)=∑n≥0pnMn=(I−pM)−1
- Кратчайшее расстояние: d0(f,g):=inf{n∈N:Nn(f,g)≥1}
- Количество кратчайших путей: Nd0(f,g)
- Критический параметр: pc(f,g):=inf{p∈[0,1]:Pf,gideal(p)≥1}
- Индекс покрытия: Rc(f,g):=1−pc(f,g)
Через нечёткие операторы отношений единообразно представлены агенты, позволяя измерять безопасность и достижимость одинаковыми математическими символами и геометрическими величинами.
Введён единственный параметр продолжения p для взвешивания длины траектории, избегая сложности вероятностной интерпретации, обеспечивая вычислимый метод измерения.
На ориентированном графе, индуцированном оболочкой безопасности, определена геометрия поиска, преобразуя абстрактный процесс поиска в конкретную задачу теории графов.
Предложены две ключевые гипотезы для итеративных агентов, построенных на LLM:
- Гипотеза 1: Приблизительно однонаправленный поиск (замкнутые пути редки)
- Гипотеза 2: Низкие порядки доминируют (очень длинные траектории относительно редки)
- Пространство поиска: Двумерная сетка GN:={0,…,N−1}2
- Размеры сетки: N=3,5,8
- Целевые точки: Соответственно (1,2),(3,4),(6,7)
- Набор моделей LLM: gpt-4-mini, gpt-4, qwen3, qwen-plus, gemini-2.5-flash, deepseek-v3, grok-4, doubao
- Механизм голосования большинством: Для каждой позиции f независимо выполнено m=5 выборок, мода принята как решение
- Идеальный агент: μf(t)(g):=n1∑Lμf(L,t)(g)
- Оболочка безопасности: μf0,(t)(g):=1{μf(t)(g)>0}
- Кратчайшее расстояние d0(f,t)
- Количество кратчайших путей Nd0(f,t)
- Проверка неравенства: logNd0(f,g)≪d0(f,g)
Эксперименты показывают, что оболочка безопасности, индуцированная LLM, на двумерной сетке производит однонаправленность и анизотропию достижимой структуры, строго убывающую к манхэттенскому расстоянию до цели, что соответствует предпосылке конечных членов гипотезы 1.
График 2 показывает отношение (d0,Nd0) при трёх размерах сетки:
- Точки данных лежат ниже эмпирической верхней границы теоретического предсказания
- Когда d0 больше, неравенство logNd0≪d0 лучше подходит
- Поддерживает эмпирический закон в пределе малого Rc
- Однонаправленная структура графа: Наблюдаемый граф имеет однонаправленные характеристики, поддерживая гипотезу 1
- Конечный подсчёт путей: Конечный подсчёт путей соответствует установке гипотезы 2
- Доминирование сложности: Проверено, что сложность (кратчайшее расстояние) доминирует, а разнообразие путей ограничено
- Пороговое поведение: При малых параметрах продолжения поиск находится в состоянии недостаточного расширения, члены кратчайшего пути доминируют поведение Pf,g(p)
- Геометрические ограничения: Семантические ограничения LLM приводят к однонаправленной структуре графа, эффективно ограничивая пространство поиска
- Модели достижимости: Наблюдаемое отношение (d0,Nd0) соответствует тенденции верхней границы, предсказанной теорией
- Парадигмы рассуждения LLM: ReAct, Tree of Thoughts, Chain-of-Thought и другие методы итеративного рассуждения
- Планирование и использование инструментов: Plan-and-Solve, Toolformer, Voyager и другие структуры агентов
- Приложения AI+наука: Поиск программ, обнаружение алгоритмов, научные вычисления и другие области применения LLM
- Предоставляет единую теоретическую структуру, тогда как существующие методы в основном являются эмпирическими эвристиками
- Устанавливает измеримый механизм компромисса между безопасностью и достижимостью
- Даёт модель-независимое формальное описание
- Теоретический вклад: Установлена компактная формальная теория итеративного поиска, вспомогательного для LLM
- Инструменты измерения: Предоставлены операционные инструменты для единого измерения безопасности и достижимости
- Геометрические инсайты: Раскрыта геометрическая структура и механизмы ограничений процесса поиска
- Эмпирическая валидация: Через инстанцирование голосованием большинством проверены проверяемые предсказания теории
- Масштаб экспериментов: Текущая валидация ограничена небольшими двумерными сетками, требуется валидация на более крупных масштабах и сложных задачах
- Охват моделей: Хотя использовано несколько LLM, требуется более широкое охватывание моделей и задач
- Полнота теории: Некоторые теоретические предсказания (такие как прямая оценка Rc) ещё полностью не проверены в экспериментах
- Детальная экспериментальная валидация: Тестирование теоретической эффективности на более сложных задачах
- Связь с обучением с подкреплением: Связывание теоретических метрик с наградами и процессами обучения в обучении с подкреплением
- Практические приложения: Применение инструментов измерения к проектированию и обучению агентов для сложных задач
- Сильная теоретическая новизна: Впервые предложена формальная теория измерения пространства поиска агентов LLM
- Строгая математическая структура: Математическая основа, основанная на нечётких операторах отношений и производящих функциях, прочна
- Высокая практическая ценность: Предоставлены операционные инструменты измерения и принципы проектирования
- Достаточная валидация: Через конкретное инстанцирование обеспечена внешняя валидация теории
- Ограниченный масштаб экспериментов: Валидационные эксперименты относительно просты, отсутствует тестирование на сложных реальных задачах
- Зависимость от гипотез: Теоретические предсказания зависят от выполнения конкретных гипотез (однонаправленность, доминирование низких порядков)
- Вычислительная сложность: Для крупномасштабных проблем вычисление производящей функции может столкнуться с проблемами сложности
- Академический вклад: Предоставляет новую теоретическую основу и инструменты анализа для исследований агентов LLM
- Практическая ценность: Обеспечивает количественное руководство для проектирования агентов для сложных задач
- Воспроизводимость: Предоставляет детальные экспериментальные установки и код, обладает хорошей воспроизводимостью
- Проектирование агентов LLM, требующих ограничений безопасности
- Анализ производительности долгосрочных задач рассуждения и планирования
- Структурированный анализ и оптимизация сложных пространств поиска
- Сравнение и оценка многоагентных систем
Статья цитирует 32 связанные работы, охватывающие важные работы в нескольких областях, включая рассуждение LLM, обучение с подкреплением, оптимизацию с ограничениями, нечёткие системы и т.д., обеспечивая прочную основу для построения теории.