The generate-filter-refine (iterative paradigm) based on large language models (LLMs) has achieved progress in reasoning, programming, and program discovery in AI+Science. However, the effectiveness of search depends on where to search, namely, how to encode the domain prior into an operationally structured hypothesis space. To this end, this paper proposes a compact formal theory that describes and measures LLM-assisted iterative search guided by domain priors. We represent an agent as a fuzzy relation operator on inputs and outputs to capture feasible transitions; the agent is thereby constrained by a fixed safety envelope. To describe multi-step reasoning/search, we weight all reachable paths by a single continuation parameter and sum them to obtain a coverage generating function; this induces a measure of reachability difficulty; and it provides a geometric interpretation of search on the graph induced by the safety envelope. We further provide the simplest testable inferences and validate them via a majority-vote instantiation. This theory offers a workable language and operational tools to measure agents and their search spaces, proposing a systematic formal description of iterative search constructed by LLMs.
- ID Articolo: 2510.14846
- Titolo: Where to Search: Measure the Prior-Structured Search Space of LLM Agents
- Autore: Zhuo-Yang Song
- Classificazione: cs.AI cs.CL cs.LO
- Data di Pubblicazione: 16 ottobre 2025 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2510.14846
Il paradigma iterativo di generazione-filtraggio-ottimizzazione (generate-filter-refine) basato su modelli di linguaggio di grandi dimensioni (LLM) ha ottenuto progressi nel ragionamento, nella programmazione e nella scoperta di programmi nell'IA+scienza. Tuttavia, l'efficacia della ricerca dipende da dove cercare, ovvero da come codificare i priori del dominio in uno spazio di ipotesi strutturato e operazionale. A tal fine, il presente articolo propone una teoria formale compatta per descrivere e misurare la ricerca iterativa assistita da LLM guidata da priori del dominio. Gli autori rappresentano gli agenti come operatori di relazioni fuzzy su ingressi e uscite per catturare le trasformazioni fattibili; gli agenti sono quindi vincolati da un inviluppo di sicurezza fisso. Per descrivere il ragionamento/ricerca multi-step, gli autori ponderano e sommano tutti i percorsi raggiungibili attraverso un singolo parametro di continuazione, ottenendo la funzione generatrice di copertura; questo induce una misura della difficoltà di raggiungibilità e fornisce un'interpretazione geometrica della ricerca sul grafo indotto dall'inviluppo di sicurezza.
Il problema centrale affrontato da questa ricerca è: come misurare e descrivere sistematicamente lo spazio di ricerca degli agenti LLM. Nello specifico, nei processi di ricerca iterativa basati su LLM, l'efficienza di ricerca è fondamentalmente limitata dalla questione "dove cercare", ovvero da come codificare i priori del dominio nello spazio operazionale dell'agente.
- Esigenze di Compiti a Lungo Termine: I compiti a lungo termine pongono requisiti più elevati di sicurezza e controllabilità, richiedendo operazioni entro confini verificabili e controllabili
- Sfide di Complessità: I problemi a lungo termine spesso comportano esplosioni combinatorie e ricompense sparse; la semplice euristica o la valutazione 0/1 sono insufficienti per quantificare la difficoltà di raggiungibilità
- Lacuna Teorica: La pratica attuale si basa principalmente su euristiche ingegneristiche (progettazione di prompt, filtri, funzioni di valutazione, ecc.), mancando di un linguaggio unificato e di strumenti quantitativi
- Mancanza di un linguaggio unificato per misurare agente-spazio-ricerca
- Difficoltà nel misurare comparativamente il compromesso tra raggiungibilità e sicurezza tra diversi agenti
- Mancanza di una caratterizzazione e spiegazione chiara dei comportamenti a lungo termine degli agenti
Stabilire una teoria formale concisa, computabile e indipendente dal modello che unifichi le misurazioni di sicurezza e raggiungibilità, fornendo previsioni testabili e principi di progettazione utilizzabili dall'ingegneria.
- Propone una teoria formale compatta: Formalizza gli agenti come operatori di relazioni fuzzy, descrivendo unificatamente il processo di ricerca iterativa attraverso la funzione generatrice di copertura
- Stabilisce un quadro di misurazione unificato: Introduce il parametro di continuazione e l'indice di copertura, fornendo un metodo di quantificazione unificato per sicurezza e raggiungibilità
- Fornisce un'interpretazione geometrica: Definisce quantità geometriche sul grafo diretto indotto dall'inviluppo di sicurezza, fornendo un'interpretazione geometrica del processo di ricerca
- Verifica le previsioni teoriche: Verifica le conclusioni testabili della teoria attraverso l'istanziazione della votazione a maggioranza, fornendo una validazione esterna
- Spazio di Ingresso: C1 (spazio di ingresso dell'agente)
- Spazio di Uscita: C2 (spazio di uscita dell'agente, con C2⊆C1 per supportare l'iterazione)
- Obiettivo: Misurare e descrivere il processo di ricerca iterativa sotto vincoli di sicurezza
Agente Ideale definito come operatore di relazione fuzzy:
T(f,g):=μf(g),μf:C2→[0,1]
Agente Ideale Crisp (inviluppo di sicurezza):
μf(g)∈{0,1},0≤T(f,g)≤T0(f,g)
Introducendo il parametro di continuazione p∈[0,1], si definisce la funzione generatrice di copertura da f a g:
Pf,g(p):=∑n=0∞∑ST:f(0)=f,f(n)=gpn∏i=0n−1μf(i)(f(i+1))
Quando C1,C2 sono numerabili, può essere rappresentata in forma matriciale:
P(p)=∑n≥0pnMn=(I−pM)−1
- Distanza Minima: d0(f,g):=inf{n∈N:Nn(f,g)≥1}
- Numero di Percorsi Minimi: Nd0(f,g)
- Parametro Critico: pc(f,g):=inf{p∈[0,1]:Pf,gideal(p)≥1}
- Indice di Copertura: Rc(f,g):=1−pc(f,g)
Attraverso operatori di relazioni fuzzy, unifica la rappresentazione degli agenti, consentendo la misurazione della sicurezza e della raggiungibilità con gli stessi simboli matematici e quantità geometriche.
Introduce un singolo parametro di continuazione p per ponderare la lunghezza della traiettoria, evitando la complessità dell'interpretazione probabilistica e fornendo un metodo di misurazione computabile.
Definisce la geometria della ricerca sul grafo diretto indotto dall'inviluppo di sicurezza, trasformando il processo di ricerca astratto in un problema concreto di teoria dei grafi.
Propone due ipotesi chiave per gli agenti iterativi costruiti per LLM:
- Ipotesi 1: Ricerca approssimativamente unidirezionale (percorsi in ciclo chiuso rari)
- Ipotesi 2: Dominanza dei termini di basso ordine (traiettorie molto lunghe relativamente rare)
- Spazio di Ricerca: Griglia bidimensionale GN:={0,…,N−1}2
- Dimensioni della Griglia: N=3,5,8
- Punti Obiettivo: Rispettivamente (1,2),(3,4),(6,7)
- Insieme di Modelli LLM: gpt-4-mini, gpt-4, qwen3, qwen-plus, gemini-2.5-flash, deepseek-v3, grok-4, doubao
- Meccanismo di Votazione a Maggioranza: Per ogni posizione f campiona indipendentemente m=5 volte, prendendo la moda come decisione
- Agente Ideale: μf(t)(g):=n1∑Lμf(L,t)(g)
- Inviluppo di Sicurezza: μf0,(t)(g):=1{μf(t)(g)>0}
- Distanza minima d0(f,t)
- Numero di percorsi minimi Nd0(f,t)
- Verifica della disuguaglianza: logNd0(f,g)≪d0(f,g)
Gli esperimenti mostrano che l'inviluppo di sicurezza indotto da LLM produce una struttura di raggiungibilità unidirezionale e anisotropa sulla griglia 2D, con decremento rigoroso fino alla distanza di Manhattan dal bersaglio, coerente con il presupposto della premessa a termini finiti dell'Ipotesi 1.
La Figura 2 mostra la relazione (d0,Nd0) su tre scale di griglia:
- I punti dati si trovano al di sotto del limite empirico superiore previsto dalla teoria
- Quando d0 è più grande, la disuguaglianza logNd0≪d0 si adatta meglio
- Supporta la regolarità empirica nel limite di piccolo Rc
- Struttura Grafo Unidirezionale: Il grafo osservato sperimentalmente presenta caratteristiche unidirezionali, supportando l'Ipotesi 1
- Conteggio Percorsi Finito: Il conteggio percorsi finito è coerente con l'impostazione dell'Ipotesi 2
- Complessità Dominante: Verifica che la complessità (distanza minima) sia dominante mentre la diversità dei percorsi sia limitata
- Comportamento di Soglia: Con piccoli parametri di continuazione, la ricerca è in uno stato di espansione insufficiente, con i termini di percorso minimo che dominano il comportamento di Pf,g(p)
- Vincoli Geometrici: I vincoli semantici dell'LLM causano la presentazione del grafo in una struttura unidirezionale, limitando efficacemente lo spazio di ricerca
- Modelli di Raggiungibilità: La relazione (d0,Nd0) osservata è conforme alla tendenza del limite superiore previsto dalla teoria
- Paradigmi di Ragionamento LLM: Metodi di ragionamento iterativo come ReAct, Tree of Thoughts, Chain-of-Thought
- Pianificazione e Uso di Strumenti: Framework di agenti come Plan-and-Solve, Toolformer, Voyager
- Applicazioni IA+Scienza: Applicazioni LLM nella ricerca di programmi, scoperta di algoritmi, calcolo scientifico
- Fornisce un quadro teorico unificato, mentre i metodi esistenti sono principalmente euristiche empiriche
- Stabilisce un meccanismo di compromesso sicurezza-raggiungibilità misurabile
- Fornisce una descrizione formale indipendente dal modello
- Contributo Teorico: Stabilisce una teoria formale compatta per la ricerca iterativa assistita da LLM
- Strumenti di Misurazione: Fornisce strumenti operativi unificati per misurare sicurezza e raggiungibilità
- Intuizioni Geometriche: Rivela la struttura geometrica e i meccanismi di vincolo del processo di ricerca
- Verifica Empirica: Verifica le previsioni testabili della teoria attraverso l'istanziazione della votazione a maggioranza
- Scala Sperimentale: La verifica attuale è limitata a piccole griglie 2D, richiedendo verifiche su compiti di scala più grande e più complessi
- Copertura del Modello: Sebbene utilizzi più LLM, richiede ancora una copertura più ampia di modelli e compiti
- Completezza Teorica: Alcune previsioni teoriche (come la stima diretta di Rc) non sono ancora completamente verificate negli esperimenti
- Verifica Sperimentale Dettagliata: Testare la validità della teoria su compiti più complessi
- Connessione con l'Apprendimento per Rinforzo: Collegare le metriche teoriche con i premi dell'apprendimento per rinforzo e i processi di addestramento
- Applicazioni Pratiche: Applicare gli strumenti di misurazione alla progettazione e all'addestramento di agenti per compiti complessi
- Forte Innovazione Teorica: Propone per la prima volta una teoria formale di misurazione dello spazio di ricerca degli agenti LLM
- Quadro Matematico Rigoroso: La base matematica basata su operatori di relazioni fuzzy e funzioni generatrici è solida
- Alto Valore Pratico: Fornisce strumenti di misurazione operativi e principi di progettazione guida
- Verifica Sufficiente: Fornisce validazione esterna della teoria attraverso istanziazione concreta
- Scala Sperimentale Limitata: Gli esperimenti di verifica sono relativamente semplici, mancando di test su compiti reali complessi
- Dipendenza dalle Ipotesi: Le previsioni teoriche dipendono dal verificarsi di ipotesi specifiche (unidirezionalità, dominanza di basso ordine)
- Complessità Computazionale: Per problemi su larga scala, il calcolo della funzione generatrice potrebbe affrontare sfide di complessità
- Contributo Accademico: Fornisce una nuova base teorica e strumenti di analisi per la ricerca su agenti LLM
- Valore Pratico: Fornisce guida quantitativa per la progettazione di agenti per compiti complessi
- Riproducibilità: Fornisce impostazioni sperimentali dettagliate e codice, con buona riproducibilità
- Progettazione di agenti LLM che richiedono vincoli di sicurezza
- Analisi delle prestazioni di compiti di ragionamento e pianificazione a lungo termine
- Analisi e ottimizzazione strutturale di spazi di ricerca complessi
- Confronto e valutazione di sistemi multi-agente
L'articolo cita 32 lavori correlati, coprendo importanti lavori in più campi inclusi ragionamento LLM, apprendimento per rinforzo, ottimizzazione vincolata, sistemi fuzzy, fornendo una base solida per la costruzione teorica.