The generate-filter-refine (iterative paradigm) based on large language models (LLMs) has achieved progress in reasoning, programming, and program discovery in AI+Science. However, the effectiveness of search depends on where to search, namely, how to encode the domain prior into an operationally structured hypothesis space. To this end, this paper proposes a compact formal theory that describes and measures LLM-assisted iterative search guided by domain priors. We represent an agent as a fuzzy relation operator on inputs and outputs to capture feasible transitions; the agent is thereby constrained by a fixed safety envelope. To describe multi-step reasoning/search, we weight all reachable paths by a single continuation parameter and sum them to obtain a coverage generating function; this induces a measure of reachability difficulty; and it provides a geometric interpretation of search on the graph induced by the safety envelope. We further provide the simplest testable inferences and validate them via a majority-vote instantiation. This theory offers a workable language and operational tools to measure agents and their search spaces, proposing a systematic formal description of iterative search constructed by LLMs.
- Paper-ID: 2510.14846
- Titel: Where to Search: Measure the Prior-Structured Search Space of LLM Agents
- Autor: Zhuo-Yang Song
- Klassifizierung: cs.AI cs.CL cs.LO
- Veröffentlichungsdatum: 16. Oktober 2025 (arXiv Preprint)
- Paper-Link: https://arxiv.org/abs/2510.14846
Das iterative Paradigma der Generierung-Filterung-Optimierung (generate-filter-refine) auf Basis großer Sprachmodelle (LLMs) hat Fortschritte bei der Schlussfolgerung, Programmierung und der Programmentdeckung in der KI+Wissenschaft erzielt. Die Effektivität der Suche hängt jedoch davon ab, wo gesucht wird, d.h. wie Domänenpriorinformationen in einen operativen strukturierten Hypothesenraum kodiert werden. Zu diesem Zweck präsentiert dieses Paper eine kompakte formale Theorie zur Beschreibung und Messung der durch Domänenpriorinformationen geleiteten LLM-gestützten iterativen Suche. Der Autor stellt Agenten als unscharfe Relationsoperatoren auf Ein- und Ausgaben dar, um machbare Transformationen zu erfassen; Agenten werden daher durch eine feste Sicherheitshülle begrenzt. Um mehrstufiges Denken/Suchen zu beschreiben, werden alle erreichbaren Pfade durch einen einzelnen Fortsetzungsparameter gewichtet und summiert, was eine Erzeugungsfunktion ergibt; dies induziert ein Maß für die Erreichbarkeitsschwierigkeit und bietet eine geometrische Interpretation der Suche auf dem durch die Sicherheitshülle induzierten Graphen.
Das Kernproblem dieser Forschung ist: Wie kann man den Suchraum von LLM-Agenten systematisch messen und beschreiben? Konkret wird die Sucheffizienz in LLM-basierten iterativen Suchprozessen grundlegend durch die Frage "wo man suchen sollte" begrenzt, d.h. wie Domänenpriorinformationen in einen für den Agenten operativen Raum kodiert werden.
- Anforderungen bei langfristigen Aufgaben: Langfristige Aufgaben stellen höhere Anforderungen an Sicherheit und Kontrollierbarkeit und erfordern Operationen innerhalb verifizierbarer und kontrollierbarer Grenzen
- Komplexitätsherausforderungen: Langfristige Probleme beinhalten oft kombinatorische Explosionen und spärliche Belohnungen; reine Heuristiken oder 0/1-Bewertungen reichen nicht aus, um die Erreichbarkeitsschwierigkeit zu quantifizieren
- Theoretische Lücke: Die aktuelle Praxis stützt sich hauptsächlich auf technische Heuristiken (Prompt-Design, Filter, Bewertungsfunktionen usw.) und entbehrt einer einheitlichen Sprache und quantitativer Werkzeuge
- Fehlende einheitliche Sprache für Agent-Raum-Suchenmessung
- Schwierigkeit, die Erreichbarkeits- und Sicherheitskompromisse zwischen verschiedenen Agenten vergleichbar zu messen
- Mangel an klarer Charakterisierung und Erklärung der langfristigen Verhaltensmerkmale von Agenten
Etablierung einer prägnanten, berechenbaren, modellunabhängigen formalen Theorie, die Sicherheits- und Erreichbarkeitsmessungen vereinheitlicht und testbare Vorhersagen sowie technisch nutzbare Designprinzipien bietet.
- Präsentation einer prägnanten formalen Theorie: Formalisierung von Agenten als unscharfe Relationsoperatoren, einheitliche Beschreibung iterativer Suchprozesse durch Erzeugungsfunktionen
- Etablierung eines einheitlichen Messsystems: Einführung von Fortsetzungsparameter und Abdeckungsindex, Bereitstellung einer einheitlichen Quantifizierungsmethode für Sicherheit und Erreichbarkeit
- Bereitstellung geometrischer Interpretation: Definition geometrischer Größen auf dem durch die Sicherheitshülle induzierten gerichteten Graphen, geometrische Interpretation des Suchprozesses
- Verifikation theoretischer Vorhersagen: Verifikation der testbaren Schlussfolgerungen der Theorie durch Mehrheitsentscheidungsinstanziierung, externe Validierung bereitgestellt
- Eingaberaum: C1 (Eingaberaum des Agenten)
- Ausgaberaum: C2 (Ausgaberaum des Agenten, mit C2⊆C1 zur Unterstützung von Iteration)
- Ziel: Messung und Beschreibung iterativer Suchprozesse unter Sicherheitsbeschränkungen
Idealer Agent definiert als unscharfer Relationsoperator:
T(f,g):=μf(g),μf:C2→[0,1]
Spröder idealer Agent (Sicherheitshülle):
μf(g)∈{0,1},0≤T(f,g)≤T0(f,g)
Einführung eines Fortsetzungsparameters p∈[0,1], Definition der Erzeugungsfunktion von f zu g:
Pf,g(p):=∑n=0∞∑ST:f(0)=f,f(n)=gpn∏i=0n−1μf(i)(f(i+1))
Wenn C1,C2 abzählbar sind, kann dies in Matrixform dargestellt werden:
P(p)=∑n≥0pnMn=(I−pM)−1
- Kürzeste Distanz: d0(f,g):=inf{n∈N:Nn(f,g)≥1}
- Anzahl kürzester Pfade: Nd0(f,g)
- Kritischer Parameter: pc(f,g):=inf{p∈[0,1]:Pf,gideal(p)≥1}
- Abdeckungsindex: Rc(f,g):=1−pc(f,g)
Durch unscharfe Relationsoperatoren wird eine einheitliche Agentendarstellung ermöglicht, sodass Sicherheit und Erreichbarkeit mit denselben mathematischen Symbolen und geometrischen Größen gemessen werden können.
Einführung eines einzelnen Fortsetzungsparameters p zur Gewichtung der Trajektorielänge, vermeidung der Komplexität probabilistischer Interpretationen, Bereitstellung einer berechenbaren Messmethode.
Definition der Suchgeometrie auf dem durch die Sicherheitshülle induzierten gerichteten Graphen, Umwandlung abstrakter Suchprozesse in konkrete graphentheoretische Probleme.
Präsentation zweier Schlüsselhypothesen für LLM-konstruierte iterative Agenten:
- Hypothese 1: Näherungsweise unidirektionale Suche (geschlossene Schleifen sind selten)
- Hypothese 2: Niedrigordnungsterme dominieren (sehr lange Trajektorien sind relativ selten)
- Suchraum: Zweidimensionales Gitter GN:={0,…,N−1}2
- Gittergröße: N=3,5,8
- Zielpunkte: Jeweils (1,2),(3,4),(6,7)
- LLM-Modellsatz: gpt-4-mini, gpt-4, qwen3, qwen-plus, gemini-2.5-flash, deepseek-v3, grok-4, doubao
- Mehrheitsentscheidungsmechanismus: Für jede Position f unabhängig m=5 Mal samplen, Modus als Entscheidung nehmen
- Idealer Agent: μf(t)(g):=n1∑Lμf(L,t)(g)
- Sicherheitshülle: μf0,(t)(g):=1{μf(t)(g)>0}
- Kürzeste Distanz d0(f,t)
- Anzahl kürzester Pfade Nd0(f,t)
- Verifikation der Ungleichung: logNd0(f,g)≪d0(f,g)
Experimente zeigen, dass die durch LLM induzierte Sicherheitshülle auf 2D-Gittern unidirektionale und anisotrope erreichbare Strukturen erzeugt, die streng zur Manhattan-Distanz des Ziels abnehmen, konsistent mit der endlichen Termvoraussetzung von Hypothese 1.
Abbildung 2 zeigt die Beziehung zwischen (d0,Nd0) bei drei Gittergrößen:
- Datenpunkte liegen unterhalb der theoretisch vorhergesagten empirischen Obergrenze
- Wenn d0 größer ist, passt die Ungleichung logNd0≪d0 besser
- Unterstützt die empirische Regel im Grenzfall kleiner Rc
- Unidirektionale Graphenstruktur: Die beobachtete Graphenstruktur weist unidirektionale Merkmale auf und unterstützt Hypothese 1
- Endliche Pfadzählung: Endliche Pfadzählung stimmt mit der Einstellung von Hypothese 2 überein
- Komplexitätsdominanz: Verifikation der Charakteristik, dass Komplexität (kürzeste Distanz) dominiert, während Pfadvielfalt begrenzt ist
- Schwellenwertverhalten: Bei kleinen Fortsetzungsparametern befindet sich die Suche in einem unzureichend erweiterten Zustand, wobei der kürzeste Pfadterm das Verhalten von Pf,g(p) dominiert
- Geometrische Beschränkungen: Die semantischen Beschränkungen von LLMs führen dazu, dass der Graph eine unidirektionale Struktur aufweist, die den Suchraum effektiv begrenzt
- Erreichbarkeitsmuster: Die beobachtete (d0,Nd0)-Beziehung stimmt mit der Obergrenzentrendvorhersage der Theorie überein
- LLM-Schlussfolgerungsparadigmen: ReAct, Tree of Thoughts, Chain-of-Thought und andere iterative Schlussfolgerungsmethoden
- Planung und Werkzeugnutzung: Plan-and-Solve, Toolformer, Voyager und andere Agenten-Frameworks
- KI+Wissenschaft-Anwendungen: LLM-Anwendungen in Programmsuche, Algorithmusentdeckung, wissenschaftlichen Berechnungen und anderen Bereichen
- Bietet einen einheitlichen theoretischen Rahmen, während bestehende Methoden meist empirische Heuristiken sind
- Etabliert einen messbaren Sicherheits-Erreichbarkeitskompromissmechanismus
- Bietet eine modellunabhängige formale Beschreibung
- Theoretischer Beitrag: Etablierung einer prägnanten formalen Theorie für LLM-gestützte iterative Suche
- Messwerkzeuge: Bereitstellung operativer Werkzeuge zur einheitlichen Messung von Sicherheit und Erreichbarkeit
- Geometrische Einsichten: Enthüllung der geometrischen Struktur und Beschränkungsmechanismen von Suchprozessen
- Empirische Verifikation: Verifikation testbarer Vorhersagen der Theorie durch Mehrheitsentscheidungsinstanziierung
- Experimentelle Skalierung: Aktuelle Verifikation beschränkt sich auf kleine 2D-Gitter, erfordert Verifikation bei größeren Skalen und komplexeren Aufgaben
- Modellabdeckung: Obwohl mehrere LLMs verwendet werden, ist eine breitere Modell- und Aufgabenabdeckung erforderlich
- Theoretische Vollständigkeit: Einige theoretische Vorhersagen (wie direkte Schätzung von Rc) wurden in Experimenten noch nicht vollständig verifikiert
- Detaillierte experimentelle Verifikation: Testen der Theorieeffektivität bei komplexeren Aufgaben
- Verbindung zu Verstärkungslernen: Verbindung theoretischer Indikatoren mit Verstärkungslernbelohnungen und Trainingsprozessen
- Praktische Anwendung: Anwendung von Messwerkzeugen auf Agenten-Design und Training bei komplexen Aufgaben
- Starke theoretische Innovation: Erste Präsentation einer formalen Mestheorie für LLM-Agenten-Suchraum
- Strenger mathematischer Rahmen: Solide mathematische Grundlagen basierend auf unscharfen Relationsoperatoren und Erzeugungsfunktionen
- Hoher praktischer Wert: Bereitstellung operativer Messwerkzeuge und Designrichtlinien
- Ausreichende Verifikation: Externe Verifikation der Theorie durch konkrete Instanziierung
- Begrenzte experimentelle Skalierung: Verifikationsexperimente sind relativ einfach, es fehlen Tests bei komplexen realen Aufgaben
- Hypothesenabhängigkeit: Theoretische Vorhersagen hängen von der Erfüllung spezifischer Hypothesen ab (Unidirektionalität, Niedrigordnungsdominanz)
- Rechenkomplexität: Bei großen Problemen kann die Berechnung der Erzeugungsfunktion auf Komplexitätsprobleme stoßen
- Akademischer Beitrag: Bereitstellung neuer theoretischer Grundlagen und Analysewerkzeuge für LLM-Agenten-Forschung
- Praktischer Wert: Quantitative Anleitung für Agenten-Design bei komplexen Aufgaben
- Reproduzierbarkeit: Bereitstellung detaillierter experimenteller Einrichtungen und Code mit guter Reproduzierbarkeit
- LLM-Agenten-Design mit Sicherheitsbeschränkungen
- Leistungsanalyse bei langfristigen Schlussfolgerungs- und Planungsaufgaben
- Strukturierte Analyse und Optimierung komplexer Suchräume
- Vergleich und Bewertung von Multi-Agenten-Systemen
Das Paper zitiert 32 verwandte Literaturquellen, die wichtige Arbeiten in mehreren Bereichen wie LLM-Schlussfolgerung, Verstärkungslernen, Constraint-Optimierung und unscharfe Systeme abdecken und eine solide Grundlage für die Theoriekonstruktion bieten.