2025-11-16T09:07:12.223206

Where to Search: Measure the Prior-Structured Search Space of LLM Agents

Song

The generate-filter-refine (iterative paradigm) based on large language models (LLMs) has achieved progress in reasoning, programming, and program discovery in AI+Science. However, the effectiveness of search depends on where to search, namely, how to encode the domain prior into an operationally structured hypothesis space. To this end, this paper proposes a compact formal theory that describes and measures LLM-assisted iterative search guided by domain priors. We represent an agent as a fuzzy relation operator on inputs and outputs to capture feasible transitions; the agent is thereby constrained by a fixed safety envelope. To describe multi-step reasoning/search, we weight all reachable paths by a single continuation parameter and sum them to obtain a coverage generating function; this induces a measure of reachability difficulty; and it provides a geometric interpretation of search on the graph induced by the safety envelope. We further provide the simplest testable inferences and validate them via a majority-vote instantiation. This theory offers a workable language and operational tools to measure agents and their search spaces, proposing a systematic formal description of iterative search constructed by LLMs.

academic

Wo man suchen sollte: Messung des Prior-strukturierten Suchraums von LLM-Agenten

Grundinformationen

Paper-ID: 2510.14846
Titel: Where to Search: Measure the Prior-Structured Search Space of LLM Agents
Autor: Zhuo-Yang Song
Klassifizierung: cs.AI cs.CL cs.LO
Veröffentlichungsdatum: 16. Oktober 2025 (arXiv Preprint)
Paper-Link: https://arxiv.org/abs/2510.14846

Zusammenfassung

Das iterative Paradigma der Generierung-Filterung-Optimierung (generate-filter-refine) auf Basis großer Sprachmodelle (LLMs) hat Fortschritte bei der Schlussfolgerung, Programmierung und der Programmentdeckung in der KI+Wissenschaft erzielt. Die Effektivität der Suche hängt jedoch davon ab, wo gesucht wird, d.h. wie Domänenpriorinformationen in einen operativen strukturierten Hypothesenraum kodiert werden. Zu diesem Zweck präsentiert dieses Paper eine kompakte formale Theorie zur Beschreibung und Messung der durch Domänenpriorinformationen geleiteten LLM-gestützten iterativen Suche. Der Autor stellt Agenten als unscharfe Relationsoperatoren auf Ein- und Ausgaben dar, um machbare Transformationen zu erfassen; Agenten werden daher durch eine feste Sicherheitshülle begrenzt. Um mehrstufiges Denken/Suchen zu beschreiben, werden alle erreichbaren Pfade durch einen einzelnen Fortsetzungsparameter gewichtet und summiert, was eine Erzeugungsfunktion ergibt; dies induziert ein Maß für die Erreichbarkeitsschwierigkeit und bietet eine geometrische Interpretation der Suche auf dem durch die Sicherheitshülle induzierten Graphen.

Forschungshintergrund und Motivation

Kernproblem

Das Kernproblem dieser Forschung ist: Wie kann man den Suchraum von LLM-Agenten systematisch messen und beschreiben? Konkret wird die Sucheffizienz in LLM-basierten iterativen Suchprozessen grundlegend durch die Frage "wo man suchen sollte" begrenzt, d.h. wie Domänenpriorinformationen in einen für den Agenten operativen Raum kodiert werden.

Bedeutung des Problems

Anforderungen bei langfristigen Aufgaben: Langfristige Aufgaben stellen höhere Anforderungen an Sicherheit und Kontrollierbarkeit und erfordern Operationen innerhalb verifizierbarer und kontrollierbarer Grenzen
Komplexitätsherausforderungen: Langfristige Probleme beinhalten oft kombinatorische Explosionen und spärliche Belohnungen; reine Heuristiken oder 0/1-Bewertungen reichen nicht aus, um die Erreichbarkeitsschwierigkeit zu quantifizieren
Theoretische Lücke: Die aktuelle Praxis stützt sich hauptsächlich auf technische Heuristiken (Prompt-Design, Filter, Bewertungsfunktionen usw.) und entbehrt einer einheitlichen Sprache und quantitativer Werkzeuge

Einschränkungen bestehender Methoden

Fehlende einheitliche Sprache für Agent-Raum-Suchenmessung
Schwierigkeit, die Erreichbarkeits- und Sicherheitskompromisse zwischen verschiedenen Agenten vergleichbar zu messen
Mangel an klarer Charakterisierung und Erklärung der langfristigen Verhaltensmerkmale von Agenten

Forschungsmotivation

Etablierung einer prägnanten, berechenbaren, modellunabhängigen formalen Theorie, die Sicherheits- und Erreichbarkeitsmessungen vereinheitlicht und testbare Vorhersagen sowie technisch nutzbare Designprinzipien bietet.

Kernbeiträge

Präsentation einer prägnanten formalen Theorie: Formalisierung von Agenten als unscharfe Relationsoperatoren, einheitliche Beschreibung iterativer Suchprozesse durch Erzeugungsfunktionen
Etablierung eines einheitlichen Messsystems: Einführung von Fortsetzungsparameter und Abdeckungsindex, Bereitstellung einer einheitlichen Quantifizierungsmethode für Sicherheit und Erreichbarkeit
Bereitstellung geometrischer Interpretation: Definition geometrischer Größen auf dem durch die Sicherheitshülle induzierten gerichteten Graphen, geometrische Interpretation des Suchprozesses
Verifikation theoretischer Vorhersagen: Verifikation der testbaren Schlussfolgerungen der Theorie durch Mehrheitsentscheidungsinstanziierung, externe Validierung bereitgestellt

Methodische Details

Aufgabendefinition

Eingaberaum: $C_1$ (Eingaberaum des Agenten)
Ausgaberaum: $C_2$ (Ausgaberaum des Agenten, mit $C_2 \subseteq C_1$ zur Unterstützung von Iteration)
Ziel: Messung und Beschreibung iterativer Suchprozesse unter Sicherheitsbeschränkungen

Mathematischer Kernrahmen

1. Agentendarstellung

Idealer Agent definiert als unscharfer Relationsoperator: $T(f,g) := \mu_f(g), \quad \mu_f: C_2 \to [0,1]$

Spröder idealer Agent (Sicherheitshülle): $\mu_f(g) \in \{0,1\}, \quad 0 \leq T(f,g) \leq T_0(f,g)$

2. Erzeugungsfunktion

Einführung eines Fortsetzungsparameters $p \in [0,1]$ , Definition der Erzeugungsfunktion von $f$ zu $g$ : $P_{f,g}(p) := \sum_{n=0}^{\infty} \sum_{S_T: f^{(0)}=f, f^{(n)}=g} p^n \prod_{i=0}^{n-1} \mu_{f^{(i)}}(f^{(i+1)})$

Wenn $C_1, C_2$ abzählbar sind, kann dies in Matrixform dargestellt werden: $P(p) = \sum_{n \geq 0} p^n M^n = (I - pM)^{-1}$

3. Wichtige geometrische Größen

Kürzeste Distanz: $d_0(f,g) := \inf\{n \in \mathbb{N}: N_n(f,g) \geq 1\}$
Anzahl kürzester Pfade: $N_{d_0}(f,g)$
Kritischer Parameter: $p_c(f,g) := \inf\{p \in [0,1]: P_{f,g}^{ideal}(p) \geq 1\}$
Abdeckungsindex: $R_c(f,g) := 1 - p_c(f,g)$

Technische Innovationen

1. Einheitliche Messprache

Durch unscharfe Relationsoperatoren wird eine einheitliche Agentendarstellung ermöglicht, sodass Sicherheit und Erreichbarkeit mit denselben mathematischen Symbolen und geometrischen Größen gemessen werden können.

2. Fortsetzungsparameter-Mechanismus

Einführung eines einzelnen Fortsetzungsparameters $p$ zur Gewichtung der Trajektorielänge, vermeidung der Komplexität probabilistischer Interpretationen, Bereitstellung einer berechenbaren Messmethode.

3. Geometrische Interpretation

Definition der Suchgeometrie auf dem durch die Sicherheitshülle induzierten gerichteten Graphen, Umwandlung abstrakter Suchprozesse in konkrete graphentheoretische Probleme.

4. Testbare Hypothesen

Präsentation zweier Schlüsselhypothesen für LLM-konstruierte iterative Agenten:

Hypothese 1: Näherungsweise unidirektionale Suche (geschlossene Schleifen sind selten)
Hypothese 2: Niedrigordnungsterme dominieren (sehr lange Trajektorien sind relativ selten)

Experimentelle Einrichtung

Experimentelle Umgebung

Suchraum: Zweidimensionales Gitter $G_N := \{0,\ldots,N-1\}^2$
Gittergröße: $N = 3, 5, 8$
Zielpunkte: Jeweils $(1,2), (3,4), (6,7)$

Agentenkonstruktion

LLM-Modellsatz: gpt-4-mini, gpt-4, qwen3, qwen-plus, gemini-2.5-flash, deepseek-v3, grok-4, doubao
Mehrheitsentscheidungsmechanismus: Für jede Position $f$ unabhängig $m=5$ Mal samplen, Modus als Entscheidung nehmen
Idealer Agent: $\mu_f^{(t)}(g) := \frac{1}{n}\sum_L \mu_f^{(L,t)}(g)$
Sicherheitshülle: $\mu_f^{0,(t)}(g) := \mathbf{1}\{\mu_f^{(t)}(g) > 0\}$

Bewertungsindikatoren

Kürzeste Distanz $d_0(f,t)$
Anzahl kürzester Pfade $N_{d_0}(f,t)$
Verifikation der Ungleichung: $\log N_{d_0}(f,g) \ll d_0(f,g)$

Experimentelle Ergebnisse

Hauptergebnisse

1. Graphenstrukturmerkmale

Experimente zeigen, dass die durch LLM induzierte Sicherheitshülle auf 2D-Gittern unidirektionale und anisotrope erreichbare Strukturen erzeugt, die streng zur Manhattan-Distanz des Ziels abnehmen, konsistent mit der endlichen Termvoraussetzung von Hypothese 1.

2. Verifikation geometrischer Beziehungen

Abbildung 2 zeigt die Beziehung zwischen $(d_0, N_{d_0})$ bei drei Gittergrößen:

Datenpunkte liegen unterhalb der theoretisch vorhergesagten empirischen Obergrenze
Wenn $d_0$ größer ist, passt die Ungleichung $\log N_{d_0} \ll d_0$ besser
Unterstützt die empirische Regel im Grenzfall kleiner $R_c$

3. Hypothesenverifikation

Unidirektionale Graphenstruktur: Die beobachtete Graphenstruktur weist unidirektionale Merkmale auf und unterstützt Hypothese 1
Endliche Pfadzählung: Endliche Pfadzählung stimmt mit der Einstellung von Hypothese 2 überein
Komplexitätsdominanz: Verifikation der Charakteristik, dass Komplexität (kürzeste Distanz) dominiert, während Pfadvielfalt begrenzt ist

Experimentelle Erkenntnisse

Schwellenwertverhalten: Bei kleinen Fortsetzungsparametern befindet sich die Suche in einem unzureichend erweiterten Zustand, wobei der kürzeste Pfadterm das Verhalten von $P_{f,g}(p)$ dominiert
Geometrische Beschränkungen: Die semantischen Beschränkungen von LLMs führen dazu, dass der Graph eine unidirektionale Struktur aufweist, die den Suchraum effektiv begrenzt
Erreichbarkeitsmuster: Die beobachtete $(d_0, N_{d_0})$ -Beziehung stimmt mit der Obergrenzentrendvorhersage der Theorie überein

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Theoretischer Beitrag: Etablierung einer prägnanten formalen Theorie für LLM-gestützte iterative Suche
Messwerkzeuge: Bereitstellung operativer Werkzeuge zur einheitlichen Messung von Sicherheit und Erreichbarkeit
Geometrische Einsichten: Enthüllung der geometrischen Struktur und Beschränkungsmechanismen von Suchprozessen
Empirische Verifikation: Verifikation testbarer Vorhersagen der Theorie durch Mehrheitsentscheidungsinstanziierung

Einschränkungen

Experimentelle Skalierung: Aktuelle Verifikation beschränkt sich auf kleine 2D-Gitter, erfordert Verifikation bei größeren Skalen und komplexeren Aufgaben
Modellabdeckung: Obwohl mehrere LLMs verwendet werden, ist eine breitere Modell- und Aufgabenabdeckung erforderlich
Theoretische Vollständigkeit: Einige theoretische Vorhersagen (wie direkte Schätzung von $R_c$ ) wurden in Experimenten noch nicht vollständig verifikiert

Zukünftige Richtungen

Detaillierte experimentelle Verifikation: Testen der Theorieeffektivität bei komplexeren Aufgaben
Verbindung zu Verstärkungslernen: Verbindung theoretischer Indikatoren mit Verstärkungslernbelohnungen und Trainingsprozessen
Praktische Anwendung: Anwendung von Messwerkzeugen auf Agenten-Design und Training bei komplexen Aufgaben

Tiefgreifende Bewertung

Stärken

Starke theoretische Innovation: Erste Präsentation einer formalen Mestheorie für LLM-Agenten-Suchraum
Strenger mathematischer Rahmen: Solide mathematische Grundlagen basierend auf unscharfen Relationsoperatoren und Erzeugungsfunktionen
Hoher praktischer Wert: Bereitstellung operativer Messwerkzeuge und Designrichtlinien
Ausreichende Verifikation: Externe Verifikation der Theorie durch konkrete Instanziierung

Mängel

Begrenzte experimentelle Skalierung: Verifikationsexperimente sind relativ einfach, es fehlen Tests bei komplexen realen Aufgaben
Hypothesenabhängigkeit: Theoretische Vorhersagen hängen von der Erfüllung spezifischer Hypothesen ab (Unidirektionalität, Niedrigordnungsdominanz)
Rechenkomplexität: Bei großen Problemen kann die Berechnung der Erzeugungsfunktion auf Komplexitätsprobleme stoßen

Einfluss

Akademischer Beitrag: Bereitstellung neuer theoretischer Grundlagen und Analysewerkzeuge für LLM-Agenten-Forschung
Praktischer Wert: Quantitative Anleitung für Agenten-Design bei komplexen Aufgaben
Reproduzierbarkeit: Bereitstellung detaillierter experimenteller Einrichtungen und Code mit guter Reproduzierbarkeit

Anwendungsszenarien

LLM-Agenten-Design mit Sicherheitsbeschränkungen
Leistungsanalyse bei langfristigen Schlussfolgerungs- und Planungsaufgaben
Strukturierte Analyse und Optimierung komplexer Suchräume
Vergleich und Bewertung von Multi-Agenten-Systemen

Referenzen

Das Paper zitiert 32 verwandte Literaturquellen, die wichtige Arbeiten in mehreren Bereichen wie LLM-Schlussfolgerung, Verstärkungslernen, Constraint-Optimierung und unscharfe Systeme abdecken und eine solide Grundlage für die Theoriekonstruktion bieten.