2025-11-16T09:07:12.223206

Where to Search: Measure the Prior-Structured Search Space of LLM Agents

Song
The generate-filter-refine (iterative paradigm) based on large language models (LLMs) has achieved progress in reasoning, programming, and program discovery in AI+Science. However, the effectiveness of search depends on where to search, namely, how to encode the domain prior into an operationally structured hypothesis space. To this end, this paper proposes a compact formal theory that describes and measures LLM-assisted iterative search guided by domain priors. We represent an agent as a fuzzy relation operator on inputs and outputs to capture feasible transitions; the agent is thereby constrained by a fixed safety envelope. To describe multi-step reasoning/search, we weight all reachable paths by a single continuation parameter and sum them to obtain a coverage generating function; this induces a measure of reachability difficulty; and it provides a geometric interpretation of search on the graph induced by the safety envelope. We further provide the simplest testable inferences and validate them via a majority-vote instantiation. This theory offers a workable language and operational tools to measure agents and their search spaces, proposing a systematic formal description of iterative search constructed by LLMs.
academic

कहाँ खोजें: LLM एजेंटों के पूर्व-संरचित खोज स्थान को मापें

मूल जानकारी

  • पेपर ID: 2510.14846
  • शीर्षक: Where to Search: Measure the Prior-Structured Search Space of LLM Agents
  • लेखक: Zhuo-Yang Song
  • वर्गीकरण: cs.AI cs.CL cs.LO
  • प्रकाशन समय: 16 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.14846

सारांश

बड़े भाषा मॉडल (LLMs) पर आधारित जनरेट-फ़िल्टर-परिष्कृत (generate-filter-refine) पुनरावृत्तिमूलक प्रतिमान ने तर्क, प्रोग्रामिंग और AI+विज्ञान कार्यक्रम खोज में प्रगति की है। हालांकि, खोज की प्रभावशीलता इस बात पर निर्भर करती है कि कहाँ खोजें, अर्थात् डोमेन पूर्वधारणा को कार्यशील संरचित परिकल्पना स्थान में कैसे एन्कोड करें। इसके लिए, यह पेपर एक सुसंगत औपचारिक सिद्धांत प्रस्तावित करता है जो डोमेन पूर्वधारणा द्वारा निर्देशित LLM-सहायक पुनरावृत्तिमूलक खोज का वर्णन और माप करता है। लेखक एजेंट को इनपुट और आउटपुट पर फ़ज़ी संबंध ऑपरेटर के रूप में प्रस्तुत करते हैं ताकि व्यवहार्य परिवर्तन को कैप्चर किया जा सके; एजेंट इस प्रकार निश्चित सुरक्षा लिफाफे बाधा द्वारा सीमित हैं। बहु-चरणीय तर्क/खोज का वर्णन करने के लिए, लेखक एकल निरंतरता पैरामीटर के माध्यम से सभी पहुंच योग्य पथों को भारित और योग करते हैं, कवरिंग जनरेटिंग फ़ंक्शन प्राप्त करते हैं; यह पहुंच योग्यता कठिनाई का एक माप प्रेरित करता है; और सुरक्षा लिफाफे-प्रेरित ग्राफ पर खोज की ज्यामितीय व्याख्या प्रदान करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

इस अनुसंधान द्वारा समाधान की जाने वाली मूल समस्या है: LLM एजेंटों के खोज स्थान को व्यवस्थित रूप से कैसे मापें और वर्णित करें। विशेष रूप से, LLM-आधारित पुनरावृत्तिमूलक खोज प्रक्रिया में, खोज दक्षता मौलिक रूप से "कहाँ खोजें" प्रश्न द्वारा सीमित है, अर्थात् डोमेन पूर्वधारणा को एजेंट के कार्यशील स्थान में कैसे एन्कोड करें।

समस्या की महत्ता

  1. दीर्घकालीन कार्य आवश्यकताएं: दीर्घकालीन कार्य सुरक्षा और नियंत्रणीयता पर उच्च मांग रखते हैं, सत्यापन योग्य और नियंत्रणीय सीमाओं के भीतर संचालन की आवश्यकता है
  2. जटिलता चुनौतियां: दीर्घकालीन समस्याओं में अक्सर संयोजक विस्फोट और विरल पुरस्कार शामिल होते हैं, शुद्ध अनुमानी या 0/1 स्कोरिंग पहुंच योग्यता कठिनाई को मापने के लिए अपर्याप्त है
  3. सैद्धांतिक कमी: वर्तमान अभ्यास मुख्य रूप से इंजीनियरिंग अनुमानी (प्रॉम्प्ट डिज़ाइन, फ़िल्टर, स्कोरिंग फ़ंक्शन आदि) पर निर्भर करता है, एकीकृत भाषा और मात्रात्मक उपकरणों की कमी है

मौजूदा विधियों की सीमाएं

  • एजेंट-स्थान-खोज माप भाषा की एकीकृत कमी
  • विभिन्न एजेंटों के बीच पहुंच योग्यता और सुरक्षा के व्यापार-बंद को तुलनीय रूप से मापना कठिन है
  • एजेंट के दीर्घकालीन व्यवहार विशेषताओं की स्पष्ट व्याख्या और व्याख्या की कमी

अनुसंधान प्रेरणा

एक सरल, गणनीय, मॉडल-अज्ञेयवादी औपचारिक सिद्धांत स्थापित करना जो सुरक्षा और पहुंच योग्यता माप को एकीकृत करता है, परीक्षण योग्य भविष्यवाणियां प्रदान करता है और इंजीनियरिंग-उपयोगी डिज़ाइन सिद्धांत प्रदान करता है।

मुख्य योगदान

  1. सुसंगत औपचारिक सिद्धांत प्रस्तावित किया: एजेंटों को फ़ज़ी संबंध ऑपरेटर के रूप में औपचारिक बनाया, कवरिंग जनरेटिंग फ़ंक्शन के माध्यम से पुनरावृत्तिमूलक खोज प्रक्रिया का वर्णन किया
  2. एकीकृत माप ढांचा स्थापित किया: निरंतरता पैरामीटर और कवरिंग इंडेक्स पेश किए, सुरक्षा और पहुंच योग्यता का एकीकृत परिमाणीकरण प्रदान किया
  3. ज्यामितीय व्याख्या प्रदान की: सुरक्षा लिफाफे-प्रेरित निर्देशित ग्राफ पर ज्यामितीय मात्रा परिभाषित की, खोज प्रक्रिया की ज्यामितीय व्याख्या दी
  4. सिद्धांत की भविष्यवाणियों को सत्यापित किया: बहुमत मतदान उदाहरणीकरण के माध्यम से सिद्धांत की परीक्षण योग्य निष्कर्षों को सत्यापित किया, बाहरी सत्यापन प्रदान किया

विधि विवरण

कार्य परिभाषा

  • इनपुट स्थान: C1C_1 (एजेंट इनपुट स्थान)
  • आउटपुट स्थान: C2C_2 (एजेंट आउटपुट स्थान, C2C1C_2 \subseteq C_1 को पुनरावृत्ति का समर्थन करने के लिए संतुष्ट करता है)
  • उद्देश्य: सुरक्षा बाधाओं के तहत पुनरावृत्तिमूलक खोज प्रक्रिया को मापना और वर्णित करना

मुख्य गणितीय ढांचा

1. एजेंट प्रतिनिधित्व

आदर्श एजेंट को फ़ज़ी संबंध ऑपरेटर के रूप में परिभाषित किया गया है: T(f,g):=μf(g),μf:C2[0,1]T(f,g) := \mu_f(g), \quad \mu_f: C_2 \to [0,1]

कठोर आदर्श एजेंट (सुरक्षा लिफाफा): μf(g){0,1},0T(f,g)T0(f,g)\mu_f(g) \in \{0,1\}, \quad 0 \leq T(f,g) \leq T_0(f,g)

2. कवरिंग जनरेटिंग फ़ंक्शन

निरंतरता पैरामीटर p[0,1]p \in [0,1] पेश करते हुए, ff से gg तक कवरिंग जनरेटिंग फ़ंक्शन परिभाषित करें: Pf,g(p):=n=0ST:f(0)=f,f(n)=gpni=0n1μf(i)(f(i+1))P_{f,g}(p) := \sum_{n=0}^{\infty} \sum_{S_T: f^{(0)}=f, f^{(n)}=g} p^n \prod_{i=0}^{n-1} \mu_{f^{(i)}}(f^{(i+1)})

जब C1,C2C_1, C_2 गणनीय हों, तो मैट्रिक्स रूप में प्रस्तुत किया जा सकता है: P(p)=n0pnMn=(IpM)1P(p) = \sum_{n \geq 0} p^n M^n = (I - pM)^{-1}

3. महत्वपूर्ण ज्यामितीय मात्राएं

  • न्यूनतम दूरी: d0(f,g):=inf{nN:Nn(f,g)1}d_0(f,g) := \inf\{n \in \mathbb{N}: N_n(f,g) \geq 1\}
  • न्यूनतम पथ संख्या: Nd0(f,g)N_{d_0}(f,g)
  • महत्वपूर्ण पैरामीटर: pc(f,g):=inf{p[0,1]:Pf,gideal(p)1}p_c(f,g) := \inf\{p \in [0,1]: P_{f,g}^{ideal}(p) \geq 1\}
  • कवरिंग इंडेक्स: Rc(f,g):=1pc(f,g)R_c(f,g) := 1 - p_c(f,g)

तकनीकी नवाचार बिंदु

1. एकीकृत माप भाषा

फ़ज़ी संबंध ऑपरेटर के माध्यम से एजेंटों का एकीकृत प्रतिनिधित्व, जिससे सुरक्षा और पहुंच योग्यता को समान गणितीय प्रतीकों और ज्यामितीय मात्राओं से मापा जा सकता है।

2. निरंतरता पैरामीटर तंत्र

प्रक्षेपवक्र लंबाई को भारित करने के लिए एकल निरंतरता पैरामीटर pp पेश करना, संभाव्यता व्याख्या की जटिलता से बचना, गणनीय माप विधि प्रदान करना।

3. ज्यामितीय व्याख्या

सुरक्षा लिफाफे-प्रेरित निर्देशित ग्राफ पर खोज ज्यामिति परिभाषित करना, अमूर्त खोज प्रक्रिया को ठोस ग्राफ सिद्धांत समस्या में रूपांतरित करना।

4. परीक्षण योग्य परिकल्पनाएं

LLM के लिए निर्मित पुनरावृत्तिमूलक एजेंटों के लिए दो महत्वपूर्ण परिकल्पनाएं प्रस्तावित की गई हैं:

  • परिकल्पना 1: अनुमानित एकदिशीय खोज (बंद-लूप पथ दुर्लभ)
  • परिकल्पना 2: निम्न-क्रम पद प्रभावशाली (बहुत लंबे प्रक्षेपवक्र अपेक्षाकृत दुर्लभ)

प्रायोगिक सेटअप

प्रायोगिक वातावरण

  • खोज स्थान: द्विआयामी ग्रिड GN:={0,,N1}2G_N := \{0,\ldots,N-1\}^2
  • ग्रिड आकार: N=3,5,8N = 3, 5, 8
  • लक्ष्य बिंदु: क्रमशः (1,2),(3,4),(6,7)(1,2), (3,4), (6,7)

एजेंट निर्माण

  1. LLM मॉडल सेट: gpt-4-mini, gpt-4, qwen3, qwen-plus, gemini-2.5-flash, deepseek-v3, grok-4, doubao
  2. बहुमत मतदान तंत्र: प्रत्येक स्थिति ff के लिए स्वतंत्र रूप से m=5m=5 बार नमूना लें, निर्णय के रूप में बहुलक लें
  3. आदर्श एजेंट: μf(t)(g):=1nLμf(L,t)(g)\mu_f^{(t)}(g) := \frac{1}{n}\sum_L \mu_f^{(L,t)}(g)
  4. सुरक्षा लिफाफा: μf0,(t)(g):=1{μf(t)(g)>0}\mu_f^{0,(t)}(g) := \mathbf{1}\{\mu_f^{(t)}(g) > 0\}

मूल्यांकन संकेतक

  • न्यूनतम दूरी d0(f,t)d_0(f,t)
  • न्यूनतम पथ संख्या Nd0(f,t)N_{d_0}(f,t)
  • सत्यापन असमानता: logNd0(f,g)d0(f,g)\log N_{d_0}(f,g) \ll d_0(f,g)

प्रायोगिक परिणाम

मुख्य परिणाम

1. ग्राफ संरचना विशेषताएं

प्रयोग दिखाते हैं कि LLM-प्रेरित सुरक्षा लिफाफा 2D ग्रिड पर एकदिशीयता और विषमदिशीयता की पहुंच योग्य संरचना उत्पन्न करता है, लक्ष्य के लिए मैनहट्टन दूरी में कठोरता से घटता है, परिकल्पना 1 की सीमित पद पूर्वशर्त के अनुरूप।

2. ज्यामितीय संबंध सत्यापन

ग्राफ 2 तीन ग्रिड आकारों पर (d0,Nd0)(d_0, N_{d_0}) के संबंध को दिखाता है:

  • डेटा बिंदु सैद्धांतिक भविष्यवाणी के अनुभवजन्य ऊपरी सीमा के नीचे स्थित हैं
  • जब d0d_0 बड़ा हो, तो असमानता logNd0d0\log N_{d_0} \ll d_0 बेहतर फिट होती है
  • छोटे RcR_c सीमा में अनुभवजन्य नियम का समर्थन करता है

3. परिकल्पना सत्यापन

  • एकदिशीय ग्राफ संरचना: प्रायोगिक रूप से देखी गई ग्राफ एकदिशीय विशेषताएं दिखाती है, परिकल्पना 1 का समर्थन करती है
  • सीमित पथ गणना: सीमित पथ गणना परिकल्पना 2 की सेटिंग के अनुरूप है
  • जटिलता प्रभुत्व: जटिलता (न्यूनतम दूरी) प्रभुत्व और सीमित पथ विविधता की विशेषता को सत्यापित किया

प्रायोगिक निष्कर्ष

  1. थ्रेशहोल्ड व्यवहार: छोटे निरंतरता पैरामीटर में, खोज अपर्याप्त विस्तार स्थिति में है, न्यूनतम पथ पद Pf,g(p)P_{f,g}(p) के व्यवहार पर प्रभुत्व रखते हैं
  2. ज्यामितीय बाधाएं: LLM की शब्दार्थ बाधाएं ग्राफ को एकदिशीय संरचना प्रदान करती हैं, प्रभावी रूप से खोज स्थान को सीमित करती हैं
  3. पहुंच योग्यता पैटर्न: देखे गए (d0,Nd0)(d_0, N_{d_0}) संबंध सैद्धांतिक भविष्यवाणी की ऊपरी सीमा प्रवृत्ति के अनुरूप हैं

संबंधित कार्य

मुख्य अनुसंधान दिशाएं

  1. LLM तर्क प्रतिमान: ReAct, Tree of Thoughts, Chain-of-Thought आदि पुनरावृत्तिमूलक तर्क विधियां
  2. योजना और उपकरण उपयोग: Plan-and-Solve, Toolformer, Voyager आदि एजेंट ढांचे
  3. AI+विज्ञान अनुप्रयोग: कार्यक्रम खोज, एल्गोरिदम खोज, वैज्ञानिक कंप्यूटिंग आदि क्षेत्रों में LLM अनुप्रयोग

इस पेपर के लाभ

  • एकीकृत सैद्धांतिक ढांचा प्रदान करता है, जबकि मौजूदा विधियां अधिकतर अनुभवजन्य अनुमानी हैं
  • मापने योग्य सुरक्षा-पहुंच योग्यता व्यापार-बंद तंत्र स्थापित करता है
  • मॉडल-अज्ञेयवादी औपचारिक विवरण देता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. सैद्धांतिक योगदान: LLM-सहायक पुनरावृत्तिमूलक खोज का सुसंगत औपचारिक सिद्धांत स्थापित किया
  2. माप उपकरण: सुरक्षा और पहुंच योग्यता को मापने के लिए एकीकृत परिचालन उपकरण प्रदान किए
  3. ज्यामितीय अंतर्दृष्टि: खोज प्रक्रिया की ज्यामितीय संरचना और बाधा तंत्र का खुलासा किया
  4. अनुभवजन्य सत्यापन: बहुमत मतदान उदाहरणीकरण के माध्यम से सिद्धांत की परीक्षण योग्य भविष्यवाणियों को सत्यापित किया

सीमाएं

  1. प्रायोगिक पैमाना: वर्तमान सत्यापन केवल छोटे 2D ग्रिड तक सीमित है, बड़े पैमाने और अधिक जटिल कार्यों के सत्यापन की आवश्यकता है
  2. मॉडल कवरेज: हालांकि कई LLM का उपयोग किया गया है, फिर भी व्यापक मॉडल और कार्य कवरेज की आवश्यकता है
  3. सैद्धांतिक पूर्णता: कुछ सैद्धांतिक भविष्यवाणियां (RcR_c का प्रत्यक्ष अनुमान) अभी तक प्रयोगों में पूरी तरह से सत्यापित नहीं हुई हैं

भविष्य की दिशाएं

  1. विस्तृत प्रायोगिक सत्यापन: अधिक जटिल कार्यों पर सैद्धांतिक प्रभावशीलता का परीक्षण करें
  2. सुदृढीकरण सीखने का संबंध: सैद्धांतिक संकेतकों को सुदृढीकरण सीखने के पुरस्कार और प्रशिक्षण प्रक्रिया से जोड़ें
  3. व्यावहारिक अनुप्रयोग: जटिल कार्यों के एजेंट डिज़ाइन और प्रशिक्षण में माप उपकरण लागू करें

गहन मूल्यांकन

शक्तियां

  1. सैद्धांतिक नवाचार मजबूत: LLM एजेंट खोज स्थान के औपचारिक माप सिद्धांत का पहली बार प्रस्ताव
  2. गणितीय ढांचा कठोर: फ़ज़ी संबंध ऑपरेटर और जनरेटिंग फ़ंक्शन पर आधारित गणितीय आधार ठोस है
  3. व्यावहारिक मूल्य उच्च: परिचालन माप उपकरण और डिज़ाइन मार्गदर्शन सिद्धांत प्रदान करता है
  4. सत्यापन पर्याप्त: ठोस उदाहरणीकरण के माध्यम से सिद्धांत का बाहरी सत्यापन प्रदान किया

कमियां

  1. प्रायोगिक पैमाना सीमित: सत्यापन प्रयोग अपेक्षाकृत सरल हैं, जटिल वास्तविक कार्यों के परीक्षण की कमी है
  2. परिकल्पना निर्भरता: सैद्धांतिक भविष्यवाणियां विशिष्ट परिकल्पनाओं (एकदिशीयता, निम्न-क्रम प्रभुत्व) की पूर्ति पर निर्भर करती हैं
  3. कम्प्यूटेशनल जटिलता: बड़े पैमाने की समस्याओं के लिए, जनरेटिंग फ़ंक्शन की गणना जटिलता चुनौतियों का सामना कर सकती है

प्रभाव

  1. शैक्षणिक योगदान: LLM एजेंट अनुसंधान के लिए नई सैद्धांतिक नींव और विश्लेषण उपकरण प्रदान करता है
  2. व्यावहारिक मूल्य: जटिल कार्यों के एजेंट डिज़ाइन के लिए मात्रात्मक मार्गदर्शन प्रदान करता है
  3. पुनरुत्पादनीयता: विस्तृत प्रायोगिक सेटअप और कोड प्रदान करता है, अच्छी पुनरुत्पादनीयता है

लागू परिदृश्य

  • सुरक्षा बाधाओं की आवश्यकता वाले LLM एजेंट डिज़ाइन
  • दीर्घकालीन तर्क और योजना कार्यों का प्रदर्शन विश्लेषण
  • जटिल खोज स्थान की संरचित विश्लेषण और अनुकूलन
  • बहु-एजेंट प्रणालियों की तुलना और मूल्यांकन

संदर्भ

पेपर 32 संबंधित संदर्भों का हवाला देता है, जो LLM तर्क, सुदृढीकरण सीखने, बाधा अनुकूलन, फ़ज़ी प्रणाली आदि कई क्षेत्रों के महत्वपूर्ण कार्यों को कवर करता है, सैद्धांतिक निर्माण के लिए ठोस आधार प्रदान करता है।