The generate-filter-refine (iterative paradigm) based on large language models (LLMs) has achieved progress in reasoning, programming, and program discovery in AI+Science. However, the effectiveness of search depends on where to search, namely, how to encode the domain prior into an operationally structured hypothesis space. To this end, this paper proposes a compact formal theory that describes and measures LLM-assisted iterative search guided by domain priors. We represent an agent as a fuzzy relation operator on inputs and outputs to capture feasible transitions; the agent is thereby constrained by a fixed safety envelope. To describe multi-step reasoning/search, we weight all reachable paths by a single continuation parameter and sum them to obtain a coverage generating function; this induces a measure of reachability difficulty; and it provides a geometric interpretation of search on the graph induced by the safety envelope. We further provide the simplest testable inferences and validate them via a majority-vote instantiation. This theory offers a workable language and operational tools to measure agents and their search spaces, proposing a systematic formal description of iterative search constructed by LLMs.
- पेपर ID: 2510.14846
- शीर्षक: Where to Search: Measure the Prior-Structured Search Space of LLM Agents
- लेखक: Zhuo-Yang Song
- वर्गीकरण: cs.AI cs.CL cs.LO
- प्रकाशन समय: 16 अक्टूबर 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2510.14846
बड़े भाषा मॉडल (LLMs) पर आधारित जनरेट-फ़िल्टर-परिष्कृत (generate-filter-refine) पुनरावृत्तिमूलक प्रतिमान ने तर्क, प्रोग्रामिंग और AI+विज्ञान कार्यक्रम खोज में प्रगति की है। हालांकि, खोज की प्रभावशीलता इस बात पर निर्भर करती है कि कहाँ खोजें, अर्थात् डोमेन पूर्वधारणा को कार्यशील संरचित परिकल्पना स्थान में कैसे एन्कोड करें। इसके लिए, यह पेपर एक सुसंगत औपचारिक सिद्धांत प्रस्तावित करता है जो डोमेन पूर्वधारणा द्वारा निर्देशित LLM-सहायक पुनरावृत्तिमूलक खोज का वर्णन और माप करता है। लेखक एजेंट को इनपुट और आउटपुट पर फ़ज़ी संबंध ऑपरेटर के रूप में प्रस्तुत करते हैं ताकि व्यवहार्य परिवर्तन को कैप्चर किया जा सके; एजेंट इस प्रकार निश्चित सुरक्षा लिफाफे बाधा द्वारा सीमित हैं। बहु-चरणीय तर्क/खोज का वर्णन करने के लिए, लेखक एकल निरंतरता पैरामीटर के माध्यम से सभी पहुंच योग्य पथों को भारित और योग करते हैं, कवरिंग जनरेटिंग फ़ंक्शन प्राप्त करते हैं; यह पहुंच योग्यता कठिनाई का एक माप प्रेरित करता है; और सुरक्षा लिफाफे-प्रेरित ग्राफ पर खोज की ज्यामितीय व्याख्या प्रदान करता है।
इस अनुसंधान द्वारा समाधान की जाने वाली मूल समस्या है: LLM एजेंटों के खोज स्थान को व्यवस्थित रूप से कैसे मापें और वर्णित करें। विशेष रूप से, LLM-आधारित पुनरावृत्तिमूलक खोज प्रक्रिया में, खोज दक्षता मौलिक रूप से "कहाँ खोजें" प्रश्न द्वारा सीमित है, अर्थात् डोमेन पूर्वधारणा को एजेंट के कार्यशील स्थान में कैसे एन्कोड करें।
- दीर्घकालीन कार्य आवश्यकताएं: दीर्घकालीन कार्य सुरक्षा और नियंत्रणीयता पर उच्च मांग रखते हैं, सत्यापन योग्य और नियंत्रणीय सीमाओं के भीतर संचालन की आवश्यकता है
- जटिलता चुनौतियां: दीर्घकालीन समस्याओं में अक्सर संयोजक विस्फोट और विरल पुरस्कार शामिल होते हैं, शुद्ध अनुमानी या 0/1 स्कोरिंग पहुंच योग्यता कठिनाई को मापने के लिए अपर्याप्त है
- सैद्धांतिक कमी: वर्तमान अभ्यास मुख्य रूप से इंजीनियरिंग अनुमानी (प्रॉम्प्ट डिज़ाइन, फ़िल्टर, स्कोरिंग फ़ंक्शन आदि) पर निर्भर करता है, एकीकृत भाषा और मात्रात्मक उपकरणों की कमी है
- एजेंट-स्थान-खोज माप भाषा की एकीकृत कमी
- विभिन्न एजेंटों के बीच पहुंच योग्यता और सुरक्षा के व्यापार-बंद को तुलनीय रूप से मापना कठिन है
- एजेंट के दीर्घकालीन व्यवहार विशेषताओं की स्पष्ट व्याख्या और व्याख्या की कमी
एक सरल, गणनीय, मॉडल-अज्ञेयवादी औपचारिक सिद्धांत स्थापित करना जो सुरक्षा और पहुंच योग्यता माप को एकीकृत करता है, परीक्षण योग्य भविष्यवाणियां प्रदान करता है और इंजीनियरिंग-उपयोगी डिज़ाइन सिद्धांत प्रदान करता है।
- सुसंगत औपचारिक सिद्धांत प्रस्तावित किया: एजेंटों को फ़ज़ी संबंध ऑपरेटर के रूप में औपचारिक बनाया, कवरिंग जनरेटिंग फ़ंक्शन के माध्यम से पुनरावृत्तिमूलक खोज प्रक्रिया का वर्णन किया
- एकीकृत माप ढांचा स्थापित किया: निरंतरता पैरामीटर और कवरिंग इंडेक्स पेश किए, सुरक्षा और पहुंच योग्यता का एकीकृत परिमाणीकरण प्रदान किया
- ज्यामितीय व्याख्या प्रदान की: सुरक्षा लिफाफे-प्रेरित निर्देशित ग्राफ पर ज्यामितीय मात्रा परिभाषित की, खोज प्रक्रिया की ज्यामितीय व्याख्या दी
- सिद्धांत की भविष्यवाणियों को सत्यापित किया: बहुमत मतदान उदाहरणीकरण के माध्यम से सिद्धांत की परीक्षण योग्य निष्कर्षों को सत्यापित किया, बाहरी सत्यापन प्रदान किया
- इनपुट स्थान: C1 (एजेंट इनपुट स्थान)
- आउटपुट स्थान: C2 (एजेंट आउटपुट स्थान, C2⊆C1 को पुनरावृत्ति का समर्थन करने के लिए संतुष्ट करता है)
- उद्देश्य: सुरक्षा बाधाओं के तहत पुनरावृत्तिमूलक खोज प्रक्रिया को मापना और वर्णित करना
आदर्श एजेंट को फ़ज़ी संबंध ऑपरेटर के रूप में परिभाषित किया गया है:
T(f,g):=μf(g),μf:C2→[0,1]
कठोर आदर्श एजेंट (सुरक्षा लिफाफा):
μf(g)∈{0,1},0≤T(f,g)≤T0(f,g)
निरंतरता पैरामीटर p∈[0,1] पेश करते हुए, f से g तक कवरिंग जनरेटिंग फ़ंक्शन परिभाषित करें:
Pf,g(p):=∑n=0∞∑ST:f(0)=f,f(n)=gpn∏i=0n−1μf(i)(f(i+1))
जब C1,C2 गणनीय हों, तो मैट्रिक्स रूप में प्रस्तुत किया जा सकता है:
P(p)=∑n≥0pnMn=(I−pM)−1
- न्यूनतम दूरी: d0(f,g):=inf{n∈N:Nn(f,g)≥1}
- न्यूनतम पथ संख्या: Nd0(f,g)
- महत्वपूर्ण पैरामीटर: pc(f,g):=inf{p∈[0,1]:Pf,gideal(p)≥1}
- कवरिंग इंडेक्स: Rc(f,g):=1−pc(f,g)
फ़ज़ी संबंध ऑपरेटर के माध्यम से एजेंटों का एकीकृत प्रतिनिधित्व, जिससे सुरक्षा और पहुंच योग्यता को समान गणितीय प्रतीकों और ज्यामितीय मात्राओं से मापा जा सकता है।
प्रक्षेपवक्र लंबाई को भारित करने के लिए एकल निरंतरता पैरामीटर p पेश करना, संभाव्यता व्याख्या की जटिलता से बचना, गणनीय माप विधि प्रदान करना।
सुरक्षा लिफाफे-प्रेरित निर्देशित ग्राफ पर खोज ज्यामिति परिभाषित करना, अमूर्त खोज प्रक्रिया को ठोस ग्राफ सिद्धांत समस्या में रूपांतरित करना।
LLM के लिए निर्मित पुनरावृत्तिमूलक एजेंटों के लिए दो महत्वपूर्ण परिकल्पनाएं प्रस्तावित की गई हैं:
- परिकल्पना 1: अनुमानित एकदिशीय खोज (बंद-लूप पथ दुर्लभ)
- परिकल्पना 2: निम्न-क्रम पद प्रभावशाली (बहुत लंबे प्रक्षेपवक्र अपेक्षाकृत दुर्लभ)
- खोज स्थान: द्विआयामी ग्रिड GN:={0,…,N−1}2
- ग्रिड आकार: N=3,5,8
- लक्ष्य बिंदु: क्रमशः (1,2),(3,4),(6,7)
- LLM मॉडल सेट: gpt-4-mini, gpt-4, qwen3, qwen-plus, gemini-2.5-flash, deepseek-v3, grok-4, doubao
- बहुमत मतदान तंत्र: प्रत्येक स्थिति f के लिए स्वतंत्र रूप से m=5 बार नमूना लें, निर्णय के रूप में बहुलक लें
- आदर्श एजेंट: μf(t)(g):=n1∑Lμf(L,t)(g)
- सुरक्षा लिफाफा: μf0,(t)(g):=1{μf(t)(g)>0}
- न्यूनतम दूरी d0(f,t)
- न्यूनतम पथ संख्या Nd0(f,t)
- सत्यापन असमानता: logNd0(f,g)≪d0(f,g)
प्रयोग दिखाते हैं कि LLM-प्रेरित सुरक्षा लिफाफा 2D ग्रिड पर एकदिशीयता और विषमदिशीयता की पहुंच योग्य संरचना उत्पन्न करता है, लक्ष्य के लिए मैनहट्टन दूरी में कठोरता से घटता है, परिकल्पना 1 की सीमित पद पूर्वशर्त के अनुरूप।
ग्राफ 2 तीन ग्रिड आकारों पर (d0,Nd0) के संबंध को दिखाता है:
- डेटा बिंदु सैद्धांतिक भविष्यवाणी के अनुभवजन्य ऊपरी सीमा के नीचे स्थित हैं
- जब d0 बड़ा हो, तो असमानता logNd0≪d0 बेहतर फिट होती है
- छोटे Rc सीमा में अनुभवजन्य नियम का समर्थन करता है
- एकदिशीय ग्राफ संरचना: प्रायोगिक रूप से देखी गई ग्राफ एकदिशीय विशेषताएं दिखाती है, परिकल्पना 1 का समर्थन करती है
- सीमित पथ गणना: सीमित पथ गणना परिकल्पना 2 की सेटिंग के अनुरूप है
- जटिलता प्रभुत्व: जटिलता (न्यूनतम दूरी) प्रभुत्व और सीमित पथ विविधता की विशेषता को सत्यापित किया
- थ्रेशहोल्ड व्यवहार: छोटे निरंतरता पैरामीटर में, खोज अपर्याप्त विस्तार स्थिति में है, न्यूनतम पथ पद Pf,g(p) के व्यवहार पर प्रभुत्व रखते हैं
- ज्यामितीय बाधाएं: LLM की शब्दार्थ बाधाएं ग्राफ को एकदिशीय संरचना प्रदान करती हैं, प्रभावी रूप से खोज स्थान को सीमित करती हैं
- पहुंच योग्यता पैटर्न: देखे गए (d0,Nd0) संबंध सैद्धांतिक भविष्यवाणी की ऊपरी सीमा प्रवृत्ति के अनुरूप हैं
- LLM तर्क प्रतिमान: ReAct, Tree of Thoughts, Chain-of-Thought आदि पुनरावृत्तिमूलक तर्क विधियां
- योजना और उपकरण उपयोग: Plan-and-Solve, Toolformer, Voyager आदि एजेंट ढांचे
- AI+विज्ञान अनुप्रयोग: कार्यक्रम खोज, एल्गोरिदम खोज, वैज्ञानिक कंप्यूटिंग आदि क्षेत्रों में LLM अनुप्रयोग
- एकीकृत सैद्धांतिक ढांचा प्रदान करता है, जबकि मौजूदा विधियां अधिकतर अनुभवजन्य अनुमानी हैं
- मापने योग्य सुरक्षा-पहुंच योग्यता व्यापार-बंद तंत्र स्थापित करता है
- मॉडल-अज्ञेयवादी औपचारिक विवरण देता है
- सैद्धांतिक योगदान: LLM-सहायक पुनरावृत्तिमूलक खोज का सुसंगत औपचारिक सिद्धांत स्थापित किया
- माप उपकरण: सुरक्षा और पहुंच योग्यता को मापने के लिए एकीकृत परिचालन उपकरण प्रदान किए
- ज्यामितीय अंतर्दृष्टि: खोज प्रक्रिया की ज्यामितीय संरचना और बाधा तंत्र का खुलासा किया
- अनुभवजन्य सत्यापन: बहुमत मतदान उदाहरणीकरण के माध्यम से सिद्धांत की परीक्षण योग्य भविष्यवाणियों को सत्यापित किया
- प्रायोगिक पैमाना: वर्तमान सत्यापन केवल छोटे 2D ग्रिड तक सीमित है, बड़े पैमाने और अधिक जटिल कार्यों के सत्यापन की आवश्यकता है
- मॉडल कवरेज: हालांकि कई LLM का उपयोग किया गया है, फिर भी व्यापक मॉडल और कार्य कवरेज की आवश्यकता है
- सैद्धांतिक पूर्णता: कुछ सैद्धांतिक भविष्यवाणियां (Rc का प्रत्यक्ष अनुमान) अभी तक प्रयोगों में पूरी तरह से सत्यापित नहीं हुई हैं
- विस्तृत प्रायोगिक सत्यापन: अधिक जटिल कार्यों पर सैद्धांतिक प्रभावशीलता का परीक्षण करें
- सुदृढीकरण सीखने का संबंध: सैद्धांतिक संकेतकों को सुदृढीकरण सीखने के पुरस्कार और प्रशिक्षण प्रक्रिया से जोड़ें
- व्यावहारिक अनुप्रयोग: जटिल कार्यों के एजेंट डिज़ाइन और प्रशिक्षण में माप उपकरण लागू करें
- सैद्धांतिक नवाचार मजबूत: LLM एजेंट खोज स्थान के औपचारिक माप सिद्धांत का पहली बार प्रस्ताव
- गणितीय ढांचा कठोर: फ़ज़ी संबंध ऑपरेटर और जनरेटिंग फ़ंक्शन पर आधारित गणितीय आधार ठोस है
- व्यावहारिक मूल्य उच्च: परिचालन माप उपकरण और डिज़ाइन मार्गदर्शन सिद्धांत प्रदान करता है
- सत्यापन पर्याप्त: ठोस उदाहरणीकरण के माध्यम से सिद्धांत का बाहरी सत्यापन प्रदान किया
- प्रायोगिक पैमाना सीमित: सत्यापन प्रयोग अपेक्षाकृत सरल हैं, जटिल वास्तविक कार्यों के परीक्षण की कमी है
- परिकल्पना निर्भरता: सैद्धांतिक भविष्यवाणियां विशिष्ट परिकल्पनाओं (एकदिशीयता, निम्न-क्रम प्रभुत्व) की पूर्ति पर निर्भर करती हैं
- कम्प्यूटेशनल जटिलता: बड़े पैमाने की समस्याओं के लिए, जनरेटिंग फ़ंक्शन की गणना जटिलता चुनौतियों का सामना कर सकती है
- शैक्षणिक योगदान: LLM एजेंट अनुसंधान के लिए नई सैद्धांतिक नींव और विश्लेषण उपकरण प्रदान करता है
- व्यावहारिक मूल्य: जटिल कार्यों के एजेंट डिज़ाइन के लिए मात्रात्मक मार्गदर्शन प्रदान करता है
- पुनरुत्पादनीयता: विस्तृत प्रायोगिक सेटअप और कोड प्रदान करता है, अच्छी पुनरुत्पादनीयता है
- सुरक्षा बाधाओं की आवश्यकता वाले LLM एजेंट डिज़ाइन
- दीर्घकालीन तर्क और योजना कार्यों का प्रदर्शन विश्लेषण
- जटिल खोज स्थान की संरचित विश्लेषण और अनुकूलन
- बहु-एजेंट प्रणालियों की तुलना और मूल्यांकन
पेपर 32 संबंधित संदर्भों का हवाला देता है, जो LLM तर्क, सुदृढीकरण सीखने, बाधा अनुकूलन, फ़ज़ी प्रणाली आदि कई क्षेत्रों के महत्वपूर्ण कार्यों को कवर करता है, सैद्धांतिक निर्माण के लिए ठोस आधार प्रदान करता है।