The generate-filter-refine (iterative paradigm) based on large language models (LLMs) has achieved progress in reasoning, programming, and program discovery in AI+Science. However, the effectiveness of search depends on where to search, namely, how to encode the domain prior into an operationally structured hypothesis space. To this end, this paper proposes a compact formal theory that describes and measures LLM-assisted iterative search guided by domain priors. We represent an agent as a fuzzy relation operator on inputs and outputs to capture feasible transitions; the agent is thereby constrained by a fixed safety envelope. To describe multi-step reasoning/search, we weight all reachable paths by a single continuation parameter and sum them to obtain a coverage generating function; this induces a measure of reachability difficulty; and it provides a geometric interpretation of search on the graph induced by the safety envelope. We further provide the simplest testable inferences and validate them via a majority-vote instantiation. This theory offers a workable language and operational tools to measure agents and their search spaces, proposing a systematic formal description of iterative search constructed by LLMs.
- معرّف الورقة: 2510.14846
- العنوان: أين تبحث: قياس فضاء البحث المنظم مسبقاً لوكلاء نماذج اللغة الكبيرة
- المؤلف: Zhuo-Yang Song
- التصنيف: cs.AI cs.CL cs.LO
- تاريخ النشر: 16 أكتوبر 2025 (نسخة أولية على arXiv)
- رابط الورقة: https://arxiv.org/abs/2510.14846
حقق نموذج التكرار "توليد-تصفية-تحسين" (generate-filter-refine) القائم على نماذج اللغة الكبيرة (LLMs) تقدماً في الاستدلال والبرمجة واكتشاف البرامج في مجال الذكاء الاصطناعي والعلوم. ومع ذلك، يعتمد فعالية البحث على "أين تبحث"، أي كيفية ترميز السابقة المجالية في فضاء افتراضات منظم وقابل للتشغيل. لهذا الغرض، تقترح هذه الورقة نظرية رسمية مضغوطة لوصف وقياس البحث التكراري بمساعدة نماذج اللغة الكبيرة الموجهة بالسابقة المجالية. يمثل المؤلف الوكيل كمشغل علاقة غامض على المدخلات والمخرجات لالتقاط التحويلات الممكنة؛ وبالتالي يتم تقييد الوكيل بواسطة غلاف أمان ثابت. لوصف الاستدلال متعدد الخطوات/البحث، يقوم المؤلف بتجميع وترجيح جميع المسارات القابلة للوصول من خلال معامل استمرار واحد، مما ينتج عنه دالة توليد التغطية؛ وهذا يحفز مقياس صعوبة القابلية للوصول؛ ويوفر تفسيراً هندسياً للبحث على الرسم البياني المستحث من غلاف الأمان.
تتمثل المشكلة الأساسية التي تعالجها هذه الدراسة في: كيفية قياس ووصف فضاء البحث لوكلاء نماذج اللغة الكبيرة بشكل منهجي. بشكل محدد، في عملية البحث التكراري القائمة على نماذج اللغة الكبيرة، تقتصر فعالية البحث بشكل أساسي على مسألة "أين تبحث"، أي كيفية ترميز السابقة المجالية في الفضاء الذي يمكن للوكيل تشغيله.
- متطلبات المهام طويلة الأفق الزمني: تفرض المهام طويلة الأفق الزمني متطلبات أعلى على السلامة والتحكم، مما يتطلب العمل ضمن حدود قابلة للتحقق والتحكم
- تحديات التعقيد: غالباً ما تنطوي المشاكل طويلة الأفق الزمني على انفجار اندماجي ومكافآت نادرة، وتقييم بسيط أو ثنائي غير كافٍ لتحديد صعوبة القابلية للوصول
- نقص نظري: يعتمد الممارسة الحالية بشكل أساسي على الاستدلالات الهندسية (تصميم المحفزات والمرشحات ودوال التقييم وما إلى ذلك)، مع افتقار إلى لغة موحدة وأدوات كمية
- غياب لغة موحدة لقياس الوكيل-الفضاء-البحث
- صعوبة قياس المقايضة بين القابلية للوصول والسلامة بشكل قابل للمقارنة بين الوكلاء المختلفين
- غياب توصيف واضح وتفسير لخصائص السلوك طويل الأفق الزمني للوكيل
إنشاء نظرية رسمية موجزة وقابلة للحساب ومستقلة عن النموذج، توحد قياس السلامة والقابلية للوصول، وتوفر تنبؤات قابلة للاختبار ومبادئ تصميم قابلة للاستخدام الهندسي.
- اقتراح نظرية رسمية مضغوطة: تشكيل الوكيل كمشغل علاقة غامق، وصف عملية البحث التكراري من خلال دالة توليد التغطية
- إنشاء إطار قياس موحد: إدخال معامل الاستمرار ومؤشر التغطية، توفير طريقة كمية موحدة للسلامة والقابلية للوصول
- توفير تفسير هندسي: تحديد الكميات الهندسية على الرسم البياني الموجه المستحث من غلاف الأمان، وتقديم تفسير هندسي لعملية البحث
- التحقق من التنبؤات النظرية: التحقق من الاستنتاجات القابلة للاختبار للنظرية من خلال تجسيد التصويت بالأغلبية، وتوفير التحقق الخارجي
- فضاء الإدخال: C1 (فضاء إدخال الوكيل)
- فضاء الإخراج: C2 (فضاء إخراج الوكيل، حيث C2⊆C1 لدعم التكرار)
- الهدف: قياس ووصف عملية البحث التكراري تحت قيود السلامة
الوكيل المثالي يُعرّف كمشغل علاقة غامق:
T(f,g):=μf(g),μf:C2→[0,1]
الوكيل المثالي الهش (غلاف الأمان):
μf(g)∈{0,1},0≤T(f,g)≤T0(f,g)
إدخال معامل الاستمرار p∈[0,1]، تعريف دالة توليد التغطية من f إلى g:
Pf,g(p):=∑n=0∞∑ST:f(0)=f,f(n)=gpn∏i=0n−1μf(i)(f(i+1))
عندما يكون C1,C2 قابلاً للعد، يمكن تمثيله في شكل مصفوفة:
P(p)=∑n≥0pnMn=(I−pM)−1
- أقصر مسافة: d0(f,g):=inf{n∈N:Nn(f,g)≥1}
- عدد أقصر المسارات: Nd0(f,g)
- المعامل الحرج: pc(f,g):=inf{p∈[0,1]:Pf,gideal(p)≥1}
- مؤشر التغطية: Rc(f,g):=1−pc(f,g)
توحيد تمثيل الوكيل من خلال مشغل علاقة غامق، بحيث يمكن قياس السلامة والقابلية للوصول باستخدام نفس الرموز الرياضية والكميات الهندسية.
إدخال معامل استمرار واحد p لترجيح طول المسار، مما يتجنب تعقيد التفسير الاحتمالي، ويوفر طريقة قياس قابلة للحساب.
تحديد هندسة البحث على الرسم البياني الموجه المستحث من غلاف الأمان، وتحويل عملية البحث المجردة إلى مشكلة نظرية رسم بياني ملموسة.
اقتراح فرضيتين رئيسيتين للوكلاء التكراريين المبنيين على نماذج اللغة الكبيرة:
- الفرضية 1: البحث أحادي الاتجاه التقريبي (ندرة المسارات المغلقة)
- الفرضية 2: هيمنة الحدود منخفضة الرتبة (ندرة المسارات الطويلة جداً)
- فضاء البحث: شبكة ثنائية الأبعاد GN:={0,…,N−1}2
- حجم الشبكة: N=3,5,8
- نقاط الهدف: (1,2),(3,4),(6,7) على التوالي
- مجموعة نماذج اللغة الكبيرة: gpt-4-mini, gpt-4, qwen3, qwen-plus, gemini-2.5-flash, deepseek-v3, grok-4, doubao
- آلية التصويت بالأغلبية: أخذ عينات مستقلة m=5 مرات لكل موضع f، واختيار الوضع كقرار
- الوكيل المثالي: μf(t)(g):=n1∑Lμf(L,t)(g)
- غلاف الأمان: μf0,(t)(g):=1{μf(t)(g)>0}
- أقصر مسافة d0(f,t)
- عدد أقصر المسارات Nd0(f,t)
- التحقق من عدم المساواة: logNd0(f,g)≪d0(f,g)
أظهرت التجارب أن غلاف الأمان المستحث من نماذج اللغة الكبيرة ينتج عنه هيكل قابلية وصول أحادي الاتجاه وغير متناحٍ على شبكة ثنائية الأبعاد، مع انخفاض صارم إلى مسافة مانهاتن للهدف، متسقة مع المقدمة المحدودة للفرضية 1.
يوضح الشكل 2 العلاقة بين (d0,Nd0) عبر ثلاثة أحجام شبكة:
- تقع نقاط البيانات تحت الحد الأعلى التجريبي المتنبأ به نظرياً
- عندما يكون d0 أكبر، يكون الملاءمة لعدم المساواة logNd0≪d0 أفضل
- يدعم القانون التجريبي في حد Rc الصغير
- هيكل الرسم البياني أحادي الاتجاه: لاحظت التجارب خصائص أحادية الاتجاه في الرسم البياني، مما يدعم الفرضية 1
- عد المسارات المحدود: يتسق عد المسارات المحدود مع إعداد الفرضية 2
- هيمنة التعقيد: تحقق من خصائص هيمنة التعقيد (أقصر مسافة) مع تنوع مسار محدود
- السلوك العتبة: عند معاملات استمرار صغيرة، يكون البحث في حالة توسع غير كافٍ، مع هيمنة حد أقصر مسار على سلوك Pf,g(p)
- القيود الهندسية: تؤدي القيود الدلالية لنماذج اللغة الكبيرة إلى هيكل أحادي الاتجاه في الرسم البياني، مما يحد فعلياً من فضاء البحث
- أنماط القابلية للوصول: تتوافق العلاقة المرصودة (d0,Nd0) مع اتجاه الحد الأعلى المتنبأ به نظرياً
- نماذج استدلال نماذج اللغة الكبيرة: طرق الاستدلال التكراري مثل ReAct و Tree of Thoughts و Chain-of-Thought
- التخطيط واستخدام الأدوات: أطر الوكلاء مثل Plan-and-Solve و Toolformer و Voyager
- تطبيقات الذكاء الاصطناعي والعلوم: تطبيقات نماذج اللغة الكبيرة في البحث عن البرامج واكتشاف الخوارزميات والحساب العلمي
- توفير إطار نظري موحد، بينما تكون الطرق الموجودة في الغالب استدلالات تجريبية
- إنشاء آلية قابلة للقياس للمقايضة بين السلامة والقابلية للوصول
- توفير وصف رسمي مستقل عن النموذج
- المساهمة النظرية: إنشاء نظرية رسمية مضغوطة للبحث التكراري بمساعدة نماذج اللغة الكبيرة
- أدوات القياس: توفير أدوات تشغيلية لقياس السلامة والقابلية للوصول بشكل موحد
- الرؤى الهندسية: الكشف عن الهيكل الهندسي والآليات المقيدة لعملية البحث
- التحقق التجريبي: التحقق من التنبؤات النظرية القابلة للاختبار من خلال تجسيد التصويت بالأغلبية
- حجم التجربة: يقتصر التحقق الحالي على شبكات ثنائية الأبعاد صغيرة الحجم، مما يتطلب التحقق على مهام أكبر وأكثر تعقيداً
- تغطية النموذج: على الرغم من استخدام نماذج لغة كبيرة متعددة، لا يزال يتطلب تغطية أوسع للنماذج والمهام
- اكتمال النظرية: لم يتم التحقق بالكامل من بعض التنبؤات النظرية (مثل التقدير المباشر لـ Rc) في التجارب
- التحقق التجريبي المفصل: اختبار صحة النظرية على مهام أكثر تعقيداً
- الاتصال بالتعلم المعزز: ربط مؤشرات النظرية بمكافآت التعلم المعزز وعمليات التدريب
- التطبيقات العملية: تطبيق أدوات القياس على تصميم وتدريب الوكلاء للمهام المعقدة
- الابتكار النظري قوي: أول اقتراح لنظرية قياس رسمية لفضاء البحث لوكلاء نماذج اللغة الكبيرة
- الإطار الرياضي صارم: الأساس الرياضي القائم على مشغلات العلاقات الغامضة ودوال التوليد متين
- القيمة العملية عالية: توفير أدوات قياس قابلة للتشغيل ومبادئ توجيهية للتصميم
- التحقق كافٍ: توفير التحقق الخارجي للنظرية من خلال تجسيد ملموس
- حجم التجربة محدود: التجارب التحقق نسبياً بسيطة، مع نقص الاختبار على مهام واقعية معقدة
- اعتماد الفرضية: تعتمد التنبؤات النظرية على تحقق فرضيات محددة (أحادية الاتجاه، هيمنة الحدود منخفضة الرتبة)
- التعقيد الحسابي: قد تواجه حساب دالة التوليد تحديات تعقيد للمشاكل الكبيرة الحجم
- المساهمة الأكاديمية: توفير أساس نظري جديد وأدوات تحليل لبحث وكلاء نماذج اللغة الكبيرة
- القيمة العملية: توفير إرشادات كمية لتصميم الوكلاء للمهام المعقدة
- قابلية التكرار: توفير إعدادات تجريبية وأكواد مفصلة، مع قابلية تكرار جيدة
- تصميم وكلاء نماذج اللغة الكبيرة التي تتطلب قيود السلامة
- تحليل الأداء لمهام الاستدلال والتخطيط طويلة الأفق الزمني
- تحليل وتحسين الهيكل لفضاء البحث المعقد
- المقارنة والتقييم لأنظمة الوكلاء المتعددة
تستشهد الورقة بـ 32 مرجعاً ذا صلة، تغطي أعمالاً مهمة في عدة مجالات بما في ذلك استدلال نماذج اللغة الكبيرة والتعلم المعزز وتحسين القيود والأنظمة الغامضة، مما يوفر أساساً متيناً لبناء النظرية.