2025-11-25T12:19:17.889498

Theoretical Modeling of LLM Self-Improvement Training Dynamics Through Solver-Verifier Gap

Sun, Liang, Zhang et al.
Self-improvement is among the most prominent techniques within the realm of large language models (LLM), aiming to enhance the LLM performance without relying on external data. Despite its significance, generally how LLM performances evolve during the self-improvement process remains underexplored. In this paper, we theoretically model the training dynamics of self-improvement via the concept of solver-verifier gap. This is inspired by the conjecture that the performance enhancement of self-improvement stems from the gap between LLM's solver capability and verifier capability. Based on the theoretical framework, we further show how to model the entire training trajectory. This framework allows quantifying the capability limit of self-improvement by fitting the theoretical model to the experiment results. We empirically validate the effectiveness of the theoretical framework on various LLMs and datasets. Beyond self-improvement, we extend our analysis to investigate how external data influences these dynamics within the framework. Notably, we find that under limited external data regimes, such external data can be utilized at any stage without significantly affecting final performances, which accords with the empirical observations.
academic

النمذجة النظرية لديناميكيات تدريب التحسن الذاتي للنماذج اللغوية الكبيرة من خلال فجوة حل التحقق

المعلومات الأساسية

  • معرّف الورقة: 2507.00075
  • العنوان: النمذجة النظرية لديناميكيات تدريب التحسن الذاتي للنماذج اللغوية الكبيرة من خلال فجوة حل التحقق
  • المؤلفون: ييفان سان*، يوشان ليانج*، تشن تشانج، جياي تينج (كلية الإحصاء وعلوم البيانات، جامعة شنغهاي المالية)
  • التصنيف: cs.LG cs.AI
  • تاريخ النشر: arXiv:2507.00075v3 cs.LG 10 أكتوبر 2025
  • رابط الورقة: https://arxiv.org/abs/2507.00075v3

الملخص

يعتبر التحسن الذاتي للنماذج اللغوية الكبيرة من أهم التقنيات الحالية، بهدف تحسين أداء النموذج دون الاعتماد على بيانات خارجية. على الرغم من أهميتها الكبيرة، لم يتم استكشاف آليات تطور الأداء بشكل كافٍ خلال عملية التحسن الذاتي. تقدم هذه الورقة نمذجة نظرية لديناميكيات التدريب من خلال مفهوم فجوة حل التحقق (solver-verifier gap). يستند البحث على فرضية مفادها أن تحسن الأداء في التحسن الذاتي ينشأ من الفجوة بين قدرة النموذج على الحل وقدرته على التحقق. بناءً على الإطار النظري، يوضح المؤلفون كيفية نمذجة مسار التدريب الكامل، وتحديد حدود القدرة للتحسن الذاتي من خلال ملاءمة النموذج النظري للنتائج التجريبية. يتحقق المؤلفون من صحة الإطار النظري على عدة نماذج لغوية كبيرة ومجموعات بيانات، ويوسعون التحليل لفهم كيفية تأثير البيانات الخارجية على هذه الديناميكيات.

خلفية البحث والدافع

تعريف المشكلة

  1. المشكلة الأساسية: الافتقار إلى الفهم النظري لتطور الأداء خلال عملية التحسن الذاتي للنماذج اللغوية الكبيرة، خاصة النمذجة الرياضية لديناميكيات التدريب
  2. الأهمية:
    • اختناق البيانات: تواجه جمع البيانات على نطاق واسع تحديات، وقد تواجه نقصاً في البيانات في المستقبل
    • احتياجات التعلم المستقل: الحاجة إلى قدرة النموذج على التكيف والتطور بشكل مستقل
    • الفراغ النظري: تركز الأعمال الحالية على فعالية الطرق، مع افتقار إلى الفهم العميق للآليات

قيود الطرق الموجودة

  1. نقص نظري: الافتقار إلى نماذج نظرية لديناميكيات التحسن الذاتي
  2. عدم وضوح الآلية: فهم محدود لعوامل تحسن الأداء
  3. ضعف القدرة التنبؤية: عدم القدرة على التنبؤ بمسار التدريب وحدود الأداء

دافع البحث

بناءً على أعمال Song et al. (2025) و Huang et al. (2025)، يقترح المؤلفون أن فجوة حل التحقق هي القوة الدافعة الرئيسية للتحسن الذاتي، ويؤسسون إطاراً رياضياً لوصف هذه العملية.

المساهمات الأساسية

  1. الإطار النظري: اقتراح نموذج نظري لديناميكيات التحسن الذاتي بناءً على فجوة القدرة بين الحل والتحقق، مع اشتقاق قانون التقارب الأسي
  2. النمذجة الرياضية: إنشاء مجموعة من المعادلات التفاضلية المقترنة لوصف ديناميكيات التدريب والحصول على الحلول التحليلية
  3. التحقق التجريبي: التحقق من التنبؤات النظرية على عدة نماذج (سلسلة Phi و Llama) ومجموعات بيانات (Math و GSM8k)
  4. تحليل التحسن المتقاطع: توسيع الإطار لتحليل تأثير البيانات الخارجية، مع اكتشاف أن توقيت الاستخدام له تأثير ضئيل على الأداء النهائية في ظل البيانات الخارجية المحدودة

شرح الطريقة

تعريف المهمة

الحل (Solver): قدرة النموذج على توليد الاستجابات مباشرة، تُقاس بعدم اليقين: Us(t)=1ni=1nlogπf(y^i(t)xi)U_s(t) = -\frac{1}{n}\sum_{i=1}^n \log \pi_f(\hat{y}_i(t)|x_i)

التحقق (Verifier): قدرة النموذج على تقييم واختيار أفضل استجابة، بناءً على استراتيجية Best-of-N: y^iBoN=argmin{y^i,j:s(y^i,j)σ}1L(y^i,j)Uf(y^i,jxi)\hat{y}_i^{BoN} = \arg\min_{\{\hat{y}_{i,j}: s(\hat{y}_{i,j}) \geq \sigma\}} \frac{1}{L(\hat{y}_{i,j})} U_f(\hat{y}_{i,j}|x_i)

عدم اليقين في التحقق: Uv(t)=1ni=1nlogπf(y^iBoN(t)xi)U_v(t) = -\frac{1}{n}\sum_{i=1}^n \log \pi_f(\hat{y}_i^{BoN}(t)|x_i)

الإطار النظري

1. تعريف فجوة القدرة

G(t)=Us(t)Uv(t)=1ni=1nlogπf(y^i(t)xi)πf(y^iBoN(t)xi)G(t) = U_s(t) - U_v(t) = -\frac{1}{n}\sum_{i=1}^n \log \frac{\pi_f(\hat{y}_i(t)|x_i)}{\pi_f(\hat{y}_i^{BoN}(t)|x_i)}

2. معادلات الديناميكيات

مستوحاة من مفهوم الطاقة الكامنة في الفيزياء، يتم إنشاء معادلات تفاضلية مقترنة: dUs(t)dt=αE(t),dUv(t)dt=βE(t)\frac{dU_s(t)}{dt} = -\alpha E(t), \quad \frac{dU_v(t)}{dt} = -\beta E(t)

حيث E(t)E(t) هي "طاقة الفجوة الكامنة"، و α>β>0\alpha > \beta > 0 معاملات.

3. التقريب الخطي

يتم إجراء تمديد تايلور من الدرجة الأولى لدالة الطاقة الكامنة: E(t)kG(t)bE(t) \approx kG(t) - b

4. الحل التحليلي

الاقتراح 3.1: تحت الشرط k(αβ)>0k(\alpha-\beta) > 0، تتبع ديناميكيات القدرة قانون التناقص الأسي:

Us(t)αek(αβ)t+Us,U_s(t) \approx \alpha' e^{-k(\alpha-\beta)t} + U_{s,\infty}Uv(t)βek(αβ)t+Uv,U_v(t) \approx \beta' e^{-k(\alpha-\beta)t} + U_{v,\infty}G(t)δek(αβ)t+GG(t) \approx \delta e^{-k(\alpha-\beta)t} + G_\infty

حيث:

  • α=αδαβ\alpha' = \frac{\alpha\delta}{\alpha-\beta}, β=βδαβ\beta' = \frac{\beta\delta}{\alpha-\beta}
  • δ=Us,0Uv,0bk\delta = U_{s,0} - U_{v,0} - \frac{b}{k}
  • Us,=Us,0αU_{s,\infty} = U_{s,0} - \alpha', Uv,=Uv,0βU_{v,\infty} = U_{v,0} - \beta'

نمذجة التحسن المتقاطع

بالنسبة للبيانات الخارجية المحدودة MM، باستخدام نسبة ηt\eta_t في الجولة tt (حيث t=1Tηt=1\sum_{t=1}^T \eta_t = 1):

تتأثر قدرة التحقق بالبيانات الخارجية: Uvc(t)=(1+γηt)1Uv(t1)U_v^c(t) = (1 + \gamma\eta_t)^{-1}U_v(t-1)

الاقتراح 5.1: يعتمد عدم اليقين النهائي فقط على t=1Tηt\sum_{t=1}^T \eta_t، وليس على توزيع ηt\eta_t المحدد.

إعداد التجارب

مجموعات البيانات

  • Math: مجموعة بيانات حل المسائل الرياضية
  • GSM8k: مجموعة بيانات مسائل الرياضيات الابتدائية
  • ProntoQA: مجموعة بيانات الأسئلة والأجوبة

النماذج

  • سلسلة Phi: Phi-4-mini, Phi-3.5-mini, Phi-3-mini
  • سلسلة Llama: Llama-3.2-3B, Llama-3.1-8B

طرق التحقق

  1. صحيح/خاطئ (TF): تقييم الصحة الثنائي
  2. تقييم الجودة (QE): تقييم الجودة المستمر 0,1

معاملات التجربة

  • معدل التعلم: 1e-5
  • عدد العينات N: 16
  • رتبة LoRA: 16
  • عدد جولات التدريب: 10

نتائج التجارب

النتائج الرئيسية

1. التحقق من التقارب الأسي

تدعم النتائج التجريبية بقوة قانون التقارب الأسي المتنبأ به نظرياً:

  • جودة الملاءمة: R² > 0.9، مما يشير إلى أن النموذج الأسي يصف تطور عدم اليقين بشكل جيد
  • الاتساق: يتم ملاحظة الاتجاه الأسي في جميع مجموعات النموذج-مجموعة البيانات

2. التحقق من فجوة حل التحقق

  • العمومية: يكون المدقق دائماً أفضل من الحل، مع فجوة تتراوح بين 0.067-0.284
  • الاستقرار: تبقى الفجوة متسقة عبر أحجام العينات المختلفة N وسيناريوهات التقييم المتقاطع
  • العلاقة الخطية: تُظهر الفجوة G وسرعة تغيرها dG/dt علاقة خطية قوية (R² > 0.8)

3. تحسن الأداء

تحسن ملحوظ في جميع النماذج بعد التحسن الذاتي:

  • Phi-4-mini: دقة Math من 30.31% إلى 45.08%، GSM8k من 73.42% إلى 88.53%
  • تحسنات مماثلة: تُظهر النماذج الأخرى أيضاً تحسناً بنسبة 15-25%

تجارب التحسن المتقاطع

استراتيجيات توزيع البيانات الخارجية

اختبار ثلاث استراتيجيات: Early (استخدام الكل في الجولة الأولى)، Uniform (التوزيع المتساوي)، Late (الاستخدام في الجولة الأخيرة)

الاكتشافات الرئيسية:

  • الفروقات بين الاستراتيجيات ضئيلة جداً (<2.17%)
  • التحقق من التنبؤ النظري: توقيت التوزيع لا يؤثر على الأداء النهائية
  • جودة البيانات الخارجية أهم من توقيت الاستخدام

النتائج الرقمية

مثال على Phi-4-mini:

  • مجموعة بيانات Math: متوسط تحسن 1.16% عبر الاستراتيجيات الثلاث
  • مجموعة بيانات GSM8k: متوسط تحسن 0.10% عبر الاستراتيجيات الثلاث

تجارب الاستئصال

تحليل Pass@K

  • انخفاض التنوع: ينخفض Pass@K عند قيم K الكبيرة، مما يشير إلى انخفاض تنوع التوليد
  • تحسن الجودة: يتحسن Pass@K عند قيم K الصغيرة، مما يتحقق من فعالية التحسن الذاتي
  • تفسير التقارب: قد يكون انخفاض التنوع سبباً لتشبع الأداء

الأعمال ذات الصلة

أبحاث التحسن الذاتي

  1. فئات الطرق:
    • ضبط الإخراج: التدريب على البيانات المولدة من النموذج اللغوي
    • التقطير الذاتي: نقل المعرفة من نموذج كبير إلى نموذج صغير
    • التصحيح الذاتي: تحديد النموذج وتصحيح الأخطاء
  2. الأبحاث النظرية:
    • تحليل معدل التقارب للنماذج الخطية
    • نظرية التقطير الذاتي للشبكات العصبية
    • التحسن الذاتي تحت إطار التعلم المعزز

أبحاث التحسن المتقاطع

  1. البيانات المسماة يدوياً: تكلفة عالية لكن جودة موثوقة
  2. بيانات النموذج القوي: وصول محدود لكن تأثير كبير
  3. استخدام البيانات المحدودة: المشكلة الأساسية التي تركز عليها هذه الورقة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. التحقق النظري: تؤكد فجوة حل التحقق فعلاً تحسن الأداء، وتتبع الديناميكيات قانون التقارب الأسي
  2. القدرة التنبؤية: يمكن للإطار التنبؤ بمسار التدريب وحدود الأداء
  3. الإرشادات العملية: استخدام البيانات الخارجية مرن من حيث التوقيت، مع التركيز على جودة البيانات

القيود

  1. النمذجة الظاهراتية: تستخدم طريقة ظاهراتية، تفتقر إلى الاشتقاق من المبادئ الأولى
  2. التقريب الخطي: قد يحد التقريب الخطي لدالة الطاقة الكامنة من نطاق التطبيق
  3. افتراض عدم التغير الزمني: يفترض أن معامل التأثير γ ثابت في التحسن المتقاطع
  4. قيود مجموعة البيانات: التحقق الرئيسي على مهام الاستدلال الرياضي

الاتجاهات المستقبلية

  1. استكشاف الآلية: البحث العميق عن آليات الديناميكيات الأسية على مستوى الشبكة العصبية
  2. العلاقات بين المعاملات: دراسة العلاقة بين α و β وبنية النموذج
  3. التطبيقات الموسعة: التحقق من قابلية تطبيق الإطار على مزيد من المهام والمجالات
  4. النمذجة المتغيرة زمنياً: تخفيف افتراض عدم التغير الزمني، وبناء نموذج ديناميكي أكثر دقة

التقييم المتعمق

المميزات

  1. الابتكار النظري: أول إطار رياضي نظري للتحسن الذاتي، يملأ فراغاً مهماً
  2. التحقق التجريبي الشامل: التحقق الشامل على عدة نماذج ومجموعات بيانات، مع اتساق قوي في النتائج
  3. القيمة العملية: توفير أداة كمية لتنبؤ الأداء وتوجيه استراتيجيات التدريب
  4. الوضوح في الكتابة: الاشتقاق الرياضي دقيق، وتصميم التجارب معقول

أوجه القصور

  1. عمق النظرية: النمذجة الظاهراتية تفتقر إلى شرح الآليات العميقة
  2. نطاق التطبيق: التحقق الرئيسي على مهام الاستدلال الرياضي، مع عدم وضوح قابلية التطبيق على مهام أخرى
  3. تقييد الافتراضات: قد تؤثر الافتراضات المبسطة المتعددة على دقة النموذج
  4. الكفاءة الحسابية: لم يتم مناقشة تكلفة حسابية استراتيجية Best-of-N بشكل كافٍ

التأثير

  1. المساهمة الأكاديمية: توفير أساس نظري مهم لأبحاث التحسن الذاتي
  2. التوجيه العملي: توفير أداة كمية لتحسين استراتيجيات تدريب النماذج اللغوية الكبيرة
  3. الأبحاث اللاحقة: قد تحفز المزيد من الأعمال على النمذجة النظرية

السيناريوهات المطبقة

  1. تدريب النماذج اللغوية الكبيرة: توجيه تصميم استراتيجيات التحسن الذاتي
  2. التنبؤ بالأداء: تقدير مسار التدريب ونقطة التقارب
  3. توزيع الموارد: تحسين استراتيجيات استخدام البيانات الخارجية
  4. الأبحاث النظرية: توفير أساس لاستكشاف الآليات الإضافية

المراجع

تتضمن المراجع الرئيسية:

  1. Song et al. (2025): اقتراح مفهوم فجوة التوليد والتحقق
  2. Huang et al. (2025): نظرية آلية الشحذ
  3. Zelikman et al. (2022): طريقة التحسن الذاتي STaR
  4. Wang et al. (2023): طريقة Self-Instruct

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة توفر أول إطار نظري رياضي منهجي في مجال التحسن الذاتي المهم للنماذج اللغوية الكبيرة. على الرغم من وجود بعض القيود في عمق النظرية ونطاق التطبيق، فإن ابتكاريتها وشمول التحقق التجريبي والقيمة العملية بارزة جداً، مما يحمل أهمية كبيرة لتعزيز التطور النظري في هذا المجال.