Self-improvement is among the most prominent techniques within the realm of large language models (LLM), aiming to enhance the LLM performance without relying on external data. Despite its significance, generally how LLM performances evolve during the self-improvement process remains underexplored. In this paper, we theoretically model the training dynamics of self-improvement via the concept of solver-verifier gap. This is inspired by the conjecture that the performance enhancement of self-improvement stems from the gap between LLM's solver capability and verifier capability. Based on the theoretical framework, we further show how to model the entire training trajectory. This framework allows quantifying the capability limit of self-improvement by fitting the theoretical model to the experiment results. We empirically validate the effectiveness of the theoretical framework on various LLMs and datasets. Beyond self-improvement, we extend our analysis to investigate how external data influences these dynamics within the framework. Notably, we find that under limited external data regimes, such external data can be utilized at any stage without significantly affecting final performances, which accords with the empirical observations.
- معرّف الورقة: 2507.00075
- العنوان: النمذجة النظرية لديناميكيات تدريب التحسن الذاتي للنماذج اللغوية الكبيرة من خلال فجوة حل التحقق
- المؤلفون: ييفان سان*، يوشان ليانج*، تشن تشانج، جياي تينج (كلية الإحصاء وعلوم البيانات، جامعة شنغهاي المالية)
- التصنيف: cs.LG cs.AI
- تاريخ النشر: arXiv:2507.00075v3 cs.LG 10 أكتوبر 2025
- رابط الورقة: https://arxiv.org/abs/2507.00075v3
يعتبر التحسن الذاتي للنماذج اللغوية الكبيرة من أهم التقنيات الحالية، بهدف تحسين أداء النموذج دون الاعتماد على بيانات خارجية. على الرغم من أهميتها الكبيرة، لم يتم استكشاف آليات تطور الأداء بشكل كافٍ خلال عملية التحسن الذاتي. تقدم هذه الورقة نمذجة نظرية لديناميكيات التدريب من خلال مفهوم فجوة حل التحقق (solver-verifier gap). يستند البحث على فرضية مفادها أن تحسن الأداء في التحسن الذاتي ينشأ من الفجوة بين قدرة النموذج على الحل وقدرته على التحقق. بناءً على الإطار النظري، يوضح المؤلفون كيفية نمذجة مسار التدريب الكامل، وتحديد حدود القدرة للتحسن الذاتي من خلال ملاءمة النموذج النظري للنتائج التجريبية. يتحقق المؤلفون من صحة الإطار النظري على عدة نماذج لغوية كبيرة ومجموعات بيانات، ويوسعون التحليل لفهم كيفية تأثير البيانات الخارجية على هذه الديناميكيات.
- المشكلة الأساسية: الافتقار إلى الفهم النظري لتطور الأداء خلال عملية التحسن الذاتي للنماذج اللغوية الكبيرة، خاصة النمذجة الرياضية لديناميكيات التدريب
- الأهمية:
- اختناق البيانات: تواجه جمع البيانات على نطاق واسع تحديات، وقد تواجه نقصاً في البيانات في المستقبل
- احتياجات التعلم المستقل: الحاجة إلى قدرة النموذج على التكيف والتطور بشكل مستقل
- الفراغ النظري: تركز الأعمال الحالية على فعالية الطرق، مع افتقار إلى الفهم العميق للآليات
- نقص نظري: الافتقار إلى نماذج نظرية لديناميكيات التحسن الذاتي
- عدم وضوح الآلية: فهم محدود لعوامل تحسن الأداء
- ضعف القدرة التنبؤية: عدم القدرة على التنبؤ بمسار التدريب وحدود الأداء
بناءً على أعمال Song et al. (2025) و Huang et al. (2025)، يقترح المؤلفون أن فجوة حل التحقق هي القوة الدافعة الرئيسية للتحسن الذاتي، ويؤسسون إطاراً رياضياً لوصف هذه العملية.
- الإطار النظري: اقتراح نموذج نظري لديناميكيات التحسن الذاتي بناءً على فجوة القدرة بين الحل والتحقق، مع اشتقاق قانون التقارب الأسي
- النمذجة الرياضية: إنشاء مجموعة من المعادلات التفاضلية المقترنة لوصف ديناميكيات التدريب والحصول على الحلول التحليلية
- التحقق التجريبي: التحقق من التنبؤات النظرية على عدة نماذج (سلسلة Phi و Llama) ومجموعات بيانات (Math و GSM8k)
- تحليل التحسن المتقاطع: توسيع الإطار لتحليل تأثير البيانات الخارجية، مع اكتشاف أن توقيت الاستخدام له تأثير ضئيل على الأداء النهائية في ظل البيانات الخارجية المحدودة
الحل (Solver): قدرة النموذج على توليد الاستجابات مباشرة، تُقاس بعدم اليقين:
Us(t)=−n1∑i=1nlogπf(y^i(t)∣xi)
التحقق (Verifier): قدرة النموذج على تقييم واختيار أفضل استجابة، بناءً على استراتيجية Best-of-N:
y^iBoN=argmin{y^i,j:s(y^i,j)≥σ}L(y^i,j)1Uf(y^i,j∣xi)
عدم اليقين في التحقق:
Uv(t)=−n1∑i=1nlogπf(y^iBoN(t)∣xi)
G(t)=Us(t)−Uv(t)=−n1∑i=1nlogπf(y^iBoN(t)∣xi)πf(y^i(t)∣xi)
مستوحاة من مفهوم الطاقة الكامنة في الفيزياء، يتم إنشاء معادلات تفاضلية مقترنة:
dtdUs(t)=−αE(t),dtdUv(t)=−βE(t)
حيث E(t) هي "طاقة الفجوة الكامنة"، و α>β>0 معاملات.
يتم إجراء تمديد تايلور من الدرجة الأولى لدالة الطاقة الكامنة: E(t)≈kG(t)−b
الاقتراح 3.1: تحت الشرط k(α−β)>0، تتبع ديناميكيات القدرة قانون التناقص الأسي:
Us(t)≈α′e−k(α−β)t+Us,∞Uv(t)≈β′e−k(α−β)t+Uv,∞G(t)≈δe−k(α−β)t+G∞
حيث:
- α′=α−βαδ, β′=α−ββδ
- δ=Us,0−Uv,0−kb
- Us,∞=Us,0−α′, Uv,∞=Uv,0−β′
بالنسبة للبيانات الخارجية المحدودة M، باستخدام نسبة ηt في الجولة t (حيث ∑t=1Tηt=1):
تتأثر قدرة التحقق بالبيانات الخارجية:
Uvc(t)=(1+γηt)−1Uv(t−1)
الاقتراح 5.1: يعتمد عدم اليقين النهائي فقط على ∑t=1Tηt، وليس على توزيع ηt المحدد.
- Math: مجموعة بيانات حل المسائل الرياضية
- GSM8k: مجموعة بيانات مسائل الرياضيات الابتدائية
- ProntoQA: مجموعة بيانات الأسئلة والأجوبة
- سلسلة Phi: Phi-4-mini, Phi-3.5-mini, Phi-3-mini
- سلسلة Llama: Llama-3.2-3B, Llama-3.1-8B
- صحيح/خاطئ (TF): تقييم الصحة الثنائي
- تقييم الجودة (QE): تقييم الجودة المستمر 0,1
- معدل التعلم: 1e-5
- عدد العينات N: 16
- رتبة LoRA: 16
- عدد جولات التدريب: 10
تدعم النتائج التجريبية بقوة قانون التقارب الأسي المتنبأ به نظرياً:
- جودة الملاءمة: R² > 0.9، مما يشير إلى أن النموذج الأسي يصف تطور عدم اليقين بشكل جيد
- الاتساق: يتم ملاحظة الاتجاه الأسي في جميع مجموعات النموذج-مجموعة البيانات
- العمومية: يكون المدقق دائماً أفضل من الحل، مع فجوة تتراوح بين 0.067-0.284
- الاستقرار: تبقى الفجوة متسقة عبر أحجام العينات المختلفة N وسيناريوهات التقييم المتقاطع
- العلاقة الخطية: تُظهر الفجوة G وسرعة تغيرها dG/dt علاقة خطية قوية (R² > 0.8)
تحسن ملحوظ في جميع النماذج بعد التحسن الذاتي:
- Phi-4-mini: دقة Math من 30.31% إلى 45.08%، GSM8k من 73.42% إلى 88.53%
- تحسنات مماثلة: تُظهر النماذج الأخرى أيضاً تحسناً بنسبة 15-25%
اختبار ثلاث استراتيجيات: Early (استخدام الكل في الجولة الأولى)، Uniform (التوزيع المتساوي)، Late (الاستخدام في الجولة الأخيرة)
الاكتشافات الرئيسية:
- الفروقات بين الاستراتيجيات ضئيلة جداً (<2.17%)
- التحقق من التنبؤ النظري: توقيت التوزيع لا يؤثر على الأداء النهائية
- جودة البيانات الخارجية أهم من توقيت الاستخدام
مثال على Phi-4-mini:
- مجموعة بيانات Math: متوسط تحسن 1.16% عبر الاستراتيجيات الثلاث
- مجموعة بيانات GSM8k: متوسط تحسن 0.10% عبر الاستراتيجيات الثلاث
- انخفاض التنوع: ينخفض Pass@K عند قيم K الكبيرة، مما يشير إلى انخفاض تنوع التوليد
- تحسن الجودة: يتحسن Pass@K عند قيم K الصغيرة، مما يتحقق من فعالية التحسن الذاتي
- تفسير التقارب: قد يكون انخفاض التنوع سبباً لتشبع الأداء
- فئات الطرق:
- ضبط الإخراج: التدريب على البيانات المولدة من النموذج اللغوي
- التقطير الذاتي: نقل المعرفة من نموذج كبير إلى نموذج صغير
- التصحيح الذاتي: تحديد النموذج وتصحيح الأخطاء
- الأبحاث النظرية:
- تحليل معدل التقارب للنماذج الخطية
- نظرية التقطير الذاتي للشبكات العصبية
- التحسن الذاتي تحت إطار التعلم المعزز
- البيانات المسماة يدوياً: تكلفة عالية لكن جودة موثوقة
- بيانات النموذج القوي: وصول محدود لكن تأثير كبير
- استخدام البيانات المحدودة: المشكلة الأساسية التي تركز عليها هذه الورقة
- التحقق النظري: تؤكد فجوة حل التحقق فعلاً تحسن الأداء، وتتبع الديناميكيات قانون التقارب الأسي
- القدرة التنبؤية: يمكن للإطار التنبؤ بمسار التدريب وحدود الأداء
- الإرشادات العملية: استخدام البيانات الخارجية مرن من حيث التوقيت، مع التركيز على جودة البيانات
- النمذجة الظاهراتية: تستخدم طريقة ظاهراتية، تفتقر إلى الاشتقاق من المبادئ الأولى
- التقريب الخطي: قد يحد التقريب الخطي لدالة الطاقة الكامنة من نطاق التطبيق
- افتراض عدم التغير الزمني: يفترض أن معامل التأثير γ ثابت في التحسن المتقاطع
- قيود مجموعة البيانات: التحقق الرئيسي على مهام الاستدلال الرياضي
- استكشاف الآلية: البحث العميق عن آليات الديناميكيات الأسية على مستوى الشبكة العصبية
- العلاقات بين المعاملات: دراسة العلاقة بين α و β وبنية النموذج
- التطبيقات الموسعة: التحقق من قابلية تطبيق الإطار على مزيد من المهام والمجالات
- النمذجة المتغيرة زمنياً: تخفيف افتراض عدم التغير الزمني، وبناء نموذج ديناميكي أكثر دقة
- الابتكار النظري: أول إطار رياضي نظري للتحسن الذاتي، يملأ فراغاً مهماً
- التحقق التجريبي الشامل: التحقق الشامل على عدة نماذج ومجموعات بيانات، مع اتساق قوي في النتائج
- القيمة العملية: توفير أداة كمية لتنبؤ الأداء وتوجيه استراتيجيات التدريب
- الوضوح في الكتابة: الاشتقاق الرياضي دقيق، وتصميم التجارب معقول
- عمق النظرية: النمذجة الظاهراتية تفتقر إلى شرح الآليات العميقة
- نطاق التطبيق: التحقق الرئيسي على مهام الاستدلال الرياضي، مع عدم وضوح قابلية التطبيق على مهام أخرى
- تقييد الافتراضات: قد تؤثر الافتراضات المبسطة المتعددة على دقة النموذج
- الكفاءة الحسابية: لم يتم مناقشة تكلفة حسابية استراتيجية Best-of-N بشكل كافٍ
- المساهمة الأكاديمية: توفير أساس نظري مهم لأبحاث التحسن الذاتي
- التوجيه العملي: توفير أداة كمية لتحسين استراتيجيات تدريب النماذج اللغوية الكبيرة
- الأبحاث اللاحقة: قد تحفز المزيد من الأعمال على النمذجة النظرية
- تدريب النماذج اللغوية الكبيرة: توجيه تصميم استراتيجيات التحسن الذاتي
- التنبؤ بالأداء: تقدير مسار التدريب ونقطة التقارب
- توزيع الموارد: تحسين استراتيجيات استخدام البيانات الخارجية
- الأبحاث النظرية: توفير أساس لاستكشاف الآليات الإضافية
تتضمن المراجع الرئيسية:
- Song et al. (2025): اقتراح مفهوم فجوة التوليد والتحقق
- Huang et al. (2025): نظرية آلية الشحذ
- Zelikman et al. (2022): طريقة التحسن الذاتي STaR
- Wang et al. (2023): طريقة Self-Instruct
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة توفر أول إطار نظري رياضي منهجي في مجال التحسن الذاتي المهم للنماذج اللغوية الكبيرة. على الرغم من وجود بعض القيود في عمق النظرية ونطاق التطبيق، فإن ابتكاريتها وشمول التحقق التجريبي والقيمة العملية بارزة جداً، مما يحمل أهمية كبيرة لتعزيز التطور النظري في هذا المجال.