2025-11-13T00:07:10.698624

Predicting Task Performance with Context-aware Scaling Laws

Montgomery, Park, Tu et al.

Scaling laws have transformed our understanding of large language models by linking upstream metrics like cross-entropy loss to design factors such as model size, training data, and compute. However, these conventional laws fail to capture downstream task performance, where context plays a critical role. In this work, we propose a straightforward, interpretable framework that jointly models downstream performance as a function of the training compute and the provided context. We empirically validate our framework by fitting it on the observed downstream performance of extended-context variants of Llama-2-7B and Llama-2-13B across 65,500 unique instances spanning three tasks: arithmetic reasoning, common sense reasoning, and machine translation. Our results demonstrate that our framework accurately models in-distribution downstream performance, generalizes across three orders of magnitude in training compute, and reliably extrapolates performance as the amount of context increases. These findings offer valuable insights into the interplay between training compute and context utilization, providing guidance for designing more efficient long-context LLMs for diverse downstream tasks. Our code is available at https://github.com/wang-research-lab/context-scaling.

academic

التنبؤ بأداء المهام باستخدام قوانين التحجيم الموجهة بالسياق

المعلومات الأساسية

معرّف الورقة: 2510.14919
العنوان: التنبؤ بأداء المهام باستخدام قوانين التحجيم الموجهة بالسياق
المؤلفون: Kyle Montgomery, David Park, Jianhong Tu, Michael Bendersky, Beliz Gunel, Dawn Song, Chenguang Wang
التصنيف: cs.CL cs.AI cs.LG
تاريخ النشر: 16 أكتوبر 2024 (نسخة أولية على arXiv)
رابط الورقة: https://arxiv.org/abs/2510.14919
رابط الكود: https://github.com/wang-research-lab/context-scaling

الملخص

لقد غيّرت قوانين التحجيم التقليدية للشبكات العصبية فهمنا لنماذج اللغة الكبيرة من خلال ربط المؤشرات العليا (مثل خسارة الإنتروبيا المتقاطعة) بعوامل التصميم (مثل حجم النموذج وبيانات التدريب وحجم الحساب). ومع ذلك، فإن هذه القوانين التقليدية لا تستطيع التقاط أداء المهام السفلية، حيث يلعب السياق دوراً حاسماً. تقترح هذه الورقة إطار عمل بديهي وقابل للتفسير يصمّم الأداء السفلية كدالة مشتركة لحساب التدريب والسياق المقدم. يتحقق المؤلفون من الإطار تجريبياً من خلال ملاءمته على متغيرات السياق الممتدة لـ Llama-2-7B و Llama-2-13B، على 65,500 مثيل فريد يمتد عبر ثلاث مهام: الاستدلال الحسابي والاستدلال الحس السليم والترجمة الآلية. تُظهر النتائج أن الإطار يصمّم بدقة أداء المهام السفلية ضمن التوزيع، مع قدرة التعميم عبر ثلاثة أوامر من حجم حساب التدريب، والقدرة على الاستقراء الموثوق لأداء الأداء عند زيادة كمية السياق.

خلفية البحث والدافع

تعريف المشكلة

تركز قوانين التحجيم التقليدية للشبكات العصبية بشكل أساسي على المؤشرات العليا (مثل خسارة الإنتروبيا المتقاطعة)، لكن في التطبيقات العملية، غالباً ما تختلف أداء المهام السفلية عن هذه الاتجاهات العليا. عادة ما تعتمد الأعمال الموجودة للتنبؤ بأداء المهام السفلية على طرق معقدة جداً وذات قابلية تفسير منخفضة.

أهمية البحث

الحاجة العملية: يمكن لتقدير أداء المهام السفلية الدقيق أن يوجه تطوير النموذج، مما يحدد الظواهر الناشئة أو التشبع في مهام معينة بتجارب أقل تكلفة
الفجوة النظرية: تتجاهل قوانين التحجيم الموجودة طول السياق، وهو عامل حاسم في المهام السفلية
التوجيه التصميمي: يعتبر فهم التفاعل بين حجم الحساب واستخدام السياق أمراً حاسماً لتصميم نماذج لغة كبيرة فعالة ذات سياق طويل

قيود الطرق الموجودة

Chen وآخرون (2024): استخدام طريقة ثنائية المراحل مع خسارة عليا كوسيط، معقدة جداً
Ye وآخرون (2023): استخدام شبكة إدراك متعددة الطبقات للتنبؤ بأداء BIG-Bench، تفتقر إلى القابلية للتفسير
قوانين التحجيم التقليدية: تتجاهل تماماً تأثير طول السياق

المساهمات الأساسية

اقتراح إطار عمل قوانين التحجيم الموجهة بالسياق: توسيع قوانين التحجيم العصبية التقليدية إلى المهام السفلية، من خلال دمج طول السياق والقيود السياقية لتوفير نمذجة أداء نموذج لغة كبير أكثر دقة
التحقق التجريبي على نطاق واسع: الملاءمة عبر 3 مهام على نوافذ السياق الممتدة لنموذج Llama-2، مما يثبت عمومية قوانين التحجيم عبر 3 أوامر من حجم حساب التدريب و 4 أوامر من طول السياق وتقنيات توسيع السياق المختلفة
أداة نظرية قابلة للتفسير: توفير إطار عمل قابل للتفسير لفهم التفاعل بين حجم الحساب والسياق والأداء السفلية، مما يوفر توجيهاً لتصميم نماذج لغة كبيرة ذات سياق طويل في المستقبل

شرح الطريقة

تعريف المهمة

التنبؤ بأداء المهام السفلية P كدالة لحساب التدريب C وطول السياق المدخل n_pmt وقيد السياق للنموذج n_ctx.

بنية النموذج

الصيغة الأساسية هي:

P(C, n_pmt, n_ctx) = [1 - exp(-A(C/C_c)^α)] × [1 - exp(-B(n_pmt/n_c_pmt)^β)] × σ(n_pmt - n_ctx)

حيث:

الحد الأول: حد قانون القوة المشبع لحساب التدريب C، مع المعاملات A و C_c و α
الحد الثاني: حد قانون القوة المشبع لطول السياق n_pmt، مع المعاملات B و n_c_pmt و β
الحد الثالث: حد عقوبة السيجمويد، حيث تنخفض الأداء عندما يكون n_pmt > n_ctx

مبادئ التصميم

الشكل الضربي: حجم الحساب والسياق متكاملان وليس إضافيان، حيث أن النقص الكبير في أحد الأبعاد يحد من الفوائد المكتسبة من البعد الآخر
قانون القوة المشبع: من خلال الأس، يضمن أن الأداء المتنبأ بها تبقى أقل من الحد الأقصى النظري 1.0
آلية العقوبة: عندما يتجاوز السياق حد النموذج، تقع الرموز المولدة خارج النطاق الذي يمكن للنموذج التنبؤ به بشكل موثوق، مما يؤدي إلى انخفاض حاد في الأداء

نقاط الابتكار التقني

النمذجة المشتركة: أول مرة يتم فيها نمذجة حساب التدريب وطول السياق بشكل موحد
القابلية للتفسير: مقارنة بالطرق المعقدة الموجودة، توفير شكل دالة بديهي
معالجة الحدود: معالجة فعالة لشروط حدود قيود السياق من خلال حد السيجمويد

إعداد التجارب

مجموعات البيانات

تم تقييم 12 نموذجاً (الجدول 1) على 65,500 مثيل، تغطي 3 مهام:

الاستدلال الحسابي: 3,550 مثيل اختبار
- GSM8K و MATH و AQUA-RAT و DeepMind Math
- ملء السياق بما يصل إلى 511 عرض توضيحي
الاستدلال الحس السليم: 1,750 مثيل اختبار
- PIQA و SIQA و OpenBookQA و HellaSwag و WinoGrande و ARC-Easy/Challenge و CommonSenseQA
- ملء السياق بما يصل إلى 511 عرض توضيحي
الترجمة الآلية: 1,250 مثيل
- WMT-14 (الألمانية والفرنسية والهندية والتشيكية والروسية → الإنجليزية)
- استخدام درجة BLEU-4

تكوين النموذج

بناءً على Llama-2-7B و Llama-2-13B، باستخدام تقنية YaRN لتوسيع نافذة السياق إلى 8k و 16k و 32k و 64k و 128k رمز.

مقاييس التقييم

الاستدلال الحسابي والاستدلال الحس السليم: الدقة
الترجمة الآلية: درجة BLEU-4
خطأ التنبؤ: متوسط الخطأ المطلق للتنبؤ |P - P̂|

عملية الملاءمة

تحسين ثنائي المراحل:

البحث العام: استخدام differential_evolution من SciPy
التحسين المحلي: استخدام curve_fit للملاءمة الدقيقة

نتائج التجارب

النتائج الرئيسية

تحقيق نتائج ملاءمة ممتازة على ثلاث مهام:

الاستدلال الحسابي: متوسط خطأ التنبؤ 0.010
الاستدلال الحس السليم: متوسط خطأ التنبؤ 0.037
الترجمة الآلية: متوسط خطأ التنبؤ 0.007

التحقق من قدرة التعميم

1. تعميم حساب التدريب (القسم 4.1)

التحقق على 5 نماذج اختبار، عبر 3 أوامر من حجم الحساب:

Qwen2.5-0.5B إلى Llama-2-70B
معظم أخطاء التنبؤ ضمن 5 نقاط
تعميم أفضل على الاستدلال الحسابي والترجمة الآلية

2. تعميم طول السياق (القسم 4.2)

الاحتفاظ بالملاحظات التي تتجاوز 10,000 رمز للتحقق:

الاستدلال الحسابي: خطأ التنبؤ 0.017
الاستدلال الحس السليم: خطأ التنبؤ 0.067
الترجمة الآلية: خطأ التنبؤ 0.006

3. تعميم تقنية توسيع السياق (القسم 4.3)

مقارنة تقنيات YaRN والاستيفاء الموضعي، أخطاء تنبؤ متشابهة، مما يشير إلى أن الطريقة غير حساسة لتقنية توسيع السياق.

تجارب الاستبعاد

التحقق من أهمية حد عقوبة السيجمويد:

مع حد العقوبة: خطأ التنبؤ 0.010
بدون حد العقوبة: خطأ التنبؤ 0.029

الأعمال ذات الصلة

قوانين التحجيم التقليدية

Hestness وآخرون (2017) و Kaplan وآخرون (2020): إنشاء العلاقة بين الأداء العليا وعوامل تصميم النموذج
Hoffmann وآخرون (2022): استخدام لتدريب نماذج لغة كبيرة محسّنة حسابياً

التنبؤ بأداء المهام السفلية

Wei وآخرون (2022) و Hu وآخرون (2024): التركيز على القدرات "الناشئة" في نماذج اللغة الكبيرة
Chen وآخرون (2024) و Ruan وآخرون (2024): اعتماد طريقة ثنائية المراحل
مساهمة هذه الورقة: إدخال اعتماد طول السياق لأول مرة

تقنيات توسيع السياق

الطرق الخالية من التدريب: InfLLM و LM-Infinite وغيرها
إعادة تحجيم ترميز الموضع: الاستيفاء الموضعي و YaRN وغيرها
اختيار هذه الورقة: استخدام YaRN لتوسيع السياق

الخلاصة والمناقشة

الاستنتاجات الرئيسية

يمكن نمذجة أداء المهام السفلية بدقة كدالة مشتركة لحساب التدريب والسياق
يتمتع الإطار بقدرة تعميم جيدة عبر نطاق واسع من حجم الحساب وطول السياق
تستفيد الأداء من زيادة حجم الحساب والسياق ذي الصلة، لكن توجد نقاط تشبع

القيود

الافتراضات: يعتمد على افتراضات أن الأداء تتحجم مع حساب التدريب والسياق، قد لا تكون صحيحة في حالات التحجيم القصوى
العوامل غير المدروسة: لم يتم النظر بشكل صريح في خليط بيانات التدريب المسبق والمحاذاة اللاحقة واختيارات البنية المعمارية
نطاق حجم الحساب: نطاق حجم الحساب المناسب نسبياً، قدرة التعميم خارج هذا النطاق غير معروفة

الاتجاهات المستقبلية

دراسة كيفية تأثير العوامل الأخرى (مثل الضبط الدقيق للتعليمات والمحاذاة) على المعاملات المحددة
التوسع إلى نطاق أوسع من حجم حساب التدريب
استكشاف الانطباقية في سيناريوهات الهجمات الخصومية

التقييم المتعمق

المميزات

الابتكار النظري: أول مرة يتم فيها إدراج طول السياق في قوانين التحجيم، ملء فجوة نظرية مهمة
القيمة العملية: توفير إطار عمل قابل للتفسير لتوجيه تصميم نماذج لغة كبيرة ذات سياق طويل
التحقق الكافي: التحقق على نطاق واسع من 65,500 مثيل، عبر مهام ونماذج متعددة
قدرة تعميم قوية: إظهار أداء تعميم جيد عبر أبعاد متعددة
بساطة الطريقة: مقارنة بالطرق المعقدة الموجودة، توفير شكل دالة بديهي وقابل للتفسير

أوجه القصور

قيود النموذج: التحقق فقط على نماذج سلسلة Llama-2، يفتقر إلى التحقق على عائلات نماذج أوسع
تغطية المهام: تتعلق فقط بـ 3 أنواع مهام، قابلية التطبيق على مهام NLP الأخرى غير معروفة
الأساس النظري: يفتقر إلى شرح نظري عميق لسبب اعتماد شكل دالة معين
تفسير المعاملات: تحليل المعنى الفيزيائي والعلاقات المتبادلة بين المعاملات غير كافٍ

التأثير

القيمة الأكاديمية: فتح اتجاه جديد لبحث قوانين التحجيم، من المتوقع أن يثير اهتماماً واسعاً
التوجيه العملي: توفير أداة كمية لتصميم نماذج ذات سياق طويل للصناعة
قابلية التكرار: توفير كود كامل وإعدادات تجريبية مفصلة، مما يسهل التكرار والتوسع

السيناريوهات القابلة للتطبيق

تصميم النموذج: توجيه تخصيص موارد الحساب لنماذج لغة كبيرة ذات سياق طويل
التنبؤ بالأداء: تقدير أداء النموذج قبل التدريب واسع النطاق المكلف
تحليل المهام: فهم حساسية المهام المختلفة لطول السياق
تحسين الموارد: تحسين حجم نافذة السياق في ميزانية حساب معينة

المراجع

Kaplan, J., et al. (2020). Scaling laws for neural language models. arXiv:2001.08361.
Chen, Y., et al. (2024). Scaling laws for predicting downstream performance in llms. arXiv:2410.08527.
Peng, B., et al. (2024). YaRN: Efficient context window extension of large language models. ICLR.
Wei, J., et al. (2022). Emergent abilities of large language models. TMLR.
Touvron, H., et al. (2023). Llama 2: Open foundation and fine-tuned chat models. arXiv:2307.09288.

تقدم هذه الورقة مساهمة مهمة في مجال بحث قوانين التحجيم، حيث تدرج لأول مرة بشكل منهجي طول السياق في التنبؤ بأداء المهام السفلية، مما يوفر أداة نظرية عملية وتوجيهاً عملياً قيماً لتصميم وتحسين نماذج لغة كبيرة ذات سياق طويل.