Predicting Task Performance with Context-aware Scaling Laws
Montgomery, Park, Tu et al.
Scaling laws have transformed our understanding of large language models by linking upstream metrics like cross-entropy loss to design factors such as model size, training data, and compute. However, these conventional laws fail to capture downstream task performance, where context plays a critical role. In this work, we propose a straightforward, interpretable framework that jointly models downstream performance as a function of the training compute and the provided context. We empirically validate our framework by fitting it on the observed downstream performance of extended-context variants of Llama-2-7B and Llama-2-13B across 65,500 unique instances spanning three tasks: arithmetic reasoning, common sense reasoning, and machine translation. Our results demonstrate that our framework accurately models in-distribution downstream performance, generalizes across three orders of magnitude in training compute, and reliably extrapolates performance as the amount of context increases. These findings offer valuable insights into the interplay between training compute and context utilization, providing guidance for designing more efficient long-context LLMs for diverse downstream tasks. Our code is available at https://github.com/wang-research-lab/context-scaling.
academic
التنبؤ بأداء المهام باستخدام قوانين التحجيم الموجهة بالسياق
لقد غيّرت قوانين التحجيم التقليدية للشبكات العصبية فهمنا لنماذج اللغة الكبيرة من خلال ربط المؤشرات العليا (مثل خسارة الإنتروبيا المتقاطعة) بعوامل التصميم (مثل حجم النموذج وبيانات التدريب وحجم الحساب). ومع ذلك، فإن هذه القوانين التقليدية لا تستطيع التقاط أداء المهام السفلية، حيث يلعب السياق دوراً حاسماً. تقترح هذه الورقة إطار عمل بديهي وقابل للتفسير يصمّم الأداء السفلية كدالة مشتركة لحساب التدريب والسياق المقدم. يتحقق المؤلفون من الإطار تجريبياً من خلال ملاءمته على متغيرات السياق الممتدة لـ Llama-2-7B و Llama-2-13B، على 65,500 مثيل فريد يمتد عبر ثلاث مهام: الاستدلال الحسابي والاستدلال الحس السليم والترجمة الآلية. تُظهر النتائج أن الإطار يصمّم بدقة أداء المهام السفلية ضمن التوزيع، مع قدرة التعميم عبر ثلاثة أوامر من حجم حساب التدريب، والقدرة على الاستقراء الموثوق لأداء الأداء عند زيادة كمية السياق.
تركز قوانين التحجيم التقليدية للشبكات العصبية بشكل أساسي على المؤشرات العليا (مثل خسارة الإنتروبيا المتقاطعة)، لكن في التطبيقات العملية، غالباً ما تختلف أداء المهام السفلية عن هذه الاتجاهات العليا. عادة ما تعتمد الأعمال الموجودة للتنبؤ بأداء المهام السفلية على طرق معقدة جداً وذات قابلية تفسير منخفضة.
اقتراح إطار عمل قوانين التحجيم الموجهة بالسياق: توسيع قوانين التحجيم العصبية التقليدية إلى المهام السفلية، من خلال دمج طول السياق والقيود السياقية لتوفير نمذجة أداء نموذج لغة كبير أكثر دقة
التحقق التجريبي على نطاق واسع: الملاءمة عبر 3 مهام على نوافذ السياق الممتدة لنموذج Llama-2، مما يثبت عمومية قوانين التحجيم عبر 3 أوامر من حجم حساب التدريب و 4 أوامر من طول السياق وتقنيات توسيع السياق المختلفة
أداة نظرية قابلة للتفسير: توفير إطار عمل قابل للتفسير لفهم التفاعل بين حجم الحساب والسياق والأداء السفلية، مما يوفر توجيهاً لتصميم نماذج لغة كبيرة ذات سياق طويل في المستقبل
Kaplan, J., et al. (2020). Scaling laws for neural language models. arXiv:2001.08361.
Chen, Y., et al. (2024). Scaling laws for predicting downstream performance in llms. arXiv:2410.08527.
Peng, B., et al. (2024). YaRN: Efficient context window extension of large language models. ICLR.
Wei, J., et al. (2022). Emergent abilities of large language models. TMLR.
Touvron, H., et al. (2023). Llama 2: Open foundation and fine-tuned chat models. arXiv:2307.09288.
تقدم هذه الورقة مساهمة مهمة في مجال بحث قوانين التحجيم، حيث تدرج لأول مرة بشكل منهجي طول السياق في التنبؤ بأداء المهام السفلية، مما يوفر أداة نظرية عملية وتوجيهاً عملياً قيماً لتصميم وتحسين نماذج لغة كبيرة ذات سياق طويل.