2025-11-13T00:07:10.698624

Predicting Task Performance with Context-aware Scaling Laws

Montgomery, Park, Tu et al.

Scaling laws have transformed our understanding of large language models by linking upstream metrics like cross-entropy loss to design factors such as model size, training data, and compute. However, these conventional laws fail to capture downstream task performance, where context plays a critical role. In this work, we propose a straightforward, interpretable framework that jointly models downstream performance as a function of the training compute and the provided context. We empirically validate our framework by fitting it on the observed downstream performance of extended-context variants of Llama-2-7B and Llama-2-13B across 65,500 unique instances spanning three tasks: arithmetic reasoning, common sense reasoning, and machine translation. Our results demonstrate that our framework accurately models in-distribution downstream performance, generalizes across three orders of magnitude in training compute, and reliably extrapolates performance as the amount of context increases. These findings offer valuable insights into the interplay between training compute and context utilization, providing guidance for designing more efficient long-context LLMs for diverse downstream tasks. Our code is available at https://github.com/wang-research-lab/context-scaling.

academic

Predicción del Rendimiento de Tareas con Leyes de Escalado Conscientes del Contexto

Información Básica

ID del Artículo: 2510.14919
Título: Predicción del Rendimiento de Tareas con Leyes de Escalado Conscientes del Contexto
Autores: Kyle Montgomery, David Park, Jianhong Tu, Michael Bendersky, Beliz Gunel, Dawn Song, Chenguang Wang
Clasificación: cs.CL cs.AI cs.LG
Fecha de Publicación: 16 de octubre de 2024 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.14919
Enlace del Código: https://github.com/wang-research-lab/context-scaling

Resumen

Las leyes de escalado tradicionales de redes neuronales han revolucionado nuestra comprensión de los modelos de lenguaje grandes al vincular métricas ascendentes (como la pérdida de entropía cruzada) con factores de diseño (como el tamaño del modelo, los datos de entrenamiento y la cantidad de cálculo). Sin embargo, estas leyes tradicionales no pueden capturar el rendimiento de tareas descendentes, donde el contexto juega un papel crítico. Este artículo propone un marco intuitivo e interpretable que modela el rendimiento descendente como una función conjunta del cálculo de entrenamiento y el contexto proporcionado. Los autores validan empíricamente el marco ajustándolo en variantes de contexto extendido de Llama-2-7B y Llama-2-13B, en 65,500 instancias únicas que abarcan tres tareas: razonamiento aritmético, razonamiento de sentido común y traducción automática. Los resultados demuestran que el marco modela con precisión el rendimiento descendente dentro de la distribución, generaliza en tres órdenes de magnitud de cálculo de entrenamiento y puede extrapolar de manera confiable el rendimiento cuando aumenta la cantidad de contexto.

Antecedentes de Investigación y Motivación

Definición del Problema

Las leyes de escalado tradicionales de redes neuronales se centran principalmente en métricas ascendentes (como la pérdida de entropía cruzada), pero en aplicaciones prácticas, el rendimiento de tareas descendentes a menudo diverge de estas tendencias ascendentes. Los trabajos existentes que predicen el rendimiento descendente suelen depender de métodos demasiado complejos con baja interpretabilidad.

Importancia de la Investigación

Necesidad Práctica: La estimación precisa del rendimiento descendente puede guiar el desarrollo de modelos, identificando fenómenos de emergencia o saturación en ciertas tareas con menos experimentos costosos
Vacío Teórico: Las leyes de escalado existentes ignoran la longitud del contexto, un factor clave en el rendimiento de tareas descendentes
Orientación de Diseño: Comprender la interacción entre la cantidad de cálculo y la utilización del contexto es crucial para diseñar LLMs eficientes de contexto largo

Limitaciones de Métodos Existentes

Chen et al. (2024): Utiliza un enfoque de dos etapas con pérdida ascendente como intermediaria, demasiado complejo
Ye et al. (2023): Utiliza perceptrones multicapa para predecir el rendimiento de BIG-Bench, carece de interpretabilidad
Leyes de Escalado Tradicionales: Ignoran completamente el efecto de la longitud del contexto

Contribuciones Principales

Propone un Marco de Leyes de Escalado Conscientes del Contexto: Extiende las leyes de escalado neuronal tradicionales a tareas descendentes, combinando la longitud del contexto y las limitaciones del contexto para proporcionar un modelado más preciso del rendimiento de LLM
Validación Empírica a Gran Escala: Ajusta en ventanas de contexto extendido de modelos Llama-2 en 3 tareas, demostrando la generalidad de las leyes de escalado en tres órdenes de magnitud de cálculo de entrenamiento, cuatro órdenes de magnitud de longitud de contexto y diferentes técnicas de extensión de contexto
Herramienta Teórica Interpretable: Proporciona un marco interpretable para comprender la interacción entre cálculo, contexto y rendimiento descendente, ofreciendo orientación para el diseño futuro de LLMs de contexto largo

Explicación Detallada del Método

Definición de la Tarea

Predecir el rendimiento de tareas descendentes P como una función del cálculo de entrenamiento C, la longitud del contexto de entrada n_pmt y la limitación del contexto del modelo n_ctx.

Arquitectura del Modelo

La fórmula central es:

P(C, n_pmt, n_ctx) = [1 - exp(-A(C/C_c)^α)] × [1 - exp(-B(n_pmt/n_c_pmt)^β)] × σ(n_pmt - n_ctx)

Donde:

Primer término: Término de ley de potencia saturada del cálculo de entrenamiento C, con parámetros A, C_c, α
Segundo término: Término de ley de potencia saturada de la longitud del contexto n_pmt, con parámetros B, n_c_pmt, β
Tercer término: Término de penalización sigmoidea, el rendimiento disminuye cuando n_pmt > n_ctx

Principios de Diseño

Forma Multiplicativa: El cálculo y el contexto son complementarios, no aditivos; la deficiencia significativa en una dimensión limita los beneficios obtenidos de la otra
Ley de Potencia Saturada: Asegura mediante exponenciación que el rendimiento predicho se mantenga por debajo del máximo teórico de 1.0
Mecanismo de Penalización: Cuando el contexto excede la limitación del modelo, los tokens generados caen fuera del rango que el modelo puede predecir de manera confiable, causando una caída abrupta en el rendimiento

Puntos de Innovación Técnica

Modelado Conjunto: Primera vez que se modelan conjuntamente el cálculo de entrenamiento y la longitud del contexto
Interpretabilidad: Proporciona una forma de función intuitiva en comparación con métodos complejos existentes
Manejo de Límites: Maneja efectivamente las condiciones de límite de restricción de contexto mediante el término sigmoidea

Configuración Experimental

Conjunto de Datos

Evaluó 12 modelos (Tabla 1) en 65,500 instancias, cubriendo 3 tareas:

Razonamiento Aritmético: 3,550 instancias de prueba
- GSM8K, MATH, AQUA-RAT, DeepMind Math
- Relleno de contexto con hasta 511 demostraciones
Razonamiento de Sentido Común: 1,750 instancias de prueba
- PIQA, SIQA, OpenBookQA, HellaSwag, WinoGrande, ARC-Easy/Challenge, CommonSenseQA
- Relleno de contexto con hasta 511 demostraciones
Traducción Automática: 1,250 instancias
- WMT-14 (alemán, francés, hindi, checo, ruso → inglés)
- Puntuación BLEU-4

Configuración del Modelo

Basado en Llama-2-7B y Llama-2-13B, utilizando la técnica YaRN para extender ventanas de contexto a 8k, 16k, 32k, 64k, 128k tokens.

Métricas de Evaluación

Razonamiento aritmético y sentido común: Precisión
Traducción automática: Puntuación BLEU-4
Error de predicción: Error absoluto promedio de predicción |P - P̂|

Proceso de Ajuste

Optimización de dos etapas:

Búsqueda Global: Utilizando differential_evolution de SciPy
Optimización Local: Utilizando curve_fit para ajuste preciso

Resultados Experimentales

Resultados Principales

Logró excelentes resultados de ajuste en las tres tareas:

Razonamiento Aritmético: Error de predicción promedio 0.010
Razonamiento de Sentido Común: Error de predicción promedio 0.037
Traducción Automática: Error de predicción promedio 0.007

Verificación de Capacidad de Generalización

1. Generalización del Cálculo de Entrenamiento (Sección 4.1)

Verificado en 5 modelos de prueba, abarcando 3 órdenes de magnitud de cálculo:

Qwen2.5-0.5B a Llama-2-70B
La mayoría de errores de predicción dentro de 5 puntos
Mejor generalización en razonamiento aritmético y traducción automática

2. Generalización de Longitud de Contexto (Sección 4.2)

Retención de observaciones superiores a 10,000 tokens para verificación:

Razonamiento Aritmético: Error de predicción 0.017
Razonamiento de Sentido Común: Error de predicción 0.067
Traducción Automática: Error de predicción 0.006

3. Generalización de Técnica de Extensión de Contexto (Sección 4.3)

Comparación de técnicas YaRN e interpolación de posición, errores de predicción similares, indicando que el método es insensible a la técnica de extensión de contexto.

Experimentos de Ablación

Verificación de la importancia del término de penalización sigmoidea:

Con término de penalización: Error de predicción 0.010
Sin término de penalización: Error de predicción 0.029

Trabajo Relacionado

Leyes de Escalado Tradicionales

Hestness et al. (2017), Kaplan et al. (2020): Establecieron la relación entre rendimiento ascendente y factores de diseño del modelo
Hoffmann et al. (2022): Utilizado para entrenar LLMs óptimos en cálculo

Predicción de Rendimiento Descendente

Wei et al. (2022), Hu et al. (2024): Enfocados en capacidades "emergentes" en LLMs
Chen et al. (2024), Ruan et al. (2024): Adoptan enfoque de dos etapas
Contribución de este Artículo: Primera introducción de dependencia de longitud de contexto

Técnicas de Extensión de Contexto

Métodos sin entrenamiento: InfLLM, LM-Infinite, etc.
Reescalado de codificación de posición: Interpolación de posición, YaRN, etc.
Elección en este Artículo: Utiliza YaRN para extensión de contexto

Conclusiones y Discusión

Conclusiones Principales

El rendimiento descendente puede modelarse con precisión como una función conjunta del cálculo de entrenamiento y el contexto
El marco tiene buena capacidad de generalización en un amplio rango de cálculo y longitud de contexto
El rendimiento se beneficia del aumento de cálculo y contexto relevante, pero existe un punto de saturación

Limitaciones

Supuestos: Depende del supuesto de que el rendimiento escala con el cálculo de entrenamiento y el contexto, puede no ser válido en casos de escalado extremo
Factores No Considerados: La mezcla de datos de preentrenamiento, alineación posterior al entrenamiento, elecciones de arquitectura y otros factores no se consideran explícitamente
Rango de Cálculo: El rango de cálculo ajustado es relativamente estrecho, la capacidad de generalización fuera de este rango es desconocida

Direcciones Futuras

Investigar cómo otros factores (como ajuste de instrucciones, alineación) afectan los parámetros identificados
Extender a un rango más amplio de cálculo de entrenamiento
Explorar la aplicabilidad en escenarios de ataques adversarios

Evaluación Profunda

Fortalezas

Innovación Teórica: Primera vez que se incorpora la longitud del contexto en leyes de escalado, llenando un vacío teórico importante
Valor Práctico: Proporciona un marco interpretable para guiar el diseño de LLMs de contexto largo
Experimentación Exhaustiva: Validación a gran escala con 65,500 instancias, abarcando múltiples tareas y modelos
Fuerte Capacidad de Generalización: Demuestra buen rendimiento de generalización en múltiples dimensiones
Método Simple: Proporciona una forma de función intuitiva e interpretable en comparación con métodos complejos existentes

Deficiencias

Limitación de Modelos: Validado solo en modelos de la serie Llama-2, carece de validación en familias de modelos más amplias
Cobertura de Tareas: Solo involucra 3 tipos de tareas, la aplicabilidad a otras tareas de PNL es desconocida
Fundamento Teórico: Carece de explicación teórica profunda sobre por qué se adopta la forma de función específica
Interpretación de Parámetros: El análisis del significado físico de cada parámetro y sus relaciones mutuas es insuficiente

Impacto

Valor Académico: Abre nuevas direcciones en la investigación de leyes de escalado, se espera que atraiga amplia atención
Orientación Práctica: Proporciona herramientas cuantitativas para que la industria diseñe modelos de contexto largo
Reproducibilidad: Proporciona código completo y configuración experimental detallada, facilitando la reproducción y extensión

Escenarios de Aplicación

Diseño de Modelos: Guía la asignación de recursos computacionales para LLMs de contexto largo
Predicción de Rendimiento: Estima el rendimiento del modelo antes del costoso entrenamiento a gran escala
Análisis de Tareas: Comprende la sensibilidad de diferentes tareas a la longitud del contexto
Optimización de Recursos: Optimiza el tamaño de la ventana de contexto bajo un presupuesto computacional dado

Referencias

Kaplan, J., et al. (2020). Scaling laws for neural language models. arXiv:2001.08361.
Chen, Y., et al. (2024). Scaling laws for predicting downstream performance in llms. arXiv:2410.08527.
Peng, B., et al. (2024). YaRN: Efficient context window extension of large language models. ICLR.
Wei, J., et al. (2022). Emergent abilities of large language models. TMLR.
Touvron, H., et al. (2023). Llama 2: Open foundation and fine-tuned chat models. arXiv:2307.09288.

Este artículo realiza una contribución importante en el campo de la investigación de leyes de escalado, siendo el primero en incorporar sistemáticamente la longitud del contexto en la predicción del rendimiento de tareas descendentes, proporcionando herramientas teóricas valiosas y orientación práctica para el diseño y optimización de LLMs de contexto largo.