Predicting Task Performance with Context-aware Scaling Laws
Montgomery, Park, Tu et al.
Scaling laws have transformed our understanding of large language models by linking upstream metrics like cross-entropy loss to design factors such as model size, training data, and compute. However, these conventional laws fail to capture downstream task performance, where context plays a critical role. In this work, we propose a straightforward, interpretable framework that jointly models downstream performance as a function of the training compute and the provided context. We empirically validate our framework by fitting it on the observed downstream performance of extended-context variants of Llama-2-7B and Llama-2-13B across 65,500 unique instances spanning three tasks: arithmetic reasoning, common sense reasoning, and machine translation. Our results demonstrate that our framework accurately models in-distribution downstream performance, generalizes across three orders of magnitude in training compute, and reliably extrapolates performance as the amount of context increases. These findings offer valuable insights into the interplay between training compute and context utilization, providing guidance for designing more efficient long-context LLMs for diverse downstream tasks. Our code is available at https://github.com/wang-research-lab/context-scaling.
academic
Predicción del Rendimiento de Tareas con Leyes de Escalado Conscientes del Contexto
Las leyes de escalado tradicionales de redes neuronales han revolucionado nuestra comprensión de los modelos de lenguaje grandes al vincular métricas ascendentes (como la pérdida de entropía cruzada) con factores de diseño (como el tamaño del modelo, los datos de entrenamiento y la cantidad de cálculo). Sin embargo, estas leyes tradicionales no pueden capturar el rendimiento de tareas descendentes, donde el contexto juega un papel crítico. Este artículo propone un marco intuitivo e interpretable que modela el rendimiento descendente como una función conjunta del cálculo de entrenamiento y el contexto proporcionado. Los autores validan empíricamente el marco ajustándolo en variantes de contexto extendido de Llama-2-7B y Llama-2-13B, en 65,500 instancias únicas que abarcan tres tareas: razonamiento aritmético, razonamiento de sentido común y traducción automática. Los resultados demuestran que el marco modela con precisión el rendimiento descendente dentro de la distribución, generaliza en tres órdenes de magnitud de cálculo de entrenamiento y puede extrapolar de manera confiable el rendimiento cuando aumenta la cantidad de contexto.
Las leyes de escalado tradicionales de redes neuronales se centran principalmente en métricas ascendentes (como la pérdida de entropía cruzada), pero en aplicaciones prácticas, el rendimiento de tareas descendentes a menudo diverge de estas tendencias ascendentes. Los trabajos existentes que predicen el rendimiento descendente suelen depender de métodos demasiado complejos con baja interpretabilidad.
Necesidad Práctica: La estimación precisa del rendimiento descendente puede guiar el desarrollo de modelos, identificando fenómenos de emergencia o saturación en ciertas tareas con menos experimentos costosos
Vacío Teórico: Las leyes de escalado existentes ignoran la longitud del contexto, un factor clave en el rendimiento de tareas descendentes
Orientación de Diseño: Comprender la interacción entre la cantidad de cálculo y la utilización del contexto es crucial para diseñar LLMs eficientes de contexto largo
Propone un Marco de Leyes de Escalado Conscientes del Contexto: Extiende las leyes de escalado neuronal tradicionales a tareas descendentes, combinando la longitud del contexto y las limitaciones del contexto para proporcionar un modelado más preciso del rendimiento de LLM
Validación Empírica a Gran Escala: Ajusta en ventanas de contexto extendido de modelos Llama-2 en 3 tareas, demostrando la generalidad de las leyes de escalado en tres órdenes de magnitud de cálculo de entrenamiento, cuatro órdenes de magnitud de longitud de contexto y diferentes técnicas de extensión de contexto
Herramienta Teórica Interpretable: Proporciona un marco interpretable para comprender la interacción entre cálculo, contexto y rendimiento descendente, ofreciendo orientación para el diseño futuro de LLMs de contexto largo
Predecir el rendimiento de tareas descendentes P como una función del cálculo de entrenamiento C, la longitud del contexto de entrada n_pmt y la limitación del contexto del modelo n_ctx.
Forma Multiplicativa: El cálculo y el contexto son complementarios, no aditivos; la deficiencia significativa en una dimensión limita los beneficios obtenidos de la otra
Ley de Potencia Saturada: Asegura mediante exponenciación que el rendimiento predicho se mantenga por debajo del máximo teórico de 1.0
Mecanismo de Penalización: Cuando el contexto excede la limitación del modelo, los tokens generados caen fuera del rango que el modelo puede predecir de manera confiable, causando una caída abrupta en el rendimiento
Comparación de técnicas YaRN e interpolación de posición, errores de predicción similares, indicando que el método es insensible a la técnica de extensión de contexto.
Supuestos: Depende del supuesto de que el rendimiento escala con el cálculo de entrenamiento y el contexto, puede no ser válido en casos de escalado extremo
Factores No Considerados: La mezcla de datos de preentrenamiento, alineación posterior al entrenamiento, elecciones de arquitectura y otros factores no se consideran explícitamente
Rango de Cálculo: El rango de cálculo ajustado es relativamente estrecho, la capacidad de generalización fuera de este rango es desconocida
Kaplan, J., et al. (2020). Scaling laws for neural language models. arXiv:2001.08361.
Chen, Y., et al. (2024). Scaling laws for predicting downstream performance in llms. arXiv:2410.08527.
Peng, B., et al. (2024). YaRN: Efficient context window extension of large language models. ICLR.
Wei, J., et al. (2022). Emergent abilities of large language models. TMLR.
Touvron, H., et al. (2023). Llama 2: Open foundation and fine-tuned chat models. arXiv:2307.09288.
Este artículo realiza una contribución importante en el campo de la investigación de leyes de escalado, siendo el primero en incorporar sistemáticamente la longitud del contexto en la predicción del rendimiento de tareas descendentes, proporcionando herramientas teóricas valiosas y orientación práctica para el diseño y optimización de LLMs de contexto largo.