Predicting Task Performance with Context-aware Scaling Laws
Montgomery, Park, Tu et al.
Scaling laws have transformed our understanding of large language models by linking upstream metrics like cross-entropy loss to design factors such as model size, training data, and compute. However, these conventional laws fail to capture downstream task performance, where context plays a critical role. In this work, we propose a straightforward, interpretable framework that jointly models downstream performance as a function of the training compute and the provided context. We empirically validate our framework by fitting it on the observed downstream performance of extended-context variants of Llama-2-7B and Llama-2-13B across 65,500 unique instances spanning three tasks: arithmetic reasoning, common sense reasoning, and machine translation. Our results demonstrate that our framework accurately models in-distribution downstream performance, generalizes across three orders of magnitude in training compute, and reliably extrapolates performance as the amount of context increases. These findings offer valuable insights into the interplay between training compute and context utilization, providing guidance for designing more efficient long-context LLMs for diverse downstream tasks. Our code is available at https://github.com/wang-research-lab/context-scaling.
academic
Предсказание производительности задач с учетом контекста с помощью законов масштабирования
Традиционные законы масштабирования нейронных сетей, связывающие восходящие метрики (такие как кросс-энтропийная потеря) с факторами проектирования (такими как размер модели, объем обучающих данных и объем вычислений), революционизировали наше понимание больших языковых моделей. Однако эти традиционные законы не могут охватить производительность нисходящих задач, в которых контекст играет ключевую роль. В данной статье предложена интуитивная и интерпретируемая структура, которая моделирует производительность нисходящих задач как совместную функцию объема вычислений обучения и предоставленного контекста. Авторы проверили эту структуру эмпирически, подогнав её на расширенных вариантах контекста Llama-2-7B и Llama-2-13B на 65 500 уникальных экземплярах, охватывающих три задачи: арифметическое рассуждение, рассуждение на основе здравого смысла и машинный перевод. Результаты показывают, что структура точно моделирует производительность нисходящих задач внутри распределения, обобщается на три порядка величины объема вычислений обучения и надежно экстраполирует производительность при увеличении объема контекста.
Традиционные законы масштабирования нейронных сетей сосредоточены в основном на восходящих метриках (таких как кросс-энтропийная потеря), но в практических приложениях производительность нисходящих задач часто расходится с этими восходящими тенденциями. Существующие работы по предсказанию производительности нисходящих задач обычно полагаются на чрезмерно сложные методы с низкой интерпретируемостью.
Практические потребности: Точное предсказание производительности нисходящих задач может направлять разработку моделей и выявлять явления возникновения или насыщения на определенных задачах с меньшим количеством дорогостоящих экспериментов
Теоретический пробел: Существующие законы масштабирования игнорируют длину контекста как критический фактор, влияющий на производительность нисходящих задач
Руководство по проектированию: Понимание взаимодействия между объемом вычислений и использованием контекста имеет решающее значение для проектирования эффективных больших языковых моделей с длинным контекстом
Предложена структура законов масштабирования с учетом контекста: Расширяет традиционные законы масштабирования нейронных сетей на нисходящие задачи, обеспечивая более точное моделирование производительности больших языковых моделей путем объединения длины контекста и ограничений контекста
Крупномасштабная эмпирическая проверка: Подогнана на расширенных окнах контекста моделей Llama-2 на трех задачах, демонстрирует универсальность законов масштабирования на трех порядках величины объема вычислений обучения, четырех порядках величины длины контекста и различных методах расширения контекста
Интерпретируемый теоретический инструмент: Предоставляет интерпретируемую структуру для понимания взаимодействия между объемом вычислений, контекстом и производительностью нисходящих задач, обеспечивая руководство для будущего проектирования больших языковых моделей с длинным контекстом
Предсказание производительности нисходящей задачи P как функции объема вычислений обучения C, длины входного контекста n_pmt и ограничения контекста модели n_ctx.
Мультипликативная форма: Объем вычислений и контекст являются дополнительными, а не аддитивными; значительный дефицит в одном измерении ограничивает выгоду от другого измерения
Степенной закон насыщения: Экспоненциализация гарантирует, что предсказанная производительность остается ниже теоретического максимума 1,0
Механизм штрафа: Когда контекст превышает ограничение модели, генерируемые токены выходят за пределы диапазона, который модель может надежно предсказать, что приводит к резкому снижению производительности
Предположения: Зависит от предположений о масштабировании производительности с объемом вычислений обучения и контекстом, которые могут не выполняться в экстремальных случаях масштабирования
Неучтенные факторы: Смешивание предварительно обученных данных, выравнивание после обучения, выбор архитектуры и другие факторы явно не рассматриваются
Диапазон объема вычислений: Диапазон объема вычислений, использованный при подгонке, относительно узок, способность к обобщению за пределами этого диапазона неизвестна
Kaplan, J., et al. (2020). Scaling laws for neural language models. arXiv:2001.08361.
Chen, Y., et al. (2024). Scaling laws for predicting downstream performance in llms. arXiv:2410.08527.
Peng, B., et al. (2024). YaRN: Efficient context window extension of large language models. ICLR.
Wei, J., et al. (2022). Emergent abilities of large language models. TMLR.
Touvron, H., et al. (2023). Llama 2: Open foundation and fine-tuned chat models. arXiv:2307.09288.
Данная статья вносит важный вклад в область исследования законов масштабирования, впервые систематически включая длину контекста в предсказание производительности нисходящих задач, предоставляя ценные теоретические инструменты и практическое руководство для проектирования и оптимизации больших языковых моделей с длинным контекстом.