2025-11-13T00:07:10.698624

Predicting Task Performance with Context-aware Scaling Laws

Montgomery, Park, Tu et al.

Scaling laws have transformed our understanding of large language models by linking upstream metrics like cross-entropy loss to design factors such as model size, training data, and compute. However, these conventional laws fail to capture downstream task performance, where context plays a critical role. In this work, we propose a straightforward, interpretable framework that jointly models downstream performance as a function of the training compute and the provided context. We empirically validate our framework by fitting it on the observed downstream performance of extended-context variants of Llama-2-7B and Llama-2-13B across 65,500 unique instances spanning three tasks: arithmetic reasoning, common sense reasoning, and machine translation. Our results demonstrate that our framework accurately models in-distribution downstream performance, generalizes across three orders of magnitude in training compute, and reliably extrapolates performance as the amount of context increases. These findings offer valuable insights into the interplay between training compute and context utilization, providing guidance for designing more efficient long-context LLMs for diverse downstream tasks. Our code is available at https://github.com/wang-research-lab/context-scaling.

academic

Предсказание производительности задач с учетом контекста с помощью законов масштабирования

Основная информация

ID статьи: 2510.14919
Название: Predicting Task Performance with Context-aware Scaling Laws
Авторы: Kyle Montgomery, David Park, Jianhong Tu, Michael Bendersky, Beliz Gunel, Dawn Song, Chenguang Wang
Классификация: cs.CL cs.AI cs.LG
Дата публикации: 16 октября 2024 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.14919
Ссылка на код: https://github.com/wang-research-lab/context-scaling

Аннотация

Традиционные законы масштабирования нейронных сетей, связывающие восходящие метрики (такие как кросс-энтропийная потеря) с факторами проектирования (такими как размер модели, объем обучающих данных и объем вычислений), революционизировали наше понимание больших языковых моделей. Однако эти традиционные законы не могут охватить производительность нисходящих задач, в которых контекст играет ключевую роль. В данной статье предложена интуитивная и интерпретируемая структура, которая моделирует производительность нисходящих задач как совместную функцию объема вычислений обучения и предоставленного контекста. Авторы проверили эту структуру эмпирически, подогнав её на расширенных вариантах контекста Llama-2-7B и Llama-2-13B на 65 500 уникальных экземплярах, охватывающих три задачи: арифметическое рассуждение, рассуждение на основе здравого смысла и машинный перевод. Результаты показывают, что структура точно моделирует производительность нисходящих задач внутри распределения, обобщается на три порядка величины объема вычислений обучения и надежно экстраполирует производительность при увеличении объема контекста.

Исследовательский контекст и мотивация

Определение проблемы

Традиционные законы масштабирования нейронных сетей сосредоточены в основном на восходящих метриках (таких как кросс-энтропийная потеря), но в практических приложениях производительность нисходящих задач часто расходится с этими восходящими тенденциями. Существующие работы по предсказанию производительности нисходящих задач обычно полагаются на чрезмерно сложные методы с низкой интерпретируемостью.

Значимость исследования

Практические потребности: Точное предсказание производительности нисходящих задач может направлять разработку моделей и выявлять явления возникновения или насыщения на определенных задачах с меньшим количеством дорогостоящих экспериментов
Теоретический пробел: Существующие законы масштабирования игнорируют длину контекста как критический фактор, влияющий на производительность нисходящих задач
Руководство по проектированию: Понимание взаимодействия между объемом вычислений и использованием контекста имеет решающее значение для проектирования эффективных больших языковых моделей с длинным контекстом

Ограничения существующих методов

Chen и др. (2024): Использует двухэтапный подход с восходящей потерей в качестве посредника, чрезмерно сложный
Ye и др. (2023): Использует многослойный персептрон для предсказания производительности BIG-Bench, недостаточная интерпретируемость
Традиционные законы масштабирования: Полностью игнорируют влияние длины контекста

Основные вклады

Предложена структура законов масштабирования с учетом контекста: Расширяет традиционные законы масштабирования нейронных сетей на нисходящие задачи, обеспечивая более точное моделирование производительности больших языковых моделей путем объединения длины контекста и ограничений контекста
Крупномасштабная эмпирическая проверка: Подогнана на расширенных окнах контекста моделей Llama-2 на трех задачах, демонстрирует универсальность законов масштабирования на трех порядках величины объема вычислений обучения, четырех порядках величины длины контекста и различных методах расширения контекста
Интерпретируемый теоретический инструмент: Предоставляет интерпретируемую структуру для понимания взаимодействия между объемом вычислений, контекстом и производительностью нисходящих задач, обеспечивая руководство для будущего проектирования больших языковых моделей с длинным контекстом

Подробное описание методологии

Определение задачи

Предсказание производительности нисходящей задачи P как функции объема вычислений обучения C, длины входного контекста n_pmt и ограничения контекста модели n_ctx.

Архитектура модели

Основная формула:

P(C, n_pmt, n_ctx) = [1 - exp(-A(C/C_c)^α)] × [1 - exp(-B(n_pmt/n_c_pmt)^β)] × σ(n_pmt - n_ctx)

Где:

Первый член: Член степенного закона насыщения для объема вычислений обучения C с параметрами A, C_c, α
Второй член: Член степенного закона насыщения для длины контекста n_pmt с параметрами B, n_c_pmt, β
Третий член: Сигмоидный штрафной член, производительность снижается при n_pmt > n_ctx

Принципы проектирования

Мультипликативная форма: Объем вычислений и контекст являются дополнительными, а не аддитивными; значительный дефицит в одном измерении ограничивает выгоду от другого измерения
Степенной закон насыщения: Экспоненциализация гарантирует, что предсказанная производительность остается ниже теоретического максимума 1,0
Механизм штрафа: Когда контекст превышает ограничение модели, генерируемые токены выходят за пределы диапазона, который модель может надежно предсказать, что приводит к резкому снижению производительности

Технические инновации

Совместное моделирование: Впервые объединяет объем вычислений обучения и длину контекста в единую модель
Интерпретируемость: По сравнению с существующими сложными методами предоставляет интуитивную функциональную форму
Обработка границ: Эффективно обрабатывает граничные условия ограничения контекста через сигмоидный член

Экспериментальная установка

Наборы данных

Оценка 12 моделей (таблица 1) на 65 500 экземплярах, охватывающих 3 задачи:

Арифметическое рассуждение: 3 550 тестовых экземпляров
- GSM8K, MATH, AQUA-RAT, DeepMind Math
- Заполнение контекста до 511 демонстраций
Рассуждение на основе здравого смысла: 1 750 тестовых экземпляров
- PIQA, SIQA, OpenBookQA, HellaSwag, WinoGrande, ARC-Easy/Challenge, CommonSenseQA
- Заполнение контекста до 511 демонстраций
Машинный перевод: 1 250 экземпляров
- WMT-14 (немецкий, французский, хинди, чешский, русский → английский)
- Использование оценки BLEU-4

Конфигурация модели

На основе Llama-2-7B и Llama-2-13B с использованием технологии YaRN для расширения окна контекста до 8k, 16k, 32k, 64k, 128k токенов.

Метрики оценки

Арифметическое рассуждение и рассуждение на основе здравого смысла: точность
Машинный перевод: оценка BLEU-4
Ошибка предсказания: средняя абсолютная ошибка предсказания |P - P̂|

Процесс подгонки

Двухэтапная оптимизация:

Глобальный поиск: Использование differential_evolution из SciPy
Локальная оптимизация: Использование curve_fit для точной подгонки

Результаты экспериментов

Основные результаты

Достижение отличного качества подгонки на трех задачах:

Арифметическое рассуждение: Средняя ошибка предсказания 0,010
Рассуждение на основе здравого смысла: Средняя ошибка предсказания 0,037
Машинный перевод: Средняя ошибка предсказания 0,007

Проверка способности к обобщению

1. Обобщение по объему вычислений обучения (раздел 4.1)

Проверка на 5 тестовых моделях, охватывающих 3 порядка величины объема вычислений:

От Qwen2.5-0.5B до Llama-2-70B
Большинство ошибок предсказания в пределах 5 процентных пункта
Лучшее обобщение на арифметическом рассуждении и машинном переводе

2. Обобщение по длине контекста (раздел 4.2)

Сохранение наблюдений с более чем 10 000 токенами для проверки:

Арифметическое рассуждение: ошибка предсказания 0,017
Рассуждение на основе здравого смысла: ошибка предсказания 0,067
Машинный перевод: ошибка предсказания 0,006

3. Обобщение по технике расширения контекста (раздел 4.3)

Сравнение методов YaRN и интерполяции позиций, аналогичные ошибки предсказания указывают на нечувствительность метода к технике расширения контекста.

Абляционные исследования

Проверка важности сигмоидного штрафного члена:

С штрафным членом: ошибка предсказания 0,010
Без штрафного члена: ошибка предсказания 0,029

Связанные работы

Традиционные законы масштабирования

Hestness и др. (2017), Kaplan и др. (2020): Установили связь между восходящей производительностью и факторами проектирования модели
Hoffmann и др. (2022): Применены для обучения вычислительно оптимальных больших языковых моделей

Предсказание производительности нисходящих задач

Wei и др. (2022), Hu и др. (2024): Сосредоточены на "возникающих" способностях в больших языковых моделях
Chen и др. (2024), Ruan и др. (2024): Применяют двухэтапный подход
Вклад данной работы: Впервые вводит зависимость от длины контекста

Методы расширения контекста

Методы без обучения: InfLLM, LM-Infinite и др.
Перемасштабирование кодирования позиций: Интерполяция позиций, YaRN и др.
Выбор данной работы: Использование YaRN для расширения контекста

Заключение и обсуждение

Основные выводы

Производительность нисходящих задач может быть точно смоделирована как совместная функция объема вычислений обучения и контекста
Структура демонстрирует хорошую способность к обобщению на широком диапазоне объемов вычислений и длин контекста
Производительность выигрывает от увеличения объема вычислений и соответствующего контекста, но существуют точки насыщения

Ограничения

Предположения: Зависит от предположений о масштабировании производительности с объемом вычислений обучения и контекстом, которые могут не выполняться в экстремальных случаях масштабирования
Неучтенные факторы: Смешивание предварительно обученных данных, выравнивание после обучения, выбор архитектуры и другие факторы явно не рассматриваются
Диапазон объема вычислений: Диапазон объема вычислений, использованный при подгонке, относительно узок, способность к обобщению за пределами этого диапазона неизвестна

Направления будущих исследований

Исследование того, как другие факторы (такие как инструктивная настройка, выравнивание) влияют на выявленные параметры
Расширение на более широкий диапазон объемов вычислений обучения
Изучение применимости в сценариях враждебных атак

Глубокая оценка

Преимущества

Теоретическая инновация: Впервые включает длину контекста в законы масштабирования, заполняя важный теоретический пробел
Практическая ценность: Предоставляет интерпретируемую структуру для руководства проектированием больших языковых моделей с длинным контекстом
Достаточные эксперименты: Крупномасштабная проверка на 65 500 экземплярах, охватывающая несколько задач и моделей
Сильная способность к обобщению: Демонстрирует хорошую производительность обобщения на нескольких измерениях
Простой метод: По сравнению с существующими сложными методами предоставляет интуитивную интерпретируемую функциональную форму

Недостатки

Ограничения модели: Проверка только на моделях семейства Llama-2, отсутствует проверка на более широком семействе моделей
Охват задач: Охватывает только 3 типа задач, применимость к другим задачам обработки естественного языка неизвестна
Теоретическая основа: Недостаточное объяснение причин выбора конкретной функциональной формы на глубоком теоретическом уровне
Интерпретация параметров: Анализ физического смысла параметров и их взаимосвязей недостаточно глубокий

Влияние

Академическая ценность: Открывает новое направление в исследовании законов масштабирования, ожидается широкое внимание
Практическое руководство: Предоставляет количественные инструменты для проектирования моделей с длинным контекстом в промышленности
Воспроизводимость: Предоставляет полный код и подробные экспериментальные установки, облегчая воспроизведение и расширение

Применимые сценарии

Проектирование моделей: Направляет распределение вычислительных ресурсов для больших языковых моделей с длинным контекстом
Предсказание производительности: Предсказывает производительность модели перед дорогостоящим крупномасштабным обучением
Анализ задач: Понимает чувствительность различных задач к длине контекста
Оптимизация ресурсов: Оптимизирует размер окна контекста при заданном бюджете вычислений

Список литературы

Kaplan, J., et al. (2020). Scaling laws for neural language models. arXiv:2001.08361.
Chen, Y., et al. (2024). Scaling laws for predicting downstream performance in llms. arXiv:2410.08527.
Peng, B., et al. (2024). YaRN: Efficient context window extension of large language models. ICLR.
Wei, J., et al. (2022). Emergent abilities of large language models. TMLR.
Touvron, H., et al. (2023). Llama 2: Open foundation and fine-tuned chat models. arXiv:2307.09288.

Данная статья вносит важный вклад в область исследования законов масштабирования, впервые систематически включая длину контекста в предсказание производительности нисходящих задач, предоставляя ценные теоретические инструменты и практическое руководство для проектирования и оптимизации больших языковых моделей с длинным контекстом.