Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.
Арифметика задач (Task Arithmetic) представляет собой простую и мощную технику объединения моделей, позволяющую комбинировать несколько дообученных моделей в единую модель. Несмотря на превосходные экспериментальные результаты, отсутствует четкое теоретическое объяснение механизма её работы и условий применимости. В данной работе устанавливается связь между векторами задач и градиентами потерь задач, обеспечивая строгую теоретическую основу для арифметики задач. Исследование показывает, что при стандартном градиентном спуске вектор задачи, полученный при однократном проходе (epoch), полностью эквивалентен отрицательному градиенту потерь, умноженному на скорость обучения. Для практических многопроходных сценариев эта эквивалентность приблизительно сохраняется с членом ошибки второго порядка, для которого авторы предоставляют явные границы для полносвязных сетей. Теоретические результаты проверены экспериментально на семи визуальных эталонах, подтверждая, что градиент первого прохода доминирует над траекторией обучения как по норме, так и по направлению. Важное открытие заключается в том, что объединение моделей, дообученных только на одном проходе, часто достигает производительности, сравнимой с объединением полностью сходящихся моделей.
Парадигма предварительного обучения и дообучения стала краеугольным камнем глубокого обучения, позволяя крупным универсальным моделям адаптироваться к бесчисленным специализированным задачам. Однако этот успех сопровождается значительными затратами: хранение отдельных дообученных моделей для каждой задачи создает огромные накладные расходы на хранение, проблема усугубляется по мере увеличения количества специализированных приложений.
Арифметика задач, хотя и проста и эффективна, лишена теоретической основы
Предыдущие работы только эмпирически наблюдали, что векторы задач при кратком дообучении лучше подходят для объединения, но не предоставили строгого объяснения
Отсутствует математический анализ связи между векторами задач и градиентами
Данная работа направлена на заполнение теоретического пробела путем математического анализа механизма работы арифметики задач, в частности установления связи между векторами задач и градиентами многозадачного обучения.
Установление теоретической основы: строгое доказательство того, что вектор задачи при однопроходном градиентном спуске является масштабированным отрицательным градиентом, а различие между итерациями арифметики задач и совместным многозадачным обучением составляет только член второго порядка O(η²)
Вывод границ ошибок: вывод явных равномерных границ 2-нормы для члена ошибки второго порядка в полносвязных сетях при предположениях об ограниченных весах и ограниченных производных функций активации
Экспериментальная верификация: экспериментальное подтверждение на нескольких визуальных задачах доминирующего вклада градиента первого прохода в общую траекторию дообучения как по норме, так и по направлению
Практическое руководство: предоставление теоретического обоснования преимуществ кратковременного дообучения для объединения моделей, переформулирование арифметики задач как приближения многозадачного обучения
Пусть T обозначает множество задач, |T| — количество задач. Веса предварительно обученной модели обозначаются θ_base. Для задачи t∈T, θ_t^(k) обозначает параметры после k проходов дообучения на задаче t. Вектор задачи определяется как:
Пусть θ_TA^(k) = θ_base + α Σ_{t∈T} τ_t^(k) — модель, полученная с использованием арифметики задач, где {θ_t^(k)}{t∈T} получены k проходами полнопакетного градиентного спуска с шагом η. Пусть θ_MT^(k) — результат k проходов градиентного спуска на агрегированной потере Σ{t∈T} L_t с шагом αη. Тогда:
Полная эквивалентность на первом проходе:
θ_TA^(1) = θ_MT^(1)
Приблизительная эквивалентность при многих проходах (k > 1):
Теория показывает, что информация о градиенте первого прохода доминирует над всей траекторией дообучения:
Анализ нормы градиента: первый проход вносит наибольший вклад в общую норму градиента
Согласованность направления: градиенты последующих проходов сохраняют высокое косинусное сходство с градиентом первого прохода (>0.8)
Эквивалентность производительности: объединение моделей, дообученных на одном проходе, показывает производительность, сравнимую с объединением полностью сходящихся моделей
Сравнение одного прохода и сходимости: сравнение производительности объединения моделей, дообученных на одном проходе, с полностью сходящимися моделями
Анализ градиентов: анализ нормализованного вклада норм градиентов каждого прохода
Согласованность направления: вычисление косинусного сходства между градиентами разных проходов
Траектория в пространстве параметров: визуализация траекторий пространства параметров различных стратегий объединения с помощью PCA
Верификация эквивалентности производительности: на всех протестированных наборах данных производительность объединения моделей, дообученных на одном проходе, практически эквивалентна объединению полностью сходящихся моделей, в некоторых случаях даже превосходит их
Доминирование первого прохода:
Первый проход вносит вклад 0.3-0.7 в нормализованную норму градиента
Косинусное сходство градиентов первых пяти проходов с градиентом первого прохода остается выше 0.8
Анализ пространства параметров: итеративная арифметика задач посредством обновлений с малым шагом направляет модель в различные области с более низкой потерей
Специализация ≠ способность к объединению: высокоспециализированные модели не обязательно дают лучшие результаты объединения
Важность ранней динамики: ранняя динамика обучения критична для успешного объединения моделей
Качество градиентного приближения: качество аппроксимации вектором задачи истинного многозадачного градиента снижается с увеличением времени дообучения
Статья цитирует важные работы в областях объединения моделей, векторов задач и многозадачного обучения, включая:
Ilharco et al. (2022) — оригинальная работа по арифметике задач
Zhou et al. (2025) — итеративная арифметика задач
Ortiz-Jimenez et al. (2024) — арифметика задач в касательном пространстве
Wortsman et al. (2022) — метод модельного супа
Данная статья посредством строгого математического анализа обеспечивает теоретическую основу для арифметики задач, не только объясняя причины её эффективности, но и предоставляя ценное руководство для практических приложений. Несмотря на некоторые ограничения теоретических предположений, её вклад имеет важное значение для понимания и совершенствования технологий объединения моделей.