2025-11-24T23:40:16.998519

On Task Vectors and Gradients

Zhou, Solombrino, Crisostomi et al.
Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.
academic

О векторах задач и градиентах

Основная информация

  • ID статьи: 2508.16082
  • Название: On Task Vectors and Gradients
  • Авторы: Luca Zhou, Daniele Solombrino, Donato Crisostomi, Maria Sofia Bucarelli, Giuseppe A. D'Inverno, Fabrizio Silvestri, Emanuele Rodolà
  • Классификация: cs.LG, cs.AI
  • Время публикации/конференция: NeurIPS 2025 Workshop: UniReps
  • Ссылка на статью: https://arxiv.org/abs/2508.16082

Аннотация

Арифметика задач (Task Arithmetic) представляет собой простую и мощную технику объединения моделей, позволяющую комбинировать несколько дообученных моделей в единую модель. Несмотря на превосходные экспериментальные результаты, отсутствует четкое теоретическое объяснение механизма её работы и условий применимости. В данной работе устанавливается связь между векторами задач и градиентами потерь задач, обеспечивая строгую теоретическую основу для арифметики задач. Исследование показывает, что при стандартном градиентном спуске вектор задачи, полученный при однократном проходе (epoch), полностью эквивалентен отрицательному градиенту потерь, умноженному на скорость обучения. Для практических многопроходных сценариев эта эквивалентность приблизительно сохраняется с членом ошибки второго порядка, для которого авторы предоставляют явные границы для полносвязных сетей. Теоретические результаты проверены экспериментально на семи визуальных эталонах, подтверждая, что градиент первого прохода доминирует над траекторией обучения как по норме, так и по направлению. Важное открытие заключается в том, что объединение моделей, дообученных только на одном проходе, часто достигает производительности, сравнимой с объединением полностью сходящихся моделей.

Исследовательский контекст и мотивация

Проблемный контекст

Парадигма предварительного обучения и дообучения стала краеугольным камнем глубокого обучения, позволяя крупным универсальным моделям адаптироваться к бесчисленным специализированным задачам. Однако этот успех сопровождается значительными затратами: хранение отдельных дообученных моделей для каждой задачи создает огромные накладные расходы на хранение, проблема усугубляется по мере увеличения количества специализированных приложений.

Основные проблемы

  1. Проблема эффективности хранения: каждая задача требует независимой дообученной модели, что приводит к линейному росту затрат на хранение
  2. Отсутствие теоретического понимания: несмотря на хорошие экспериментальные результаты арифметики задач, отсутствует строгое теоретическое объяснение
  3. Неясная оптимальная стратегия дообучения: неизвестно, как долго следует проводить дообучение для эффективного объединения моделей

Ограничения существующих методов

  • Арифметика задач, хотя и проста и эффективна, лишена теоретической основы
  • Предыдущие работы только эмпирически наблюдали, что векторы задач при кратком дообучении лучше подходят для объединения, но не предоставили строгого объяснения
  • Отсутствует математический анализ связи между векторами задач и градиентами

Исследовательская мотивация

Данная работа направлена на заполнение теоретического пробела путем математического анализа механизма работы арифметики задач, в частности установления связи между векторами задач и градиентами многозадачного обучения.

Основные вклады

  1. Установление теоретической основы: строгое доказательство того, что вектор задачи при однопроходном градиентном спуске является масштабированным отрицательным градиентом, а различие между итерациями арифметики задач и совместным многозадачным обучением составляет только член второго порядка O(η²)
  2. Вывод границ ошибок: вывод явных равномерных границ 2-нормы для члена ошибки второго порядка в полносвязных сетях при предположениях об ограниченных весах и ограниченных производных функций активации
  3. Экспериментальная верификация: экспериментальное подтверждение на нескольких визуальных задачах доминирующего вклада градиента первого прохода в общую траекторию дообучения как по норме, так и по направлению
  4. Практическое руководство: предоставление теоретического обоснования преимуществ кратковременного дообучения для объединения моделей, переформулирование арифметики задач как приближения многозадачного обучения

Подробное описание методов

Определение задач

Пусть T обозначает множество задач, |T| — количество задач. Веса предварительно обученной модели обозначаются θ_base. Для задачи t∈T, θ_t^(k) обозначает параметры после k проходов дообучения на задаче t. Вектор задачи определяется как:

τ_t^(k) := θ_t^(k) - θ_base

Эмпирическая потеря для задачи t:

L_t(θ) := (1/n_t) Σ_{i=1}^{n_t} ℓ(x_i, y_i, θ)

Основные теоретические результаты

Теорема 1: Эквивалентность арифметики задач и многозадачного обучения

Пусть θ_TA^(k) = θ_base + α Σ_{t∈T} τ_t^(k) — модель, полученная с использованием арифметики задач, где {θ_t^(k)}{t∈T} получены k проходами полнопакетного градиентного спуска с шагом η. Пусть θ_MT^(k) — результат k проходов градиентного спуска на агрегированной потере Σ{t∈T} L_t с шагом αη. Тогда:

  1. Полная эквивалентность на первом проходе:
    θ_TA^(1) = θ_MT^(1)
    
  2. Приблизительная эквивалентность при многих проходах (k > 1):
    θ_TA^(k) = θ_MT^(k) + η²C({θ_MT^(j)}_{j=1}^{k-2}) + O(η³)
    

где C — член ошибки второго порядка:

C({θ_MT^(j)}_{j=1}^h) = Σ_{t∈T} Σ_{e=0}^h ∇²L_t(θ_MT^(e)) Σ_{m=0}^e r_t(θ_MT^(m))

Анализ доминирования первого прохода

Теория показывает, что информация о градиенте первого прохода доминирует над всей траекторией дообучения:

  1. Анализ нормы градиента: первый проход вносит наибольший вклад в общую норму градиента
  2. Согласованность направления: градиенты последующих проходов сохраняют высокое косинусное сходство с градиентом первого прохода (>0.8)
  3. Эквивалентность производительности: объединение моделей, дообученных на одном проходе, показывает производительность, сравнимую с объединением полностью сходящихся моделей

Границы ошибок (Теорема 2)

Для полносвязной сети глубины L при предположениях об ограниченных весах, ограниченных входах и ограниченных производных функций активации:

Для общих функций активации:

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^φ G_max^φ

Для функции активации ReLU:

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^ReLU G_max^ReLU

где H_max и G_max — верхние границы матрицы Гессе и градиента соответственно.

Экспериментальная установка

Наборы данных

Эксперименты используют семь визуальных эталонных наборов данных:

  • CIFAR-100
  • SVHN
  • RESISC45
  • MNIST
  • EuroSAT
  • GTSRB
  • DTD
  • SUN397

Дизайн экспериментов

  1. Сравнение одного прохода и сходимости: сравнение производительности объединения моделей, дообученных на одном проходе, с полностью сходящимися моделями
  2. Анализ градиентов: анализ нормализованного вклада норм градиентов каждого прохода
  3. Согласованность направления: вычисление косинусного сходства между градиентами разных проходов
  4. Траектория в пространстве параметров: визуализация траекторий пространства параметров различных стратегий объединения с помощью PCA

Методы сравнения

  • Стандартная арифметика задач (Task Arithmetic)
  • TIES-merging
  • Model Breadcrumbs
  • DARE
  • Итеративная арифметика задач (Iterative TA)

Экспериментальные результаты

Основные результаты

  1. Верификация эквивалентности производительности: на всех протестированных наборах данных производительность объединения моделей, дообученных на одном проходе, практически эквивалентна объединению полностью сходящихся моделей, в некоторых случаях даже превосходит их
  2. Доминирование первого прохода:
    • Первый проход вносит вклад 0.3-0.7 в нормализованную норму градиента
    • Косинусное сходство градиентов первых пяти проходов с градиентом первого прохода остается выше 0.8
  3. Анализ пространства параметров: итеративная арифметика задач посредством обновлений с малым шагом направляет модель в различные области с более низкой потерей

Абляционные исследования

Эксперименты проверили различные аспекты теоретических предсказаний:

  • Подтверждение доминирующей роли градиента первого прохода
  • Верификация того, что последующие проходы вводят относительно небольшой член ошибки второго порядка
  • Подтверждение того, что кратковременное дообучение более благоприятно для объединения моделей

Ключевые находки

  1. Специализация ≠ способность к объединению: высокоспециализированные модели не обязательно дают лучшие результаты объединения
  2. Важность ранней динамики: ранняя динамика обучения критична для успешного объединения моделей
  3. Качество градиентного приближения: качество аппроксимации вектором задачи истинного многозадачного градиента снижается с увеличением времени дообучения

Связанные работы

Модальная связность и объединение моделей

  • Исследования линейной модальной связности показывают существование линейных путей между моделями с общей инициализацией
  • Методы на основе перестановок решают проблему симметрии посредством оптимального транспорта

Методы векторов задач

  • Векторы задач представляют задачеспецифичные обновления как приращения общей модели
  • Расширенные методы снижают помехи через разреженность, обрезку, маскирование и т.д.

Многозадачное обучение

  • Традиционное многозадачное обучение улучшает производительность через общие представления и индуктивные смещения
  • Методы, такие как хирургия градиентов, решают проблемы конфликтов градиентов между задачами

Заключение и обсуждение

Основные выводы

  1. Теоретический прорыв: впервые установлена строгая математическая связь между векторами задач и градиентами
  2. Практическое руководство: доказана эффективность дообучения на одном проходе, предоставляя руководство для практических приложений
  3. Новая перспектива: переформулирование арифметики задач как приближения многозадачного обучения

Ограничения

  1. Теоретические предположения: анализ основан на полнопакетном градиентном спуске, в то время как на практике часто используется SGD
  2. Архитектура сети: явные границы применимы только к полносвязным сетям; современные архитектуры (CNN, Transformer) более сложны
  3. Область экспериментов: верификация проведена в основном на визуальных задачах; применимость в других областях требует дальнейшей проверки

Направления будущих исследований

  1. Расширение теории SGD: распространение теории на установку стохастического градиентного спуска
  2. Сложные архитектуры: предоставление теоретических границ для CNN, Transformer и т.д.
  3. Оптимизация членов второго порядка: исследование условий, при которых член ошибки второго порядка можно игнорировать или аппроксимировать
  4. Единое понимание: изучение связей с концепциями ранней остановки, плоских/острых минимумов и т.д.

Глубокая оценка

Преимущества

  1. Значительный теоретический вклад: заполнение важного пробела в теоретическом понимании арифметики задач
  2. Строгий математический анализ: предоставление полных доказательств и явных границ ошибок
  3. Достаточная экспериментальная верификация: теоретические предсказания подтверждены экспериментами на нескольких наборах данных
  4. Высокая практическая ценность: предоставление теоретического руководства для стратегий объединения моделей

Недостатки

  1. Сильные предположения: предположение о полнопакетном GD отличается от практических приложений
  2. Ограничения архитектуры: теоретические результаты в основном применимы к простым полносвязным сетям
  3. Узкая область задач: эксперименты сосредоточены в основном на задачах визуальной классификации

Влияние

  1. Академическая ценность: предоставление важной теоретической основы для области объединения моделей
  2. Практическое значение: руководство для более эффективных стратегий объединения моделей
  3. Вдохновляющая сила: предоставление новой теоретической базы для последующих исследований

Применимые сценарии

  1. Многозадачное развертывание: сценарии, требующие объединения нескольких специализированных моделей в единую модель
  2. Среды с ограниченными ресурсами: приложения с ограниченными ресурсами хранения и вычислений
  3. Быстрая адаптация: сценарии, требующие быстрого получения многозадачных возможностей

Библиография

Статья цитирует важные работы в областях объединения моделей, векторов задач и многозадачного обучения, включая:

  • Ilharco et al. (2022) — оригинальная работа по арифметике задач
  • Zhou et al. (2025) — итеративная арифметика задач
  • Ortiz-Jimenez et al. (2024) — арифметика задач в касательном пространстве
  • Wortsman et al. (2022) — метод модельного супа

Данная статья посредством строгого математического анализа обеспечивает теоретическую основу для арифметики задач, не только объясняя причины её эффективности, но и предоставляя ценное руководство для практических приложений. Несмотря на некоторые ограничения теоретических предположений, её вклад имеет важное значение для понимания и совершенствования технологий объединения моделей.