2025-11-24T23:40:16.998519

On Task Vectors and Gradients

Zhou, Solombrino, Crisostomi et al.

Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.

academic

On Task Vectors and Gradients

基本信息

论文ID: 2508.16082
标题: On Task Vectors and Gradients
作者: Luca Zhou, Daniele Solombrino, Donato Crisostomi, Maria Sofia Bucarelli, Giuseppe A. D'Inverno, Fabrizio Silvestri, Emanuele Rodolà
分类: cs.LG, cs.AI
发表时间/会议: NeurIPS 2025 Workshop: UniReps
论文链接: https://arxiv.org/abs/2508.16082

摘要

任务算术（Task Arithmetic）作为一种简单而强大的模型合并技术，能够将多个微调后的模型组合成一个统一模型。尽管在实验中表现出色，但缺乏清晰的理论解释来说明其工作原理和适用条件。本文通过建立任务向量与任务损失梯度之间的联系，为任务算术提供了严格的理论基础。研究表明，在标准梯度下降条件下，一个epoch微调产生的任务向量完全等价于损失的负梯度乘以学习率。对于实际的多epoch设置，这种等价性近似成立，存在一个二阶误差项，作者对前馈网络给出了明确的界限。通过七个视觉基准的实验分析验证了理论，证明第一epoch的梯度在范数和方向上主导了微调轨迹。一个重要发现是，合并仅微调一个epoch的模型往往能达到与合并完全收敛模型相当的性能。

研究背景与动机

问题背景

预训练-微调范式已成为深度学习的基石，使大型通用模型能够适应无数特定任务。然而，这种成功带来了显著成本：为每个任务存储单独的微调模型会产生巨大的存储开销，这一挑战随着专业应用数量的增长而加剧。

核心问题

存储效率问题：每个任务都需要独立的微调模型，导致存储成本线性增长
理论理解缺失：尽管任务算术在实验中表现良好，但缺乏严格的理论解释
最优微调策略未明：不清楚微调多长时间对模型合并最有效

现有方法局限性

任务算术虽然简单有效，但缺乏理论基础
先前工作仅凭经验观察到短时间微调的任务向量更适合合并，但没有严格解释
缺乏对任务向量与梯度关系的数学分析

研究动机

本文旨在填补理论空白，通过数学分析揭示任务算术的工作原理，特别是建立任务向量与多任务学习梯度之间的联系。

核心贡献

理论基础建立：严格证明了单epoch梯度下降的任务向量是缩放的负梯度，后续任务算术迭代与联合多任务训练的差异仅为二阶项O(η²)
误差界限推导：为前馈网络推导出二阶误差项的显式均匀2-范数界限，假设有界权重和有界导数的激活函数
实验验证：在多个视觉任务上实验确认第一epoch梯度对整体微调轨迹的主导贡献，无论是在范数还是方向上
实践指导：提供了短时间微调有利于模型合并的理论依据，重新将任务算术框定为近似多任务学习

方法详解

任务定义

设T表示任务集合，|T|为任务数量。预训练模型权重为θ_base。对于任务t∈T，θ_t^(k)表示在任务t上微调k个epoch后的参数。任务向量定义为：

τ_t^(k) := θ_t^(k) - θ_base

任务t的经验损失为：

L_t(θ) := (1/n_t) Σ_{i=1}^{n_t} ℓ(x_i, y_i, θ)

核心理论结果

定理1：任务算术与多任务学习的等价性

设θ_TA^(k) = θ_base + α Σ_{t∈T} τ_t^(k)为使用任务算术得到的模型，其中{θ_t^(k)}{t∈T}通过k个epoch的全批量梯度下降产生，步长为η。设θ_MT^(k)为在聚合损失Σ{t∈T} L_t上进行k个epoch梯度下降的结果，步长为αη。则有：

第一epoch完全等价：
```
θ_TA^(1) = θ_MT^(1)
```

多epoch近似等价（k > 1）：

θ_TA^(k) = θ_MT^(k) + η²C({θ_MT^(j)}_{j=1}^{k-2}) + O(η³)

其中C项为二阶误差项：

C({θ_MT^(j)}_{j=1}^h) = Σ_{t∈T} Σ_{e=0}^h ∇²L_t(θ_MT^(e)) Σ_{m=0}^e r_t(θ_MT^(m))

第一epoch主导性分析

理论表明，第一epoch的梯度信息主导了整个微调轨迹：

梯度范数分析：第一epoch贡献了总梯度范数的最大份额
方向一致性：后续epoch的梯度与第一epoch梯度保持高余弦相似度（>0.8）
性能等价性：合并一epoch微调的模型性能与合并完全收敛模型相当

误差界限（定理2）

对于深度为L的前馈网络，在有界权重、有界输入和有界导数激活函数的假设下：

一般激活函数：

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^φ G_max^φ

ReLU激活函数：

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^ReLU G_max^ReLU

其中H_max和G_max分别为Hessian和梯度的上界。

实验设置

数据集

实验使用七个视觉基准数据集：

CIFAR-100
SVHN
RESISC45
MNIST
EuroSAT
GTSRB
DTD
SUN397

实验设计

一epoch vs 收敛对比：比较合并一epoch微调模型与完全收敛模型的性能
梯度分析：分析各epoch梯度范数的归一化贡献
方向一致性：计算不同epoch梯度间的余弦相似度
参数空间轨迹：通过PCA可视化不同合并策略的参数空间轨迹

对比方法

标准任务算术（Task Arithmetic）
TIES-merging
Model Breadcrumbs
DARE
迭代任务算术（Iterative TA）

实验结果

主要结果

性能等价性验证：在所有测试数据集上，合并一epoch微调的模型性能与合并完全收敛模型基本相当，某些情况下甚至更好
第一epoch主导性：
- 第一epoch贡献了0.3-0.7的归一化梯度范数
- 前5个epoch的梯度与第一epoch梯度的余弦相似度保持在0.8以上
参数空间分析：迭代任务算术通过小步长更新能够引导模型到达不同且更低损失的区域