2025-11-24T23:40:16.998519

On Task Vectors and Gradients

Zhou, Solombrino, Crisostomi et al.
Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.
academic

On Task Vectors and Gradients

基本信息

  • 论文ID: 2508.16082
  • 标题: On Task Vectors and Gradients
  • 作者: Luca Zhou, Daniele Solombrino, Donato Crisostomi, Maria Sofia Bucarelli, Giuseppe A. D'Inverno, Fabrizio Silvestri, Emanuele Rodolà
  • 分类: cs.LG, cs.AI
  • 发表时间/会议: NeurIPS 2025 Workshop: UniReps
  • 论文链接: https://arxiv.org/abs/2508.16082

摘要

任务算术(Task Arithmetic)作为一种简单而强大的模型合并技术,能够将多个微调后的模型组合成一个统一模型。尽管在实验中表现出色,但缺乏清晰的理论解释来说明其工作原理和适用条件。本文通过建立任务向量与任务损失梯度之间的联系,为任务算术提供了严格的理论基础。研究表明,在标准梯度下降条件下,一个epoch微调产生的任务向量完全等价于损失的负梯度乘以学习率。对于实际的多epoch设置,这种等价性近似成立,存在一个二阶误差项,作者对前馈网络给出了明确的界限。通过七个视觉基准的实验分析验证了理论,证明第一epoch的梯度在范数和方向上主导了微调轨迹。一个重要发现是,合并仅微调一个epoch的模型往往能达到与合并完全收敛模型相当的性能。

研究背景与动机

问题背景

预训练-微调范式已成为深度学习的基石,使大型通用模型能够适应无数特定任务。然而,这种成功带来了显著成本:为每个任务存储单独的微调模型会产生巨大的存储开销,这一挑战随着专业应用数量的增长而加剧。

核心问题

  1. 存储效率问题:每个任务都需要独立的微调模型,导致存储成本线性增长
  2. 理论理解缺失:尽管任务算术在实验中表现良好,但缺乏严格的理论解释
  3. 最优微调策略未明:不清楚微调多长时间对模型合并最有效

现有方法局限性

  • 任务算术虽然简单有效,但缺乏理论基础
  • 先前工作仅凭经验观察到短时间微调的任务向量更适合合并,但没有严格解释
  • 缺乏对任务向量与梯度关系的数学分析

研究动机

本文旨在填补理论空白,通过数学分析揭示任务算术的工作原理,特别是建立任务向量与多任务学习梯度之间的联系。

核心贡献

  1. 理论基础建立:严格证明了单epoch梯度下降的任务向量是缩放的负梯度,后续任务算术迭代与联合多任务训练的差异仅为二阶项O(η²)
  2. 误差界限推导:为前馈网络推导出二阶误差项的显式均匀2-范数界限,假设有界权重和有界导数的激活函数
  3. 实验验证:在多个视觉任务上实验确认第一epoch梯度对整体微调轨迹的主导贡献,无论是在范数还是方向上
  4. 实践指导:提供了短时间微调有利于模型合并的理论依据,重新将任务算术框定为近似多任务学习

方法详解

任务定义

设T表示任务集合,|T|为任务数量。预训练模型权重为θ_base。对于任务t∈T,θ_t^(k)表示在任务t上微调k个epoch后的参数。任务向量定义为:

τ_t^(k) := θ_t^(k) - θ_base

任务t的经验损失为:

L_t(θ) := (1/n_t) Σ_{i=1}^{n_t} ℓ(x_i, y_i, θ)

核心理论结果

定理1:任务算术与多任务学习的等价性

设θ_TA^(k) = θ_base + α Σ_{t∈T} τ_t^(k)为使用任务算术得到的模型,其中{θ_t^(k)}{t∈T}通过k个epoch的全批量梯度下降产生,步长为η。设θ_MT^(k)为在聚合损失Σ{t∈T} L_t上进行k个epoch梯度下降的结果,步长为αη。则有:

  1. 第一epoch完全等价
    θ_TA^(1) = θ_MT^(1)
    
  2. 多epoch近似等价(k > 1):
    θ_TA^(k) = θ_MT^(k) + η²C({θ_MT^(j)}_{j=1}^{k-2}) + O(η³)
    

其中C项为二阶误差项:

C({θ_MT^(j)}_{j=1}^h) = Σ_{t∈T} Σ_{e=0}^h ∇²L_t(θ_MT^(e)) Σ_{m=0}^e r_t(θ_MT^(m))

第一epoch主导性分析

理论表明,第一epoch的梯度信息主导了整个微调轨迹:

  1. 梯度范数分析:第一epoch贡献了总梯度范数的最大份额
  2. 方向一致性:后续epoch的梯度与第一epoch梯度保持高余弦相似度(>0.8)
  3. 性能等价性:合并一epoch微调的模型性能与合并完全收敛模型相当

误差界限(定理2)

对于深度为L的前馈网络,在有界权重、有界输入和有界导数激活函数的假设下:

一般激活函数

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^φ G_max^φ

ReLU激活函数

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^ReLU G_max^ReLU

其中H_max和G_max分别为Hessian和梯度的上界。

实验设置

数据集

实验使用七个视觉基准数据集:

  • CIFAR-100
  • SVHN
  • RESISC45
  • MNIST
  • EuroSAT
  • GTSRB
  • DTD
  • SUN397

实验设计

  1. 一epoch vs 收敛对比:比较合并一epoch微调模型与完全收敛模型的性能
  2. 梯度分析:分析各epoch梯度范数的归一化贡献
  3. 方向一致性:计算不同epoch梯度间的余弦相似度
  4. 参数空间轨迹:通过PCA可视化不同合并策略的参数空间轨迹

对比方法

  • 标准任务算术(Task Arithmetic)
  • TIES-merging
  • Model Breadcrumbs
  • DARE
  • 迭代任务算术(Iterative TA)

实验结果

主要结果

  1. 性能等价性验证:在所有测试数据集上,合并一epoch微调的模型性能与合并完全收敛模型基本相当,某些情况下甚至更好
  2. 第一epoch主导性
    • 第一epoch贡献了0.3-0.7的归一化梯度范数
    • 前5个epoch的梯度与第一epoch梯度的余弦相似度保持在0.8以上
  3. 参数空间分析:迭代任务算术通过小步长更新能够引导模型到达不同且更低损失的区域

消融实验

实验验证了理论预测的各个方面:

  • 确认了第一epoch梯度的主导地位
  • 验证了后续epoch引入的二阶误差项相对较小
  • 证实了短时间微调更有利于模型合并

关键发现

  1. 任务熟练度≠合并能力:高度专业化的模型并不一定产生更好的合并结果
  2. 早期动态的重要性:早期训练动态对成功的模型合并至关重要
  3. 梯度近似质量:任务向量作为真实多任务梯度的近似质量随微调时间增加而下降

相关工作

模式连通性与模型合并

  • 线性模式连通性研究表明共享初始化的模型间存在线性路径
  • 基于排列的合并方法通过最优传输匹配解决对称性问题

任务向量方法

  • 任务向量将任务特定更新表示为共享模型的增量
  • 扩展方法通过稀疏性、剪枝、掩码等减少干扰

多任务学习

  • 传统多任务学习通过共享表示和归纳偏置提升性能
  • 梯度手术等方法解决任务间梯度冲突问题

结论与讨论

主要结论

  1. 理论突破:首次建立了任务向量与梯度的严格数学联系
  2. 实践指导:证明了一epoch微调的有效性,为实际应用提供指导
  3. 新视角:将任务算术重新框定为近似多任务学习

局限性

  1. 理论假设:分析基于全批量梯度下降,实际中多使用SGD
  2. 网络架构:显式界限仅针对前馈网络,现代架构(CNN、Transformer)更复杂
  3. 实验范围:主要在视觉任务上验证,其他领域的适用性需进一步验证

未来方向

  1. SGD理论扩展:将理论扩展到随机梯度下降设置
  2. 复杂架构:为CNN、Transformer等提供理论界限
  3. 二阶项优化:研究何时二阶误差项可忽略或可近似
  4. 统一理解:探索与早停、平坦/尖锐最小值等概念的联系

深度评价

优点

  1. 理论贡献显著:填补了任务算术理论理解的重要空白
  2. 数学分析严谨:提供了完整的证明和明确的误差界限
  3. 实验验证充分:理论预测得到了多个数据集的实验支持
  4. 实用价值高:为模型合并策略提供了理论指导

不足

  1. 假设条件强:全批量GD假设与实际应用有差距
  2. 架构限制:理论结果主要适用于简单的前馈网络
  3. 任务范围窄:实验主要集中在视觉分类任务

影响力

  1. 学术价值:为模型合并领域提供了重要的理论基础
  2. 实用意义:指导了更高效的模型合并策略
  3. 启发性强:为后续研究提供了新的理论框架

适用场景

  1. 多任务部署:需要将多个专业模型合并为统一模型的场景
  2. 资源受限环境:存储和计算资源有限的应用
  3. 快速适应:需要快速获得多任务能力的场景

参考文献

论文引用了模型合并、任务向量、多任务学习等领域的重要工作,包括:

  • Ilharco et al. (2022) - 任务算术的原始工作
  • Zhou et al. (2025) - 迭代任务算术
  • Ortiz-Jimenez et al. (2024) - 切空间中的任务算术
  • Wortsman et al. (2022) - 模型汤方法

这篇论文通过严格的数学分析为任务算术提供了理论基础,不仅解释了其有效性的原因,还为实际应用提供了有价值的指导。尽管存在一些理论假设的局限性,但其贡献对于理解和改进模型合并技术具有重要意义。