2025-11-24T23:40:16.998519

On Task Vectors and Gradients

Zhou, Solombrino, Crisostomi et al.

Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.

academic

タスクベクトルと勾配について

基本情報

論文ID: 2508.16082
タイトル: On Task Vectors and Gradients
著者: Luca Zhou, Daniele Solombrino, Donato Crisostomi, Maria Sofia Bucarelli, Giuseppe A. D'Inverno, Fabrizio Silvestri, Emanuele Rodolà
分類: cs.LG, cs.AI
発表時期/会議: NeurIPS 2025 Workshop: UniReps
論文リンク: https://arxiv.org/abs/2508.16082

要約

タスク算術（Task Arithmetic）は、複数のファインチューニング済みモデルを単一の統合モデルに組み合わせる、シンプルかつ強力なモデル統合技術である。実験では優れた性能を示しているにもかかわらず、その動作原理と適用条件を説明する明確な理論的説明が欠けている。本論文は、タスクベクトルとタスク損失勾配の間の関連性を確立することで、タスク算術に厳密な理論的基礎を提供する。研究により、標準的な勾配降下法の条件下では、1エポックのファインチューニングで生成されるタスクベクトルは、損失の負の勾配に学習率を乗じたものと完全に等価であることが示された。実際の複数エポック設定では、この等価性は近似的に成立し、2次誤差項が存在する。著者は前向きネットワークに対して明示的な界を提供している。7つのビジョンベンチマークの実験分析により理論が検証され、最初のエポックの勾配がファインチューニング軌跡を範数と方向の両面で支配していることが証明された。重要な発見として、1エポックのみのファインチューニングされたモデルの統合は、完全に収束したモデルの統合と同等の性能を達成することが多いという点が挙げられる。

研究背景と動機

問題背景

事前学習-ファインチューニングパラダイムは深層学習の基礎となり、大規模な汎用モデルが無数の特定タスクに適応することを可能にした。しかし、この成功には著しいコストが伴う。各タスクに対して個別のファインチューニング済みモデルを保存することは、膨大なストレージオーバーヘッドを生じさせ、この課題は専門的応用の数の増加に伴い深刻化する。

中核的問題

ストレージ効率の問題：各タスクが独立したファインチューニング済みモデルを必要とし、ストレージコストが線形に増加する
理論的理解の欠落：タスク算術が実験で良好な性能を示しているにもかかわらず、厳密な理論的説明が欠けている
最適なファインチューニング戦略の不明確性：モデル統合に最も効果的なファインチューニング期間が不明である

既存手法の限界

タスク算術はシンプルで効果的であるが、理論的基礎が欠けている
先行研究は、短期間のファインチューニングのタスクベクトルが統合に適していることを経験的に観察しているだけで、厳密な説明がない
タスクベクトルと勾配の関係に関する数学的分析が欠けている

研究動機

本論文は理論的空白を埋めることを目的とし、数学的分析を通じてタスク算術の動作原理を明らかにする。特に、タスクベクトルとマルチタスク学習勾配の間の関連性を確立する。

中核的貢献

理論的基礎の確立：単一エポック勾配降下法のタスクベクトルがスケーリングされた負の勾配であることを厳密に証明し、後続のタスク算術反復と結合マルチタスク学習の差異が2次項O(η²)のみであることを示した
誤差界の導出：有界重みと有界導関数活性化関数を仮定して、前向きネットワークに対する2次誤差項の明示的な均一2-ノルム界を導出した
実験的検証：複数のビジョンタスクで実験を行い、最初のエポック勾配が全体的なファインチューニング軌跡に対して、範数と方向の両面で支配的な寄与をしていることを確認した
実践的指導：短期間のファインチューニングがモデル統合に有利である理論的根拠を提供し、タスク算術をマルチタスク学習の近似として再定義した

方法の詳細

タスク定義

Tをタスク集合、|T|をタスク数とする。事前学習済みモデルの重みをθ_baseとする。タスクt∈Tに対して、θ_t^(k)はタスクtで k エポックのファインチューニング後のパラメータを表す。タスクベクトルは以下のように定義される：

τ_t^(k) := θ_t^(k) - θ_base

タスクtの経験的損失は：

L_t(θ) := (1/n_t) Σ_{i=1}^{n_t} ℓ(x_i, y_i, θ)

中核的理論結果

定理1：タスク算術とマルチタスク学習の等価性

θ_TA^(k) = θ_base + α Σ_{t∈T} τ_t^(k)をタスク算術を使用して得られたモデルとする。ここで{θ_t^(k)}{t∈T}は k エポックの全バッチ勾配降下法で生成され、ステップサイズはηである。θ_MT^(k)を集約損失Σ{t∈T} L_tで k エポック勾配降下法を実行した結果とし、ステップサイズをαηとする。このとき以下が成立する：

最初のエポックの完全等価性：
```
θ_TA^(1) = θ_MT^(1)
```

複数エポックの近似等価性（k > 1）：

θ_TA^(k) = θ_MT^(k) + η²C({θ_MT^(j)}_{j=1}^{k-2}) + O(η³)

ここでC項は2次誤差項である：

C({θ_MT^(j)}_{j=1}^h) = Σ_{t∈T} Σ_{e=0}^h ∇²L_t(θ_MT^(e)) Σ_{m=0}^e r_t(θ_MT^(m))

最初のエポック支配性分析

理論は、最初のエポックの勾配情報が全体的なファインチューニング軌跡を支配していることを示している：

勾配ノルム分析：最初のエポックは総勾配ノルムの最大シェアに寄与する
方向一貫性：後続エポックの勾配は最初のエポック勾配との高いコサイン類似度（>0.8）を保持する
性能等価性：1エポックのファインチューニング済みモデルの統合は、完全に収束したモデルの統合と同等の性能を示す

誤差界（定理2）

深さLの前向きネットワークに対して、有界重み、有界入力、および有界導関数活性化関数の仮定の下で：

一般的な活性化関数：

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^φ G_max^φ

ReLU活性化関数：

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^ReLU G_max^ReLU

ここでH_maxとG_maxはそれぞれヘッシアンと勾配の上界である。

実験設定

データセット

実験は7つのビジョンベンチマークデータセットを使用する：

CIFAR-100
SVHN
RESISC45
MNIST
EuroSAT
GTSRB
DTD
SUN397

実験設計

1エポック対収束比較：1エポックのファインチューニング済みモデルの統合と完全に収束したモデルの統合の性能を比較
勾配分析：各エポック勾配ノルムの正規化された寄与を分析
方向一貫性：異なるエポック勾配間のコサイン類似度を計算
パラメータ空間軌跡：PCAを通じて異なる統合戦略のパラメータ空間軌跡を可視化

比較手法

標準タスク算術（Task Arithmetic）
TIES-merging
Model Breadcrumbs
DARE
反復的タスク算術（Iterative TA）

実験結果

主要結果

性能等価性の検証：すべてのテストデータセットで、1エポックのファインチューニング済みモデルの統合は、完全に収束したモデルの統合とほぼ同等の性能を示し、場合によってはさらに優れている
最初のエポック支配性：
- 最初のエポックは0.3～0.7の正規化勾配ノルムに寄与する
- 最初の5エポックの勾配と最初のエポック勾配のコサイン類似度は0.8以上を維持する
パラメータ空間分析：反復的タスク算術は小さなステップサイズの更新を通じて、モデルを異なる、より低い損失領域へ導くことができる