Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.
論文ID : 2508.16082タイトル : On Task Vectors and Gradients著者 : Luca Zhou, Daniele Solombrino, Donato Crisostomi, Maria Sofia Bucarelli, Giuseppe A. D'Inverno, Fabrizio Silvestri, Emanuele Rodolà分類 : cs.LG, cs.AI発表時期/会議 : NeurIPS 2025 Workshop: UniReps論文リンク : https://arxiv.org/abs/2508.16082 タスク算術(Task Arithmetic)は、複数のファインチューニング済みモデルを単一の統合モデルに組み合わせる、シンプルかつ強力なモデル統合技術である。実験では優れた性能を示しているにもかかわらず、その動作原理と適用条件を説明する明確な理論的説明が欠けている。本論文は、タスクベクトルとタスク損失勾配の間の関連性を確立することで、タスク算術に厳密な理論的基礎を提供する。研究により、標準的な勾配降下法の条件下では、1エポックのファインチューニングで生成されるタスクベクトルは、損失の負の勾配に学習率を乗じたものと完全に等価であることが示された。実際の複数エポック設定では、この等価性は近似的に成立し、2次誤差項が存在する。著者は前向きネットワークに対して明示的な界を提供している。7つのビジョンベンチマークの実験分析により理論が検証され、最初のエポックの勾配がファインチューニング軌跡を範数と方向の両面で支配していることが証明された。重要な発見として、1エポックのみのファインチューニングされたモデルの統合は、完全に収束したモデルの統合と同等の性能を達成することが多いという点が挙げられる。
事前学習-ファインチューニングパラダイムは深層学習の基礎となり、大規模な汎用モデルが無数の特定タスクに適応することを可能にした。しかし、この成功には著しいコストが伴う。各タスクに対して個別のファインチューニング済みモデルを保存することは、膨大なストレージオーバーヘッドを生じさせ、この課題は専門的応用の数の増加に伴い深刻化する。
ストレージ効率の問題 :各タスクが独立したファインチューニング済みモデルを必要とし、ストレージコストが線形に増加する理論的理解の欠落 :タスク算術が実験で良好な性能を示しているにもかかわらず、厳密な理論的説明が欠けている最適なファインチューニング戦略の不明確性 :モデル統合に最も効果的なファインチューニング期間が不明であるタスク算術はシンプルで効果的であるが、理論的基礎が欠けている 先行研究は、短期間のファインチューニングのタスクベクトルが統合に適していることを経験的に観察しているだけで、厳密な説明がない タスクベクトルと勾配の関係に関する数学的分析が欠けている 本論文は理論的空白を埋めることを目的とし、数学的分析を通じてタスク算術の動作原理を明らかにする。特に、タスクベクトルとマルチタスク学習勾配の間の関連性を確立する。
理論的基礎の確立 :単一エポック勾配降下法のタスクベクトルがスケーリングされた負の勾配であることを厳密に証明し、後続のタスク算術反復と結合マルチタスク学習の差異が2次項O(η²)のみであることを示した誤差界の導出 :有界重みと有界導関数活性化関数を仮定して、前向きネットワークに対する2次誤差項の明示的な均一2-ノルム界を導出した実験的検証 :複数のビジョンタスクで実験を行い、最初のエポック勾配が全体的なファインチューニング軌跡に対して、範数と方向の両面で支配的な寄与をしていることを確認した実践的指導 :短期間のファインチューニングがモデル統合に有利である理論的根拠を提供し、タスク算術をマルチタスク学習の近似として再定義したTをタスク集合、|T|をタスク数とする。事前学習済みモデルの重みをθ_baseとする。タスクt∈Tに対して、θ_t^(k)はタスクtで k エポックのファインチューニング後のパラメータを表す。タスクベクトルは以下のように定義される:
τ_t^(k) := θ_t^(k) - θ_base
タスクtの経験的損失は:
L_t(θ) := (1/n_t) Σ_{i=1}^{n_t} ℓ(x_i, y_i, θ)
θ_TA^(k) = θ_base + α Σ_{t∈T} τ_t^(k)をタスク算術を使用して得られたモデルとする。ここで{θ_t^(k)}{t∈T}は k エポックの全バッチ勾配降下法で生成され、ステップサイズはηである。θ_MT^(k)を集約損失Σ {t∈T} L_tで k エポック勾配降下法を実行した結果とし、ステップサイズをαηとする。このとき以下が成立する:
最初のエポックの完全等価性 :複数エポックの近似等価性 (k > 1):θ_TA^(k) = θ_MT^(k) + η²C({θ_MT^(j)}_{j=1}^{k-2}) + O(η³)
ここでC項は2次誤差項である:
C({θ_MT^(j)}_{j=1}^h) = Σ_{t∈T} Σ_{e=0}^h ∇²L_t(θ_MT^(e)) Σ_{m=0}^e r_t(θ_MT^(m))
理論は、最初のエポックの勾配情報が全体的なファインチューニング軌跡を支配していることを示している:
勾配ノルム分析 :最初のエポックは総勾配ノルムの最大シェアに寄与する方向一貫性 :後続エポックの勾配は最初のエポック勾配との高いコサイン類似度(>0.8)を保持する性能等価性 :1エポックのファインチューニング済みモデルの統合は、完全に収束したモデルの統合と同等の性能を示す深さLの前向きネットワークに対して、有界重み、有界入力、および有界導関数活性化関数の仮定の下で:
一般的な活性化関数 :
||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^φ G_max^φ
ReLU活性化関数 :
||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^ReLU G_max^ReLU
ここでH_maxとG_maxはそれぞれヘッシアンと勾配の上界である。
実験は7つのビジョンベンチマークデータセットを使用する:
CIFAR-100 SVHN RESISC45 MNIST EuroSAT GTSRB DTD SUN397 1エポック対収束比較 :1エポックのファインチューニング済みモデルの統合と完全に収束したモデルの統合の性能を比較勾配分析 :各エポック勾配ノルムの正規化された寄与を分析方向一貫性 :異なるエポック勾配間のコサイン類似度を計算パラメータ空間軌跡 :PCAを通じて異なる統合戦略のパラメータ空間軌跡を可視化標準タスク算術(Task Arithmetic) TIES-merging Model Breadcrumbs DARE 反復的タスク算術(Iterative TA) 性能等価性の検証 :すべてのテストデータセットで、1エポックのファインチューニング済みモデルの統合は、完全に収束したモデルの統合とほぼ同等の性能を示し、場合によってはさらに優れている最初のエポック支配性 :最初のエポックは0.3~0.7の正規化勾配ノルムに寄与する 最初の5エポックの勾配と最初のエポック勾配のコサイン類似度は0.8以上を維持する パラメータ空間分析 :反復的タスク算術は小さなステップサイズの更新を通じて、モデルを異なる、より低い損失領域へ導くことができる実験は理論予測の各側面を検証した:
最初のエポック勾配の支配的地位を確認 後続エポックで導入される2次誤差項が相対的に小さいことを検証 短期間のファインチューニングがモデル統合に有利であることを確認 タスク習熟度≠統合能力 :高度に専門化されたモデルが必ずしもより良い統合結果をもたらすわけではない初期動態の重要性 :初期訓練動態は成功するモデル統合に重要である勾配近似品質 :タスクベクトルが真のマルチタスク勾配の近似として持つ品質は、ファインチューニング時間の増加に伴い低下する線形モード接続性研究は、共有初期化を持つモデル間に線形経路が存在することを示している 順列ベースの統合手法は最適輸送マッチングを通じて対称性の問題を解決する タスクベクトルは、タスク特定の更新を共有モデルの増分として表現する 拡張手法は、スパース性、剪定、マスキングなどを通じて干渉を減らす 従来のマルチタスク学習は、共有表現と帰納的バイアスを通じて性能を向上させる 勾配手術などの手法はタスク間の勾配競合を解決する 理論的ブレークスルー :タスクベクトルと勾配の間に初めて厳密な数学的関連性を確立した実践的指導 :1エポックのファインチューニングの有効性を証明し、実際の応用に指導を提供する新しい視点 :タスク算術をマルチタスク学習の近似として再定義した理論的仮定 :分析は全バッチ勾配降下法に基づいており、実際にはSGDが多く使用されるネットワークアーキテクチャ :明示的な界は前向きネットワークのみを対象とし、現代的なアーキテクチャ(CNN、Transformer)はより複雑である実験範囲 :主にビジョンタスクで検証されており、他の領域への適用可能性はさらなる検証が必要であるSGD理論の拡張 :理論を確率的勾配降下法設定に拡張する複雑なアーキテクチャ :CNN、Transformerなどに対する理論的界を提供する2次項の最適化 :2次誤差項が無視可能または近似可能な場合を研究する統一的理解 :早期停止、平坦/鋭い最小値などの概念との関連性を探索する理論的貢献が顕著 :タスク算術の理論的理解における重要な空白を埋める数学的分析が厳密 :完全な証明と明示的な誤差界を提供する実験的検証が充分 :理論予測が複数のデータセットで実験的に支持されている実用的価値が高い :モデル統合戦略に理論的指導を提供する仮定条件が強い :全バッチGD仮定は実際の応用とのギャップがあるアーキテクチャの制限 :理論結果は主にシンプルな前向きネットワークに適用可能であるタスク範囲が狭い :実験は主にビジョン分類タスクに集中している学術的価値 :モデル統合領域に重要な理論的基礎を提供する実用的意義 :より効率的なモデル統合戦略を指導する啓発性が強い :後続研究に新しい理論的枠組みを提供するマルチタスク配置 :複数の専門モデルを統一モデルに統合する必要があるシーンリソース制約環境 :ストレージと計算リソースが限定されたアプリケーション迅速な適応 :マルチタスク能力を迅速に獲得する必要があるシーン論文は、モデル統合、タスクベクトル、マルチタスク学習などの領域における重要な研究を引用している。これには以下が含まれる:
Ilharco et al. (2022) - タスク算術の原始的研究 Zhou et al. (2025) - 反復的タスク算術 Ortiz-Jimenez et al. (2024) - 接空間におけるタスク算術 Wortsman et al. (2022) - モデルスープ手法 本論文は、厳密な数学的分析を通じてタスク算術に理論的基礎を提供する。その有効性の理由を説明するだけでなく、実際の応用に価値のある指導を提供する。理論的仮定にいくつかの限界があるにもかかわらず、その貢献はモデル統合技術の理解と改善にとって重要な意義を持つ。