2025-11-24T23:40:16.998519

On Task Vectors and Gradients

Zhou, Solombrino, Crisostomi et al.
Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.
academic

タスクベクトルと勾配について

基本情報

  • 論文ID: 2508.16082
  • タイトル: On Task Vectors and Gradients
  • 著者: Luca Zhou, Daniele Solombrino, Donato Crisostomi, Maria Sofia Bucarelli, Giuseppe A. D'Inverno, Fabrizio Silvestri, Emanuele Rodolà
  • 分類: cs.LG, cs.AI
  • 発表時期/会議: NeurIPS 2025 Workshop: UniReps
  • 論文リンク: https://arxiv.org/abs/2508.16082

要約

タスク算術(Task Arithmetic)は、複数のファインチューニング済みモデルを単一の統合モデルに組み合わせる、シンプルかつ強力なモデル統合技術である。実験では優れた性能を示しているにもかかわらず、その動作原理と適用条件を説明する明確な理論的説明が欠けている。本論文は、タスクベクトルとタスク損失勾配の間の関連性を確立することで、タスク算術に厳密な理論的基礎を提供する。研究により、標準的な勾配降下法の条件下では、1エポックのファインチューニングで生成されるタスクベクトルは、損失の負の勾配に学習率を乗じたものと完全に等価であることが示された。実際の複数エポック設定では、この等価性は近似的に成立し、2次誤差項が存在する。著者は前向きネットワークに対して明示的な界を提供している。7つのビジョンベンチマークの実験分析により理論が検証され、最初のエポックの勾配がファインチューニング軌跡を範数と方向の両面で支配していることが証明された。重要な発見として、1エポックのみのファインチューニングされたモデルの統合は、完全に収束したモデルの統合と同等の性能を達成することが多いという点が挙げられる。

研究背景と動機

問題背景

事前学習-ファインチューニングパラダイムは深層学習の基礎となり、大規模な汎用モデルが無数の特定タスクに適応することを可能にした。しかし、この成功には著しいコストが伴う。各タスクに対して個別のファインチューニング済みモデルを保存することは、膨大なストレージオーバーヘッドを生じさせ、この課題は専門的応用の数の増加に伴い深刻化する。

中核的問題

  1. ストレージ効率の問題:各タスクが独立したファインチューニング済みモデルを必要とし、ストレージコストが線形に増加する
  2. 理論的理解の欠落:タスク算術が実験で良好な性能を示しているにもかかわらず、厳密な理論的説明が欠けている
  3. 最適なファインチューニング戦略の不明確性:モデル統合に最も効果的なファインチューニング期間が不明である

既存手法の限界

  • タスク算術はシンプルで効果的であるが、理論的基礎が欠けている
  • 先行研究は、短期間のファインチューニングのタスクベクトルが統合に適していることを経験的に観察しているだけで、厳密な説明がない
  • タスクベクトルと勾配の関係に関する数学的分析が欠けている

研究動機

本論文は理論的空白を埋めることを目的とし、数学的分析を通じてタスク算術の動作原理を明らかにする。特に、タスクベクトルとマルチタスク学習勾配の間の関連性を確立する。

中核的貢献

  1. 理論的基礎の確立:単一エポック勾配降下法のタスクベクトルがスケーリングされた負の勾配であることを厳密に証明し、後続のタスク算術反復と結合マルチタスク学習の差異が2次項O(η²)のみであることを示した
  2. 誤差界の導出:有界重みと有界導関数活性化関数を仮定して、前向きネットワークに対する2次誤差項の明示的な均一2-ノルム界を導出した
  3. 実験的検証:複数のビジョンタスクで実験を行い、最初のエポック勾配が全体的なファインチューニング軌跡に対して、範数と方向の両面で支配的な寄与をしていることを確認した
  4. 実践的指導:短期間のファインチューニングがモデル統合に有利である理論的根拠を提供し、タスク算術をマルチタスク学習の近似として再定義した

方法の詳細

タスク定義

Tをタスク集合、|T|をタスク数とする。事前学習済みモデルの重みをθ_baseとする。タスクt∈Tに対して、θ_t^(k)はタスクtで k エポックのファインチューニング後のパラメータを表す。タスクベクトルは以下のように定義される:

τ_t^(k) := θ_t^(k) - θ_base

タスクtの経験的損失は:

L_t(θ) := (1/n_t) Σ_{i=1}^{n_t} ℓ(x_i, y_i, θ)

中核的理論結果

定理1:タスク算術とマルチタスク学習の等価性

θ_TA^(k) = θ_base + α Σ_{t∈T} τ_t^(k)をタスク算術を使用して得られたモデルとする。ここで{θ_t^(k)}{t∈T}は k エポックの全バッチ勾配降下法で生成され、ステップサイズはηである。θ_MT^(k)を集約損失Σ{t∈T} L_tで k エポック勾配降下法を実行した結果とし、ステップサイズをαηとする。このとき以下が成立する:

  1. 最初のエポックの完全等価性
    θ_TA^(1) = θ_MT^(1)
    
  2. 複数エポックの近似等価性(k > 1):
    θ_TA^(k) = θ_MT^(k) + η²C({θ_MT^(j)}_{j=1}^{k-2}) + O(η³)
    

ここでC項は2次誤差項である:

C({θ_MT^(j)}_{j=1}^h) = Σ_{t∈T} Σ_{e=0}^h ∇²L_t(θ_MT^(e)) Σ_{m=0}^e r_t(θ_MT^(m))

最初のエポック支配性分析

理論は、最初のエポックの勾配情報が全体的なファインチューニング軌跡を支配していることを示している:

  1. 勾配ノルム分析:最初のエポックは総勾配ノルムの最大シェアに寄与する
  2. 方向一貫性:後続エポックの勾配は最初のエポック勾配との高いコサイン類似度(>0.8)を保持する
  3. 性能等価性:1エポックのファインチューニング済みモデルの統合は、完全に収束したモデルの統合と同等の性能を示す

誤差界(定理2)

深さLの前向きネットワークに対して、有界重み、有界入力、および有界導関数活性化関数の仮定の下で:

一般的な活性化関数

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^φ G_max^φ

ReLU活性化関数

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^ReLU G_max^ReLU

ここでH_maxとG_maxはそれぞれヘッシアンと勾配の上界である。

実験設定

データセット

実験は7つのビジョンベンチマークデータセットを使用する:

  • CIFAR-100
  • SVHN
  • RESISC45
  • MNIST
  • EuroSAT
  • GTSRB
  • DTD
  • SUN397

実験設計

  1. 1エポック対収束比較:1エポックのファインチューニング済みモデルの統合と完全に収束したモデルの統合の性能を比較
  2. 勾配分析:各エポック勾配ノルムの正規化された寄与を分析
  3. 方向一貫性:異なるエポック勾配間のコサイン類似度を計算
  4. パラメータ空間軌跡:PCAを通じて異なる統合戦略のパラメータ空間軌跡を可視化

比較手法

  • 標準タスク算術(Task Arithmetic)
  • TIES-merging
  • Model Breadcrumbs
  • DARE
  • 反復的タスク算術(Iterative TA)

実験結果

主要結果

  1. 性能等価性の検証:すべてのテストデータセットで、1エポックのファインチューニング済みモデルの統合は、完全に収束したモデルの統合とほぼ同等の性能を示し、場合によってはさらに優れている
  2. 最初のエポック支配性
    • 最初のエポックは0.3~0.7の正規化勾配ノルムに寄与する
    • 最初の5エポックの勾配と最初のエポック勾配のコサイン類似度は0.8以上を維持する
  3. パラメータ空間分析:反復的タスク算術は小さなステップサイズの更新を通じて、モデルを異なる、より低い損失領域へ導くことができる

アブレーション実験

実験は理論予測の各側面を検証した:

  • 最初のエポック勾配の支配的地位を確認
  • 後続エポックで導入される2次誤差項が相対的に小さいことを検証
  • 短期間のファインチューニングがモデル統合に有利であることを確認

重要な発見

  1. タスク習熟度≠統合能力:高度に専門化されたモデルが必ずしもより良い統合結果をもたらすわけではない
  2. 初期動態の重要性:初期訓練動態は成功するモデル統合に重要である
  3. 勾配近似品質:タスクベクトルが真のマルチタスク勾配の近似として持つ品質は、ファインチューニング時間の増加に伴い低下する

関連研究

モード接続性とモデル統合

  • 線形モード接続性研究は、共有初期化を持つモデル間に線形経路が存在することを示している
  • 順列ベースの統合手法は最適輸送マッチングを通じて対称性の問題を解決する

タスクベクトル手法

  • タスクベクトルは、タスク特定の更新を共有モデルの増分として表現する
  • 拡張手法は、スパース性、剪定、マスキングなどを通じて干渉を減らす

マルチタスク学習

  • 従来のマルチタスク学習は、共有表現と帰納的バイアスを通じて性能を向上させる
  • 勾配手術などの手法はタスク間の勾配競合を解決する

結論と考察

主要な結論

  1. 理論的ブレークスルー:タスクベクトルと勾配の間に初めて厳密な数学的関連性を確立した
  2. 実践的指導:1エポックのファインチューニングの有効性を証明し、実際の応用に指導を提供する
  3. 新しい視点:タスク算術をマルチタスク学習の近似として再定義した

限界

  1. 理論的仮定:分析は全バッチ勾配降下法に基づいており、実際にはSGDが多く使用される
  2. ネットワークアーキテクチャ:明示的な界は前向きネットワークのみを対象とし、現代的なアーキテクチャ(CNN、Transformer)はより複雑である
  3. 実験範囲:主にビジョンタスクで検証されており、他の領域への適用可能性はさらなる検証が必要である

今後の方向性

  1. SGD理論の拡張:理論を確率的勾配降下法設定に拡張する
  2. 複雑なアーキテクチャ:CNN、Transformerなどに対する理論的界を提供する
  3. 2次項の最適化:2次誤差項が無視可能または近似可能な場合を研究する
  4. 統一的理解:早期停止、平坦/鋭い最小値などの概念との関連性を探索する

深い評価

利点

  1. 理論的貢献が顕著:タスク算術の理論的理解における重要な空白を埋める
  2. 数学的分析が厳密:完全な証明と明示的な誤差界を提供する
  3. 実験的検証が充分:理論予測が複数のデータセットで実験的に支持されている
  4. 実用的価値が高い:モデル統合戦略に理論的指導を提供する

不足点

  1. 仮定条件が強い:全バッチGD仮定は実際の応用とのギャップがある
  2. アーキテクチャの制限:理論結果は主にシンプルな前向きネットワークに適用可能である
  3. タスク範囲が狭い:実験は主にビジョン分類タスクに集中している

影響力

  1. 学術的価値:モデル統合領域に重要な理論的基礎を提供する
  2. 実用的意義:より効率的なモデル統合戦略を指導する
  3. 啓発性が強い:後続研究に新しい理論的枠組みを提供する

適用シーン

  1. マルチタスク配置:複数の専門モデルを統一モデルに統合する必要があるシーン
  2. リソース制約環境:ストレージと計算リソースが限定されたアプリケーション
  3. 迅速な適応:マルチタスク能力を迅速に獲得する必要があるシーン

参考文献

論文は、モデル統合、タスクベクトル、マルチタスク学習などの領域における重要な研究を引用している。これには以下が含まれる:

  • Ilharco et al. (2022) - タスク算術の原始的研究
  • Zhou et al. (2025) - 反復的タスク算術
  • Ortiz-Jimenez et al. (2024) - 接空間におけるタスク算術
  • Wortsman et al. (2022) - モデルスープ手法

本論文は、厳密な数学的分析を通じてタスク算術に理論的基礎を提供する。その有効性の理由を説明するだけでなく、実際の応用に価値のある指導を提供する。理論的仮定にいくつかの限界があるにもかかわらず、その貢献はモデル統合技術の理解と改善にとって重要な意義を持つ。