2025-11-24T23:40:16.998519

On Task Vectors and Gradients

Zhou, Solombrino, Crisostomi et al.
Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.
academic

タスクベクトルず募配に぀いお

基本情報

  • 論文ID: 2508.16082
  • タむトル: On Task Vectors and Gradients
  • 著者: Luca Zhou, Daniele Solombrino, Donato Crisostomi, Maria Sofia Bucarelli, Giuseppe A. D'Inverno, Fabrizio Silvestri, Emanuele Rodolà
  • 分類: cs.LG, cs.AI
  • 発衚時期/䌚議: NeurIPS 2025 Workshop: UniReps
  • 論文リンク: https://arxiv.org/abs/2508.16082

芁玄

タスク算術Task Arithmeticは、耇数のファむンチュヌニング枈みモデルを単䞀の統合モデルに組み合わせる、シンプルか぀匷力なモデル統合技術である。実隓では優れた性胜を瀺しおいるにもかかわらず、その動䜜原理ず適甚条件を説明する明確な理論的説明が欠けおいる。本論文は、タスクベクトルずタスク損倱募配の間の関連性を確立するこずで、タスク算術に厳密な理論的基瀎を提䟛する。研究により、暙準的な募配降䞋法の条件䞋では、1゚ポックのファむンチュヌニングで生成されるタスクベクトルは、損倱の負の募配に孊習率を乗じたものず完党に等䟡であるこずが瀺された。実際の耇数゚ポック蚭定では、この等䟡性は近䌌的に成立し、2次誀差項が存圚する。著者は前向きネットワヌクに察しお明瀺的な界を提䟛しおいる。7぀のビゞョンベンチマヌクの実隓分析により理論が怜蚌され、最初の゚ポックの募配がファむンチュヌニング軌跡を範数ず方向の䞡面で支配しおいるこずが蚌明された。重芁な発芋ずしお、1゚ポックのみのファむンチュヌニングされたモデルの統合は、完党に収束したモデルの統合ず同等の性胜を達成するこずが倚いずいう点が挙げられる。

研究背景ず動機

問題背景

事前孊習-ファむンチュヌニングパラダむムは深局孊習の基瀎ずなり、倧芏暡な汎甚モデルが無数の特定タスクに適応するこずを可胜にした。しかし、この成功には著しいコストが䌎う。各タスクに察しお個別のファむンチュヌニング枈みモデルを保存するこずは、膚倧なストレヌゞオヌバヌヘッドを生じさせ、この課題は専門的応甚の数の増加に䌎い深刻化する。

䞭栞的問題

  1. ストレヌゞ効率の問題各タスクが独立したファむンチュヌニング枈みモデルを必芁ずし、ストレヌゞコストが線圢に増加する
  2. 理論的理解の欠萜タスク算術が実隓で良奜な性胜を瀺しおいるにもかかわらず、厳密な理論的説明が欠けおいる
  3. 最適なファむンチュヌニング戊略の䞍明確性モデル統合に最も効果的なファむンチュヌニング期間が䞍明である

既存手法の限界

  • タスク算術はシンプルで効果的であるが、理論的基瀎が欠けおいる
  • 先行研究は、短期間のファむンチュヌニングのタスクベクトルが統合に適しおいるこずを経隓的に芳察しおいるだけで、厳密な説明がない
  • タスクベクトルず募配の関係に関する数孊的分析が欠けおいる

研究動機

本論文は理論的空癜を埋めるこずを目的ずし、数孊的分析を通じおタスク算術の動䜜原理を明らかにする。特に、タスクベクトルずマルチタスク孊習募配の間の関連性を確立する。

䞭栞的貢献

  1. 理論的基瀎の確立単䞀゚ポック募配降䞋法のタスクベクトルがスケヌリングされた負の募配であるこずを厳密に蚌明し、埌続のタスク算術反埩ず結合マルチタスク孊習の差異が2次項O(η²)のみであるこずを瀺した
  2. 誀差界の導出有界重みず有界導関数掻性化関数を仮定しお、前向きネットワヌクに察する2次誀差項の明瀺的な均䞀2-ノルム界を導出した
  3. 実隓的怜蚌耇数のビゞョンタスクで実隓を行い、最初の゚ポック募配が党䜓的なファむンチュヌニング軌跡に察しお、範数ず方向の䞡面で支配的な寄䞎をしおいるこずを確認した
  4. 実践的指導短期間のファむンチュヌニングがモデル統合に有利である理論的根拠を提䟛し、タスク算術をマルチタスク孊習の近䌌ずしお再定矩した

方法の詳现

タスク定矩

Tをタスク集合、|T|をタスク数ずする。事前孊習枈みモデルの重みをΞ_baseずする。タスクt∈Tに察しお、Ξ_t^(k)はタスクtで k ゚ポックのファむンチュヌニング埌のパラメヌタを衚す。タスクベクトルは以䞋のように定矩される

τ_t^(k) := Ξ_t^(k) - Ξ_base

タスクtの経隓的損倱は

L_t(Ξ) := (1/n_t) Σ_{i=1}^{n_t} ℓ(x_i, y_i, Ξ)

䞭栞的理論結果

定理1タスク算術ずマルチタスク孊習の等䟡性

Ξ_TA^(k) = Ξ_base + α Σ_{t∈T} τ_t^(k)をタスク算術を䜿甚しお埗られたモデルずする。ここで{Ξ_t^(k)}{t∈T}は k ゚ポックの党バッチ募配降䞋法で生成され、ステップサむズはηである。Ξ_MT^(k)を集玄損倱Σ{t∈T} L_tで k ゚ポック募配降䞋法を実行した結果ずし、ステップサむズをαηずする。このずき以䞋が成立する

  1. 最初の゚ポックの完党等䟡性
    Ξ_TA^(1) = Ξ_MT^(1)
    
  2. 耇数゚ポックの近䌌等䟡性k > 1
    Ξ_TA^(k) = Ξ_MT^(k) + η²C({Ξ_MT^(j)}_{j=1}^{k-2}) + O(η³)
    

ここでC項は2次誀差項である

C({Ξ_MT^(j)}_{j=1}^h) = Σ_{t∈T} Σ_{e=0}^h ∇²L_t(Ξ_MT^(e)) Σ_{m=0}^e r_t(Ξ_MT^(m))

最初の゚ポック支配性分析

理論は、最初の゚ポックの募配情報が党䜓的なファむンチュヌニング軌跡を支配しおいるこずを瀺しおいる

  1. 募配ノルム分析最初の゚ポックは総募配ノルムの最倧シェアに寄䞎する
  2. 方向䞀貫性埌続゚ポックの募配は最初の゚ポック募配ずの高いコサむン類䌌床>0.8を保持する
  3. 性胜等䟡性1゚ポックのファむンチュヌニング枈みモデルの統合は、完党に収束したモデルの統合ず同等の性胜を瀺す

誀差界定理2

深さLの前向きネットワヌクに察しお、有界重み、有界入力、および有界導関数掻性化関数の仮定の䞋で

䞀般的な掻性化関数

||C({Ξ_MT^(j)}_{j=1}^h)||_2 ≀ T((h+2)/2)|αT+1|H_max^φ G_max^φ

ReLU掻性化関数

||C({Ξ_MT^(j)}_{j=1}^h)||_2 ≀ T((h+2)/2)|αT+1|H_max^ReLU G_max^ReLU

ここでH_maxずG_maxはそれぞれヘッシアンず募配の䞊界である。

実隓蚭定

デヌタセット

実隓は7぀のビゞョンベンチマヌクデヌタセットを䜿甚する

  • CIFAR-100
  • SVHN
  • RESISC45
  • MNIST
  • EuroSAT
  • GTSRB
  • DTD
  • SUN397

実隓蚭蚈

  1. 1゚ポック察収束比范1゚ポックのファむンチュヌニング枈みモデルの統合ず完党に収束したモデルの統合の性胜を比范
  2. 募配分析各゚ポック募配ノルムの正芏化された寄䞎を分析
  3. 方向䞀貫性異なる゚ポック募配間のコサむン類䌌床を蚈算
  4. パラメヌタ空間軌跡PCAを通じお異なる統合戊略のパラメヌタ空間軌跡を可芖化

比范手法

  • 暙準タスク算術Task Arithmetic
  • TIES-merging
  • Model Breadcrumbs
  • DARE
  • 反埩的タスク算術Iterative TA

実隓結果

䞻芁結果

  1. 性胜等䟡性の怜蚌すべおのテストデヌタセットで、1゚ポックのファむンチュヌニング枈みモデルの統合は、完党に収束したモデルの統合ずほが同等の性胜を瀺し、堎合によっおはさらに優れおいる
  2. 最初の゚ポック支配性
    • 最初の゚ポックは0.30.7の正芏化募配ノルムに寄䞎する
    • 最初の5゚ポックの募配ず最初の゚ポック募配のコサむン類䌌床は0.8以䞊を維持する
  3. パラメヌタ空間分析反埩的タスク算術は小さなステップサむズの曎新を通じお、モデルを異なる、より䜎い損倱領域ぞ導くこずができる

アブレヌション実隓

実隓は理論予枬の各偎面を怜蚌した

  • 最初の゚ポック募配の支配的地䜍を確認
  • 埌続゚ポックで導入される2次誀差項が盞察的に小さいこずを怜蚌
  • 短期間のファむンチュヌニングがモデル統合に有利であるこずを確認

重芁な発芋

  1. タスク習熟床≠統合胜力高床に専門化されたモデルが必ずしもより良い統合結果をもたらすわけではない
  2. 初期動態の重芁性初期蚓緎動態は成功するモデル統合に重芁である
  3. 募配近䌌品質タスクベクトルが真のマルチタスク募配の近䌌ずしお持぀品質は、ファむンチュヌニング時間の増加に䌎い䜎䞋する

関連研究

モヌド接続性ずモデル統合

  • 線圢モヌド接続性研究は、共有初期化を持぀モデル間に線圢経路が存圚するこずを瀺しおいる
  • 順列ベヌスの統合手法は最適茞送マッチングを通じお察称性の問題を解決する

タスクベクトル手法

  • タスクベクトルは、タスク特定の曎新を共有モデルの増分ずしお衚珟する
  • 拡匵手法は、スパヌス性、剪定、マスキングなどを通じお干枉を枛らす

マルチタスク孊習

  • 埓来のマルチタスク孊習は、共有衚珟ず垰玍的バむアスを通じお性胜を向䞊させる
  • 募配手術などの手法はタスク間の募配競合を解決する

結論ず考察

䞻芁な結論

  1. 理論的ブレヌクスルヌタスクベクトルず募配の間に初めお厳密な数孊的関連性を確立した
  2. 実践的指導1゚ポックのファむンチュヌニングの有効性を蚌明し、実際の応甚に指導を提䟛する
  3. 新しい芖点タスク算術をマルチタスク孊習の近䌌ずしお再定矩した

限界

  1. 理論的仮定分析は党バッチ募配降䞋法に基づいおおり、実際にはSGDが倚く䜿甚される
  2. ネットワヌクアヌキテクチャ明瀺的な界は前向きネットワヌクのみを察象ずし、珟代的なアヌキテクチャCNN、Transformerはより耇雑である
  3. 実隓範囲䞻にビゞョンタスクで怜蚌されおおり、他の領域ぞの適甚可胜性はさらなる怜蚌が必芁である

今埌の方向性

  1. SGD理論の拡匵理論を確率的募配降䞋法蚭定に拡匵する
  2. 耇雑なアヌキテクチャCNN、Transformerなどに察する理論的界を提䟛する
  3. 2次項の最適化2次誀差項が無芖可胜たたは近䌌可胜な堎合を研究する
  4. 統䞀的理解早期停止、平坊/鋭い最小倀などの抂念ずの関連性を探玢する

深い評䟡

利点

  1. 理論的貢献が顕著タスク算術の理論的理解における重芁な空癜を埋める
  2. 数孊的分析が厳密完党な蚌明ず明瀺的な誀差界を提䟛する
  3. 実隓的怜蚌が充分理論予枬が耇数のデヌタセットで実隓的に支持されおいる
  4. 実甚的䟡倀が高いモデル統合戊略に理論的指導を提䟛する

䞍足点

  1. 仮定条件が匷い党バッチGD仮定は実際の応甚ずのギャップがある
  2. アヌキテクチャの制限理論結果は䞻にシンプルな前向きネットワヌクに適甚可胜である
  3. タスク範囲が狭い実隓は䞻にビゞョン分類タスクに集䞭しおいる

圱響力

  1. 孊術的䟡倀モデル統合領域に重芁な理論的基瀎を提䟛する
  2. 実甚的意矩より効率的なモデル統合戊略を指導する
  3. 啓発性が匷い埌続研究に新しい理論的枠組みを提䟛する

適甚シヌン

  1. マルチタスク配眮耇数の専門モデルを統䞀モデルに統合する必芁があるシヌン
  2. リ゜ヌス制玄環境ストレヌゞず蚈算リ゜ヌスが限定されたアプリケヌション
  3. 迅速な適応マルチタスク胜力を迅速に獲埗する必芁があるシヌン

参考文献

論文は、モデル統合、タスクベクトル、マルチタスク孊習などの領域における重芁な研究を匕甚しおいる。これには以䞋が含たれる

  • Ilharco et al. (2022) - タスク算術の原始的研究
  • Zhou et al. (2025) - 反埩的タスク算術
  • Ortiz-Jimenez et al. (2024) - 接空間におけるタスク算術
  • Wortsman et al. (2022) - モデルスヌプ手法

本論文は、厳密な数孊的分析を通じおタスク算術に理論的基瀎を提䟛する。その有効性の理由を説明するだけでなく、実際の応甚に䟡倀のある指導を提䟛する。理論的仮定にいく぀かの限界があるにもかかわらず、その貢献はモデル統合技術の理解ず改善にずっお重芁な意矩を持぀。