Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.
작업 산술(Task Arithmetic)은 여러 미세조정된 모델을 하나의 통합 모델로 결합하는 간단하면서도 강력한 모델 병합 기법이다. 실험에서 우수한 성능을 보이고 있음에도 불구하고, 그 작동 원리와 적용 조건을 설명하는 명확한 이론적 설명이 부족하다. 본 논문은 작업 벡터와 작업 손실 그래디언트 사이의 연관성을 확립함으로써 작업 산술에 대한 엄격한 이론적 기초를 제공한다. 연구 결과에 따르면 표준 그래디언트 하강 조건에서 1에포크 미세조정으로 생성된 작업 벡터는 손실의 음의 그래디언트에 학습률을 곱한 것과 완전히 동등하다. 실제의 다중 에포크 설정의 경우, 이러한 동등성은 근사적으로 성립하며 2차 오차항이 존재하고, 저자들은 피드포워드 네트워크에 대한 명시적 경계를 제시한다. 7개의 시각 기준에 대한 실험 분석을 통해 이론을 검증하여 첫 번째 에포크의 그래디언트가 미세조정 궤적을 범수와 방향 모두에서 지배함을 증명한다. 중요한 발견은 단 1에포크만 미세조정된 모델을 병합하는 것이 완전히 수렴된 모델을 병합하는 것과 비슷한 성능을 달성할 수 있다는 것이다.
사전학습-미세조정 패러다임은 깊은 학습의 초석이 되어 대규모 범용 모델이 무수한 특정 작업에 적응할 수 있게 했다. 그러나 이러한 성공에는 상당한 비용이 따른다. 각 작업마다 별도의 미세조정된 모델을 저장하면 막대한 저장 오버헤드가 발생하며, 이 문제는 전문 응용 프로그램의 수가 증가함에 따라 악화된다.
θ_TA^(k) = θ_base + α Σ_{t∈T} τ_t^(k)를 작업 산술을 사용하여 얻은 모델이라 하자. 여기서 {θ_t^(k)}{t∈T}는 k개 에포크의 전체 배치 그래디언트 하강으로 생성되고 스텝 크기는 η이다. θ_MT^(k)를 집계 손실 Σ{t∈T} L_t에서 k개 에포크 그래디언트 하강의 결과라 하자. 스텝 크기는 αη이다. 그러면 다음이 성립한다: