2025-11-24T23:40:16.998519

On Task Vectors and Gradients

Zhou, Solombrino, Crisostomi et al.

Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.

academic

কাজের ভেক্টর এবং গ্রেডিয়েন্ট সম্পর্কে

মৌলিক তথ্য

পেপার আইডি: 2508.16082
শিরোনাম: কাজের ভেক্টর এবং গ্রেডিয়েন্ট সম্পর্কে
লেখক: লুকা ঝাউ, ডানিয়েল সলোমব্রিনো, ডোনাটো ক্রিসোস্টোমি, মারিয়া সোফিয়া বুকারেল্লি, জিউসেপ এ. ডি'ইনভার্নো, ফ্যাব্রিজিও সিলভেস্ট্রি, ইমানুয়েল রোডোলা
শ্রেণীবিভাগ: cs.LG, cs.AI
প্রকাশনার সময়/সম্মেলন: NeurIPS 2025 ওয়ার্কশপ: UniReps
পেপার লিংক: https://arxiv.org/abs/2508.16082

সংক্ষিপ্তসার

কাজের পাটিগণিত (Task Arithmetic) একটি সহজ কিন্তু শক্তিশালী মডেল মার্জিং কৌশল যা একাধিক সূক্ষ্মভাবে সমন্বিত মডেলকে একটি একীভূত মডেলে একত্রিত করতে পারে। যদিও এটি পরীক্ষামূলক ফলাফলে চমৎকার পারফরম্যান্স প্রদর্শন করে, তবে এর কাজের পদ্ধতি এবং প্রযোজ্যতার শর্তগুলি ব্যাখ্যা করার জন্য স্পষ্ট তাত্ত্বিক ব্যাখ্যার অভাব রয়েছে। এই পেপারটি কাজের ভেক্টর এবং কাজের ক্ষতির গ্রেডিয়েন্টের মধ্যে সংযোগ স্থাপনের মাধ্যমে কাজের পাটিগণিতের জন্য কঠোর তাত্ত্বিক ভিত্তি প্রদান করে। গবেষণা দেখায় যে মানক গ্রেডিয়েন্ট ডিসেন্ট অবস্থার অধীনে, একটি এপোক সূক্ষ্মভাবে সমন্বয় দ্বারা উৎপাদিত কাজের ভেক্টর ক্ষতির নেতিবাচক গ্রেডিয়েন্টের সাথে শেখার হার গুণিত করার সম্পূর্ণ সমতুল্য। ব্যবহারিক বহু-এপোক সেটিংসের জন্য, এই সমতুল্যতা আনুমানিকভাবে ধারণ করে, একটি দ্বিতীয় ক্রমের ত্রুটি পদ সহ, যার জন্য লেখক ফিডফরওয়ার্ড নেটওয়ার্কের জন্য স্পষ্ট সীমানা প্রদান করেন। সাতটি ভিজ্যুয়াল বেঞ্চমার্কের মাধ্যমে পরীক্ষামূলক বিশ্লেষণ তত্ত্বটি যাচাই করে, প্রমাণ করে যে প্রথম এপোকের গ্রেডিয়েন্ট নর্ম এবং দিক উভয় ক্ষেত্রেই সূক্ষ্মভাবে সমন্বয়ের গতিপথ প্রভাবিত করে। একটি গুরুত্বপূর্ণ আবিষ্কার হল যে শুধুমাত্র একটি এপোক সূক্ষ্মভাবে সমন্বিত মডেলগুলি মার্জ করা প্রায়শই সম্পূর্ণভাবে সংযুক্ত মডেলগুলি মার্জ করার সমতুল্য কর্মক্ষমতা অর্জন করে।

গবেষণার পটভূমি এবং প্রেরণা

সমস্যার পটভূমি

প্রি-প্রশিক্ষণ-সূক্ষ্মভাবে সমন্বয় প্যারাডাইম গভীর শিক্ষার ভিত্তি হয়ে উঠেছে, যা বড় সাধারণ মডেলগুলিকে অসংখ্য নির্দিষ্ট কাজের সাথে খাপ খাইয়ে নিতে সক্ষম করে। তবে এই সাফল্য উল্লেখযোগ্য খরচ নিয়ে আসে: প্রতিটি কাজের জন্য আলাদা সূক্ষ্মভাবে সমন্বিত মডেল সংরক্ষণ করা বিশাল স্টোরেজ ওভারহেড তৈরি করে, এই চ্যালেঞ্জ বিশেষায়িত অ্যাপ্লিকেশনের সংখ্যা বৃদ্ধির সাথে সাথে বৃদ্ধি পায়।

মূল সমস্যা

স্টোরেজ দক্ষতা সমস্যা: প্রতিটি কাজের জন্য স্বাধীন সূক্ষ্মভাবে সমন্বিত মডেল প্রয়োজন, যা স্টোরেজ খরচ রৈখিকভাবে বৃদ্ধি করে
তাত্ত্বিক বোঝাপড়ার অভাব: যদিও কাজের পাটিগণিত পরীক্ষামূলকভাবে ভালো পারফরম্যান্স করে, তবে কঠোর তাত্ত্বিক ব্যাখ্যার অভাব রয়েছে
সর্বোত্তম সূক্ষ্মভাবে সমন্বয় কৌশল অস্পষ্ট: মডেল মার্জিংয়ের জন্য কতক্ষণ সূক্ষ্মভাবে সমন্বয় করা সবচেয়ে কার্যকর তা স্পষ্ট নয়

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

কাজের পাটিগণিত সহজ এবং কার্যকর হলেও তাত্ত্বিক ভিত্তির অভাব রয়েছে
পূর্ববর্তী কাজ শুধুমাত্র অভিজ্ঞতামূলক পর্যবেক্ষণ থেকে স্বল্পমেয়াদী সূক্ষ্মভাবে সমন্বয়ের কাজের ভেক্টরগুলি মার্জিংয়ের জন্য আরও উপযুক্ত তা লক্ষ্য করেছে, কিন্তু কঠোর ব্যাখ্যা প্রদান করেনি
কাজের ভেক্টর এবং গ্রেডিয়েন্টের সম্পর্কের গাণিতিক বিশ্লেষণের অভাব রয়েছে

গবেষণার প্রেরণা

এই পেপারটি তাত্ত্বিক শূন্যতা পূরণের লক্ষ্য রাখে, গাণিতিক বিশ্লেষণের মাধ্যমে কাজের পাটিগণিতের কাজের পদ্ধতি প্রকাশ করে, বিশেষ করে কাজের ভেক্টর এবং বহু-কাজ শিক্ষার গ্রেডিয়েন্টের মধ্যে সংযোগ স্থাপন করে।

মূল অবদান

তাত্ত্বিক ভিত্তি প্রতিষ্ঠা: কঠোরভাবে প্রমাণ করে যে একক এপোক গ্রেডিয়েন্ট ডিসেন্টের কাজের ভেক্টর স্কেল করা নেতিবাচক গ্রেডিয়েন্ট, এবং পরবর্তী কাজের পাটিগণিত পুনরাবৃত্তি এবং যৌথ বহু-কাজ প্রশিক্ষণের মধ্যে পার্থক্য শুধুমাত্র দ্বিতীয় ক্রমের পদ O(η²)
ত্রুটি সীমানা ব্যুৎপত্তি: ফিডফরওয়ার্ড নেটওয়ার্কের জন্য দ্বিতীয় ক্রমের ত্রুটি পদের স্পষ্ট অভিন্ন 2-নর্ম সীমানা ব্যুৎপন্ন করে, সীমাবদ্ধ ওজন এবং সীমাবদ্ধ ডেরিভেটিভ সক্রিয়করণ ফাংশনের অনুমান সহ
পরীক্ষামূলক যাচাইকরণ: একাধিক ভিজ্যুয়াল কাজে পরীক্ষা নিশ্চিত করে যে প্রথম এপোক গ্রেডিয়েন্ট সামগ্রিক সূক্ষ্মভাবে সমন্বয়ের গতিপথে প্রভাবশালী অবদান রাখে, নর্ম এবং দিক উভয় ক্ষেত্রেই
ব্যবহারিক নির্দেশনা: স্বল্পমেয়াদী সূক্ষ্মভাবে সমন্বয় মডেল মার্জিংয়ের জন্য উপকারী হওয়ার তাত্ত্বিক ভিত্তি প্রদান করে, কাজের পাটিগণিতকে আনুমানিক বহু-কাজ শিক্ষা হিসাবে পুনর্সংজ্ঞায়িত করে

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

T কাজের সেট প্রতিনিধিত্ব করে, |T| কাজের সংখ্যা। প্রি-প্রশিক্ষিত মডেল ওজন θ_base। কাজ t∈T এর জন্য, θ_t^(k) কাজ t-তে k এপোক সূক্ষ্মভাবে সমন্বয়ের পরে পরামিতি প্রতিনিধিত্ব করে। কাজের ভেক্টর সংজ্ঞায়িত করা হয়:

τ_t^(k) := θ_t^(k) - θ_base

কাজ t এর অভিজ্ঞতামূলক ক্ষতি:

L_t(θ) := (1/n_t) Σ_{i=1}^{n_t} ℓ(x_i, y_i, θ)

মূল তাত্ত্বিক ফলাফল

উপপাদ্য 1: কাজের পাটিগণিত এবং বহু-কাজ শিক্ষার সমতুল্যতা

θ_TA^(k) = θ_base + α Σ_{t∈T} τ_t^(k) কাজের পাটিগণিত ব্যবহার করে প্রাপ্ত মডেল, যেখানে {θ_t^(k)}{t∈T} k এপোক সম্পূর্ণ-ব্যাচ গ্রেডিয়েন্ট ডিসেন্ট দ্বারা উৎপাদিত হয়, ধাপের আকার η। θ_MT^(k) সমষ্টিগত ক্ষতি Σ{t∈T} L_t এ k এপোক গ্রেডিয়েন্ট ডিসেন্টের ফলাফল, ধাপের আকার αη। তারপর:

প্রথম এপোক সম্পূর্ণ সমতুল্যতা:
```
θ_TA^(1) = θ_MT^(1)
```
বহু-এপোক আনুমানিক সমতুল্যতা (k > 1):
```
θ_TA^(k) = θ_MT^(k) + η²C({θ_MT^(j)}_{j=1}^{k-2}) + O(η³)
```

যেখানে C পদ দ্বিতীয় ক্রমের ত্রুটি পদ:

C({θ_MT^(j)}_{j=1}^h) = Σ_{t∈T} Σ_{e=0}^h ∇²L_t(θ_MT^(e)) Σ_{m=0}^e r_t(θ_MT^(m))

প্রথম এপোক আধিপত্য বিশ্লেষণ

তত্ত্ব দেখায় যে প্রথম এপোকের গ্রেডিয়েন্ট তথ্য সম্পূর্ণ সূক্ষ্মভাবে সমন্বয়ের গতিপথ প্রভাবিত করে:

গ্রেডিয়েন্ট নর্ম বিশ্লেষণ: প্রথম এপোক মোট গ্রেডিয়েন্ট নর্মের সর্বাধিক অংশ অবদান রাখে
দিক সামঞ্জস্য: পরবর্তী এপোকের গ্রেডিয়েন্ট প্রথম এপোক গ্রেডিয়েন্টের সাথে উচ্চ কোসাইন সাদৃশ্য বজায় রাখে (>0.8)
কর্মক্ষমতা সমতুল্যতা: একটি এপোক সূক্ষ্মভাবে সমন্বিত মডেলগুলি মার্জ করা সম্পূর্ণভাবে সংযুক্ত মডেলগুলি মার্জ করার সমতুল্য কর্মক্ষমতা

ত্রুটি সীমানা (উপপাদ্য 2)

গভীরতা L এর ফিডফরওয়ার্ড নেটওয়ার্কের জন্য, সীমাবদ্ধ ওজন, সীমাবদ্ধ ইনপুট এবং সীমাবদ্ধ ডেরিভেটিভ সক্রিয়করণ ফাংশনের অনুমানের অধীনে:

সাধারণ সক্রিয়করণ ফাংশন:

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^φ G_max^φ

ReLU সক্রিয়করণ ফাংশন:

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^ReLU G_max^ReLU

যেখানে H_max এবং G_max যথাক্রমে Hessian এবং গ্রেডিয়েন্টের উপরের সীমানা।

পরীক্ষামূলক সেটআপ

ডেটাসেট

পরীক্ষা সাতটি ভিজ্যুয়াল বেঞ্চমার্ক ডেটাসেট ব্যবহার করে:

CIFAR-100
SVHN
RESISC45
MNIST
EuroSAT
GTSRB
DTD
SUN397

পরীক্ষামূলক ডিজাইন

একটি এপোক বনাম সংযুক্তি তুলনা: একটি এপোক সূক্ষ্মভাবে সমন্বিত মডেলগুলি মার্জ করা এবং সম্পূর্ণভাবে সংযুক্ত মডেলগুলি মার্জ করার কর্মক্ষমতা তুলনা করে
গ্রেডিয়েন্ট বিশ্লেষণ: বিভিন্ন এপোক গ্রেডিয়েন্ট নর্মের স্বাভাবিকীকৃত অবদান বিশ্লেষণ করে
দিক সামঞ্জস্য: বিভিন্ন এপোক গ্রেডিয়েন্টের মধ্যে কোসাইন সাদৃশ্য গণনা করে
পরামিতি স্থান গতিপথ: PCA এর মাধ্যমে বিভিন্ন মার্জিং কৌশলের পরামিতি স্থান গতিপথ কল্পনা করে

তুলনামূলক পদ্ধতি

মান কাজের পাটিগণিত (Task Arithmetic)
TIES-merging
Model Breadcrumbs
DARE
পুনরাবৃত্তিমূলক কাজের পাটিগণিত (Iterative TA)

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

কর্মক্ষমতা সমতুল্যতা যাচাইকরণ: সমস্ত পরীক্ষিত ডেটাসেটে, একটি এপোক সূক্ষ্মভাবে সমন্বিত মডেলগুলি মার্জ করা সম্পূর্ণভাবে সংযুক্ত মডেলগুলি মার্জ করার সাথে মূলত সমতুল্য কর্মক্ষমতা, কিছু ক্ষেত্রে আরও ভাল
প্রথম এপোক আধিপত্য:
- প্রথম এপোক 0.3-0.7 এর স্বাভাবিকীকৃত গ্রেডিয়েন্ট নর্ম অবদান রাখে
- প্রথম পাঁচটি এপোকের গ্রেডিয়েন্ট এবং প্রথম এপোক গ্রেডিয়েন্টের মধ্যে কোসাইন সাদৃশ্য 0.8 এর উপরে থাকে
পরামিতি স্থান বিশ্লেষণ: পুনরাবৃত্তিমূলক কাজের পাটিগণিত ছোট ধাপের আকার আপডেটের মাধ্যমে মডেলকে বিভিন্ন এবং নিম্ন ক্ষতির অঞ্চলে পরিচালিত করতে পারে

অপসারণ পরীক্ষা

পরীক্ষা তাত্ত্বিক পূর্বাভাসের বিভিন্ন দিক যাচাই করে:

প্রথম এপোক গ্রেডিয়েন্টের আধিপত্য নিশ্চিত করে
পরবর্তী এপোক দ্বারা প্রবর্তিত দ্বিতীয় ক্রমের ত্রুটি পদ তুলনামূলকভাবে ছোট যাচাই করে
স্বল্পমেয়াদী সূক্ষ্মভাবে সমন্বয় মডেল মার্জিংয়ের জন্য আরও উপকারী প্রমাণ করে

মূল আবিষ্কার

কাজের দক্ষতা ≠ মার্জিং ক্ষমতা: অত্যন্ত বিশেষায়িত মডেল অগত্যা আরও ভাল মার্জিং ফলাফল উৎপাদন করে না
প্রাথমিক গতিশীলতার গুরুত্ব: প্রাথমিক প্রশিক্ষণ গতিশীলতা সফল মডেল মার্জিংয়ের জন্য গুরুত্বপূর্ণ
গ্রেডিয়েন্ট আনুমানিক গুণমান: কাজের ভেক্টর হিসাবে প্রকৃত বহু-কাজ গ্রেডিয়েন্টের আনুমানিক গুণমান সূক্ষ্মভাবে সমন্বয়ের সময় বৃদ্ধির সাথে হ্রাস পায়

উপসংহার এবং আলোচনা

প্রধান উপসংহার

তাত্ত্বিক অগ্রগতি: প্রথমবারের মতো কাজের ভেক্টর এবং গ্রেডিয়েন্টের মধ্যে কঠোর গাণিতিক সংযোগ প্রতিষ্ঠা করে
ব্যবহারিক নির্দেশনা: একটি এপোক সূক্ষ্মভাবে সমন্বয়ের কার্যকারিতা প্রমাণ করে, ব্যবহারিক প্রয়োগের জন্য নির্দেশনা প্রদান করে
নতুন দৃষ্টিভঙ্গি: কাজের পাটিগণিতকে আনুমানিক বহু-কাজ শিক্ষা হিসাবে পুনর্সংজ্ঞায়িত করে

সীমাবদ্ধতা

তাত্ত্বিক অনুমান: বিশ্লেষণ সম্পূর্ণ-ব্যাচ গ্রেডিয়েন্ট ডিসেন্টের উপর ভিত্তি করে, ব্যবহারিক প্রয়োগে SGD বেশি ব্যবহৃত হয়
নেটওয়ার্ক স্থাপত্য: স্পষ্ট সীমানা শুধুমাত্র ফিডফরওয়ার্ড নেটওয়ার্কের জন্য, আধুনিক স্থাপত্য (CNN, Transformer) আরও জটিল
পরীক্ষামূলক পরিসীমা: প্রধানত ভিজ্যুয়াল কাজে যাচাই করা হয়েছে, অন্যান্য ক্ষেত্রে প্রযোজ্যতা আরও যাচাইয়ের প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

SGD তত্ত্ব সম্প্রসারণ: তত্ত্ব স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট সেটিংসে সম্প্রসারণ করা
জটিল স্থাপত্য: CNN, Transformer ইত্যাদির জন্য তাত্ত্বিক সীমানা প্রদান করা
দ্বিতীয় ক্রম পদ অপ্টিমাইজেশন: কখন দ্বিতীয় ক্রমের ত্রুটি পদ উপেক্ষা করা যায় বা আনুমানিক করা যায় তা গবেষণা করা
একীভূত বোঝাপড়া: প্রাথমিক থামা, সমতল/তীক্ষ্ণ ন্যূনতম ইত্যাদি ধারণার সাথে সংযোগ অন্বেষণ করা

গভীর মূল্যায়ন

শক্তি

উল্লেখযোগ্য তাত্ত্বিক অবদান: কাজের পাটিগণিতের তাত্ত্বিক বোঝাপড়ার গুরুত্বপূর্ণ শূন্যতা পূরণ করে
কঠোর গাণিতিক বিশ্লেষণ: সম্পূর্ণ প্রমাণ এবং স্পষ্ট ত্রুটি সীমানা প্রদান করে
পর্যাপ্ত পরীক্ষামূলক যাচাইকরণ: তাত্ত্বিক পূর্বাভাস একাধিক ডেটাসেটের পরীক্ষামূলক সমর্থন পায়
উচ্চ ব্যবহারিক মূল্য: মডেল মার্জিং কৌশলের জন্য তাত্ত্বিক নির্দেশনা প্রদান করে

অপূর্ণতা

শক্তিশালী অনুমান শর্ত: সম্পূর্ণ-ব্যাচ GD অনুমান ব্যবহারিক প্রয়োগের সাথে ব্যবধান রয়েছে
স্থাপত্য সীমাবদ্ধতা: তাত্ত্বিক ফলাফল প্রধানত সহজ ফিডফরওয়ার্ড নেটওয়ার্কের জন্য প্রযোজ্য
সংকীর্ণ কাজের পরিসীমা: পরীক্ষা প্রধানত ভিজ্যুয়াল শ্রেণীবিভাগ কাজে কেন্দ্রীভূত

প্রভাব

একাডেমিক মূল্য: মডেল মার্জিং ক্ষেত্রে গুরুত্বপূর্ণ তাত্ত্বিক ভিত্তি প্রদান করে
ব্যবহারিক তাৎপর্য: আরও দক্ষ মডেল মার্জিং কৌশল নির্দেশনা দেয়
অনুপ্রেরণামূলক শক্তি: পরবর্তী গবেষণার জন্য নতুন তাত্ত্বিক কাঠামো প্রদান করে

প্রযোজ্য পরিস্থিতি

বহু-কাজ স্থাপনা: একাধিক বিশেষায়িত মডেলকে একীভূত মডেলে মার্জ করার প্রয়োজন এমন পরিস্থিতি
সম্পদ-সীমাবদ্ধ পরিবেশ: স্টোরেজ এবং গণনা সম্পদ সীমিত অ্যাপ্লিকেশন
দ্রুত অভিযোজন: দ্রুত বহু-কাজ ক্ষমতা অর্জনের প্রয়োজন এমন পরিস্থিতি

রেফারেন্স

পেপারটি মডেল মার্জিং, কাজের ভেক্টর, বহু-কাজ শিক্ষা ইত্যাদি ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

Ilharco et al. (2022) - কাজের পাটিগণিতের মূল কাজ
Zhou et al. (2025) - পুনরাবৃত্তিমূলক কাজের পাটিগণিত
Ortiz-Jimenez et al. (2024) - স্পর্শ স্থানে কাজের পাটিগণিত
Wortsman et al. (2022) - মডেল স্যুপ পদ্ধতি

এই পেপারটি কঠোর গাণিতিক বিশ্লেষণের মাধ্যমে কাজের পাটিগণিতের জন্য তাত্ত্বিক ভিত্তি প্রদান করে, শুধুমাত্র এর কার্যকারিতার কারণ ব্যাখ্যা করে না বরং ব্যবহারিক প্রয়োগের জন্য মূল্যবান নির্দেশনাও প্রদান করে। যদিও কিছু তাত্ত্বিক অনুমানের সীমাবদ্ধতা রয়েছে, তবে এর অবদান মডেল মার্জিং কৌশল বোঝা এবং উন্নত করার জন্য গুরুত্বপূর্ণ।