Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.
কাজের পাটিগণিত (Task Arithmetic) একটি সহজ কিন্তু শক্তিশালী মডেল মার্জিং কৌশল যা একাধিক সূক্ষ্মভাবে সমন্বিত মডেলকে একটি একীভূত মডেলে একত্রিত করতে পারে। যদিও এটি পরীক্ষামূলক ফলাফলে চমৎকার পারফরম্যান্স প্রদর্শন করে, তবে এর কাজের পদ্ধতি এবং প্রযোজ্যতার শর্তগুলি ব্যাখ্যা করার জন্য স্পষ্ট তাত্ত্বিক ব্যাখ্যার অভাব রয়েছে। এই পেপারটি কাজের ভেক্টর এবং কাজের ক্ষতির গ্রেডিয়েন্টের মধ্যে সংযোগ স্থাপনের মাধ্যমে কাজের পাটিগণিতের জন্য কঠোর তাত্ত্বিক ভিত্তি প্রদান করে। গবেষণা দেখায় যে মানক গ্রেডিয়েন্ট ডিসেন্ট অবস্থার অধীনে, একটি এপোক সূক্ষ্মভাবে সমন্বয় দ্বারা উৎপাদিত কাজের ভেক্টর ক্ষতির নেতিবাচক গ্রেডিয়েন্টের সাথে শেখার হার গুণিত করার সম্পূর্ণ সমতুল্য। ব্যবহারিক বহু-এপোক সেটিংসের জন্য, এই সমতুল্যতা আনুমানিকভাবে ধারণ করে, একটি দ্বিতীয় ক্রমের ত্রুটি পদ সহ, যার জন্য লেখক ফিডফরওয়ার্ড নেটওয়ার্কের জন্য স্পষ্ট সীমানা প্রদান করেন। সাতটি ভিজ্যুয়াল বেঞ্চমার্কের মাধ্যমে পরীক্ষামূলক বিশ্লেষণ তত্ত্বটি যাচাই করে, প্রমাণ করে যে প্রথম এপোকের গ্রেডিয়েন্ট নর্ম এবং দিক উভয় ক্ষেত্রেই সূক্ষ্মভাবে সমন্বয়ের গতিপথ প্রভাবিত করে। একটি গুরুত্বপূর্ণ আবিষ্কার হল যে শুধুমাত্র একটি এপোক সূক্ষ্মভাবে সমন্বিত মডেলগুলি মার্জ করা প্রায়শই সম্পূর্ণভাবে সংযুক্ত মডেলগুলি মার্জ করার সমতুল্য কর্মক্ষমতা অর্জন করে।
প্রি-প্রশিক্ষণ-সূক্ষ্মভাবে সমন্বয় প্যারাডাইম গভীর শিক্ষার ভিত্তি হয়ে উঠেছে, যা বড় সাধারণ মডেলগুলিকে অসংখ্য নির্দিষ্ট কাজের সাথে খাপ খাইয়ে নিতে সক্ষম করে। তবে এই সাফল্য উল্লেখযোগ্য খরচ নিয়ে আসে: প্রতিটি কাজের জন্য আলাদা সূক্ষ্মভাবে সমন্বিত মডেল সংরক্ষণ করা বিশাল স্টোরেজ ওভারহেড তৈরি করে, এই চ্যালেঞ্জ বিশেষায়িত অ্যাপ্লিকেশনের সংখ্যা বৃদ্ধির সাথে সাথে বৃদ্ধি পায়।
কাজের পাটিগণিত সহজ এবং কার্যকর হলেও তাত্ত্বিক ভিত্তির অভাব রয়েছে
পূর্ববর্তী কাজ শুধুমাত্র অভিজ্ঞতামূলক পর্যবেক্ষণ থেকে স্বল্পমেয়াদী সূক্ষ্মভাবে সমন্বয়ের কাজের ভেক্টরগুলি মার্জিংয়ের জন্য আরও উপযুক্ত তা লক্ষ্য করেছে, কিন্তু কঠোর ব্যাখ্যা প্রদান করেনি
কাজের ভেক্টর এবং গ্রেডিয়েন্টের সম্পর্কের গাণিতিক বিশ্লেষণের অভাব রয়েছে
এই পেপারটি তাত্ত্বিক শূন্যতা পূরণের লক্ষ্য রাখে, গাণিতিক বিশ্লেষণের মাধ্যমে কাজের পাটিগণিতের কাজের পদ্ধতি প্রকাশ করে, বিশেষ করে কাজের ভেক্টর এবং বহু-কাজ শিক্ষার গ্রেডিয়েন্টের মধ্যে সংযোগ স্থাপন করে।
তাত্ত্বিক ভিত্তি প্রতিষ্ঠা: কঠোরভাবে প্রমাণ করে যে একক এপোক গ্রেডিয়েন্ট ডিসেন্টের কাজের ভেক্টর স্কেল করা নেতিবাচক গ্রেডিয়েন্ট, এবং পরবর্তী কাজের পাটিগণিত পুনরাবৃত্তি এবং যৌথ বহু-কাজ প্রশিক্ষণের মধ্যে পার্থক্য শুধুমাত্র দ্বিতীয় ক্রমের পদ O(η²)
ত্রুটি সীমানা ব্যুৎপত্তি: ফিডফরওয়ার্ড নেটওয়ার্কের জন্য দ্বিতীয় ক্রমের ত্রুটি পদের স্পষ্ট অভিন্ন 2-নর্ম সীমানা ব্যুৎপন্ন করে, সীমাবদ্ধ ওজন এবং সীমাবদ্ধ ডেরিভেটিভ সক্রিয়করণ ফাংশনের অনুমান সহ
পরীক্ষামূলক যাচাইকরণ: একাধিক ভিজ্যুয়াল কাজে পরীক্ষা নিশ্চিত করে যে প্রথম এপোক গ্রেডিয়েন্ট সামগ্রিক সূক্ষ্মভাবে সমন্বয়ের গতিপথে প্রভাবশালী অবদান রাখে, নর্ম এবং দিক উভয় ক্ষেত্রেই
ব্যবহারিক নির্দেশনা: স্বল্পমেয়াদী সূক্ষ্মভাবে সমন্বয় মডেল মার্জিংয়ের জন্য উপকারী হওয়ার তাত্ত্বিক ভিত্তি প্রদান করে, কাজের পাটিগণিতকে আনুমানিক বহু-কাজ শিক্ষা হিসাবে পুনর্সংজ্ঞায়িত করে
T কাজের সেট প্রতিনিধিত্ব করে, |T| কাজের সংখ্যা। প্রি-প্রশিক্ষিত মডেল ওজন θ_base। কাজ t∈T এর জন্য, θ_t^(k) কাজ t-তে k এপোক সূক্ষ্মভাবে সমন্বয়ের পরে পরামিতি প্রতিনিধিত্ব করে। কাজের ভেক্টর সংজ্ঞায়িত করা হয়:
θ_TA^(k) = θ_base + α Σ_{t∈T} τ_t^(k) কাজের পাটিগণিত ব্যবহার করে প্রাপ্ত মডেল, যেখানে {θ_t^(k)}{t∈T} k এপোক সম্পূর্ণ-ব্যাচ গ্রেডিয়েন্ট ডিসেন্ট দ্বারা উৎপাদিত হয়, ধাপের আকার η। θ_MT^(k) সমষ্টিগত ক্ষতি Σ{t∈T} L_t এ k এপোক গ্রেডিয়েন্ট ডিসেন্টের ফলাফল, ধাপের আকার αη। তারপর:
কর্মক্ষমতা সমতুল্যতা যাচাইকরণ: সমস্ত পরীক্ষিত ডেটাসেটে, একটি এপোক সূক্ষ্মভাবে সমন্বিত মডেলগুলি মার্জ করা সম্পূর্ণভাবে সংযুক্ত মডেলগুলি মার্জ করার সাথে মূলত সমতুল্য কর্মক্ষমতা, কিছু ক্ষেত্রে আরও ভাল
প্রথম এপোক আধিপত্য:
প্রথম এপোক 0.3-0.7 এর স্বাভাবিকীকৃত গ্রেডিয়েন্ট নর্ম অবদান রাখে
প্রথম পাঁচটি এপোকের গ্রেডিয়েন্ট এবং প্রথম এপোক গ্রেডিয়েন্টের মধ্যে কোসাইন সাদৃশ্য 0.8 এর উপরে থাকে
পরামিতি স্থান বিশ্লেষণ: পুনরাবৃত্তিমূলক কাজের পাটিগণিত ছোট ধাপের আকার আপডেটের মাধ্যমে মডেলকে বিভিন্ন এবং নিম্ন ক্ষতির অঞ্চলে পরিচালিত করতে পারে
পেপারটি মডেল মার্জিং, কাজের ভেক্টর, বহু-কাজ শিক্ষা ইত্যাদি ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
Ilharco et al. (2022) - কাজের পাটিগণিতের মূল কাজ
Zhou et al. (2025) - পুনরাবৃত্তিমূলক কাজের পাটিগণিত
Ortiz-Jimenez et al. (2024) - স্পর্শ স্থানে কাজের পাটিগণিত
Wortsman et al. (2022) - মডেল স্যুপ পদ্ধতি
এই পেপারটি কঠোর গাণিতিক বিশ্লেষণের মাধ্যমে কাজের পাটিগণিতের জন্য তাত্ত্বিক ভিত্তি প্রদান করে, শুধুমাত্র এর কার্যকারিতার কারণ ব্যাখ্যা করে না বরং ব্যবহারিক প্রয়োগের জন্য মূল্যবান নির্দেশনাও প্রদান করে। যদিও কিছু তাত্ত্বিক অনুমানের সীমাবদ্ধতা রয়েছে, তবে এর অবদান মডেল মার্জিং কৌশল বোঝা এবং উন্নত করার জন্য গুরুত্বপূর্ণ।