Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer
Zhang, Cao, Wu et al.
Prompt tuning has emerged as a lightweight strategy for adapting foundation models to downstream tasks, particularly for resource-constrained systems. As pre-trained prompts become valuable assets, combining multiple source prompts offers a promising approach to enhance generalization for new tasks by leveraging complementary knowledge. However, naive aggregation often overlooks different source prompts have different contribution potential to the target task. To address this, we propose HGPrompt, a dynamic framework that learns optimal ensemble weights. These weights are optimized by jointly maximizing an information-theoretic metric for transferability and minimizing gradient conflicts via a novel regularization strategy. Specifically, we propose a differentiable prompt transferability metric to captures the discriminability of prompt-induced features on the target task. Meanwhile, HGPrompt match the gradient variances with respect to different source prompts based on Hessian and Fisher Information, ensuring stable and coherent knowledge transfer while suppressing gradient conflicts among them. Extensive experiments on the large-scale VTAB benchmark demonstrate the state-of-the-art performance of HGPrompt, validating its effectiveness in learning an optimal ensemble for effective multi-source prompt transfer.
academic
বহু-উৎস ভিজ্যুয়াল প্রম্পট ট্রান্সফার এর জন্য সর্বোত্তম প্রম্পট সমন্বয় শেখা
এই পেপারটি বহু-উৎস ভিজ্যুয়াল প্রম্পট ট্রান্সফার কাজের জন্য HGPrompt ফ্রেমওয়ার্ক প্রস্তাব করে। এই পদ্ধতিটি তথ্য-তাত্ত্বিক স্থানান্তরযোগ্যতা পরিমাপ এবং গ্রেডিয়েন্ট সংঘর্ষ ন্যূনতমকরণ নিয়মিতকরণ পদ সংযুক্ত অপ্টিমাইজেশনের মাধ্যমে সর্বোত্তম সমন্বয় ওজন শিখে। বিশেষভাবে, এটি লক্ষ্য কাজে প্রম্পট-প্ররোচিত বৈশিষ্ট্যের বৈষম্যমূলকতা ক্যাপচার করার জন্য একটি পার্থক্যযোগ্য প্রম্পট স্থানান্তরযোগ্যতা পরিমাপ প্রস্তাব করে, এবং একই সাথে Hessian এবং Fisher তথ্য ম্যাচিং এর মাধ্যমে বিভিন্ন উৎস প্রম্পটের গ্রেডিয়েন্ট বৈচিত্র্য মিলিয়ে স্থিতিশীল এবং সামঞ্জস্যপূর্ণ জ্ঞান স্থানান্তর নিশ্চিত করে এবং গ্রেডিয়েন্ট সংঘর্ষ দমন করে। বৃহৎ-স্কেল VTAB বেঞ্চমার্কে পরীক্ষা-নিরীক্ষা HGPrompt এর কার্যকারিতা যাচাই করেছে।
ভিজ্যুয়াল ভিত্তি মডেলের উন্নয়নের সাথে, প্রম্পট টিউনিং (Prompt Tuning) ডাউনস্ট্রিম কাজের সাথে খাপ খাওয়ানোর জন্য একটি হালকা-ওজনের কৌশল হয়ে উঠেছে। বিদ্যমান পদ্ধতিগুলির মুখোমুখি মূল সমস্যা হল: নতুন কাজের সাধারণীকরণ ক্ষমতা বৃদ্ধির জন্য একাধিক উৎস প্রম্পট কীভাবে কার্যকরভাবে একত্রিত করা যায়।
সম্পদ দক্ষতার প্রয়োজন: সম্পূর্ণ মডেল সূক্ষ্ম-সুর সমন্বয় বৃহৎ-স্কেল প্রাক-প্রশিক্ষিত মডেলে অবাস্তব হয়ে উঠেছে, প্রম্পট টিউনিং মাত্র ০.৪% পরামিতি আপডেট করে প্রতিযোগিতামূলক কর্মক্ষমতা অর্জন করতে পারে
প্রম্পট সম্পদ মূল্য: প্রাক-প্রশিক্ষিত প্রম্পটগুলি মূল্যবান জ্ঞান সম্পদ হয়ে উঠেছে, বহু-উৎস প্রম্পটের সমন্বয় পরিপূরক জ্ঞান ব্যবহার করতে পারে
বিদ্যমান পদ্ধতির সীমাবদ্ধতা: সাধারণ সংযোগ বা গড় সমন্বয় বিভিন্ন উৎস প্রম্পটের লক্ষ্য কাজে অবদানের পার্থক্য উপেক্ষা করে, যা প্রতিনিধিত্ব ভাঙ্গন ঘটাতে পারে
HGPrompt ফ্রেমওয়ার্ক প্রস্তাব: সর্বোত্তম প্রম্পট ওজন গতিশীলভাবে শেখার প্রথম তাত্ত্বিকভাবে নির্ভরযোগ্য ফ্রেমওয়ার্ক, সমন্বিত প্রম্পট-প্ররোচিত বৈশিষ্ট্যের স্থানান্তরযোগ্যতা মূল্যায়নের মাধ্যমে
তথ্য-তাত্ত্বিক স্থানান্তরযোগ্যতা পরিমাপ: H-score এর উপর ভিত্তি করে পার্থক্যযোগ্য প্রম্পট স্থানান্তরযোগ্যতা পরিমাপ, স্পষ্ট এবং ব্যাখ্যাযোগ্য অবদান পরিমাণ প্রদান করে
গ্রেডিয়েন্ট সারিবদ্ধকরণ নিয়মিতকরণ: উদ্ভাবনী গ্রেডিয়েন্ট বৈচিত্র্য ম্যাচিং উদ্দেশ্য, বহু-উৎস প্রম্পটের মধ্যে গ্রেডিয়েন্ট সংঘর্ষ সমস্যা সমাধান করে
SOTA কর্মক্ষমতা: VTAB বেঞ্চমার্কে অত্যাধুনিক কর্মক্ষমতা অর্জন, গড় নির্ভুলতা ৬০.৩%
κ টি উৎস কাজ S = {Si}ᵏᵢ₌₁ এবং তাদের সংশ্লিষ্ট অপ্টিমাইজড প্রম্পট {Pi}ᵏᵢ₌₁ দেওয়া, লক্ষ্য নতুন কাজ T এর জন্য উৎস প্রম্পটের সর্বোত্তম সমন্বয়ের মাধ্যমে লক্ষ্য প্রম্পট PT তৈরি করা। M ≤ κ নির্বাচিত উৎস প্রম্পটের সংখ্যা হিসাবে সেট করুন, ওজন α = (α₁,...,αM) ∑ᵢαᵢ = 1 এবং αᵢ ≥ 0 সন্তুষ্ট করে।
সংজ্ঞা ১: ইনপুট ডেটা x, লেবেল y এবং বৈশিষ্ট্য নিষ্কাশক f(x) দেওয়া, একক-পক্ষীয় H-score সংজ্ঞায়িত করা হয়:
H(f) = tr(cov(f(X))⁻¹cov(E_PX|Y[f(X)|Y]))
এই পরিমাপটির স্বজ্ঞাত ব্যাখ্যা রয়েছে: উচ্চ H-score বৃহত্তর শ্রেণী-মধ্যস্থ বৈষম্যমূলকতা cov(Ef(X)|Y) এবং ন্যূনতম বৈশিষ্ট্য অপ্রয়োজনীয়তা tr(cov(f(X))) নির্দেশ করে।
সংজ্ঞা ২: সর্বোত্তম বৈশিষ্ট্য ওজন ওজনযুক্ত বৈশিষ্ট্য যোগের H-score সর্বাধিক করে নির্ধারিত হয়:
α* = argmax_α H(∑ⱼαⱼ·fPⱼ) s.t. ∑ⱼαⱼ = 1
উপপাদ্য ১: H-score ওজন α এর একটি উত্তল দ্বিঘাত রূপ, অপ্টিমাইজেশন সমস্যার নির্ভরযোগ্য সমাধান নিশ্চিত করে।
সমন্বিত মূল্যায়ন বনাম বিচ্ছিন্ন মূল্যায়ন: ঐতিহ্যবাহী পদ্ধতি প্রতিটি প্রম্পট স্বাধীনভাবে মূল্যায়ন করার বিপরীতে, এই পেপারটি সমন্বিত প্রম্পটের সামগ্রিক স্থানান্তরযোগ্যতা মূল্যায়ন করে
তাত্ত্বিক ভিত্তি: তথ্য-তাত্ত্বিক H-score এর উপর ভিত্তি করে কঠোর গাণিতিক ভিত্তি প্রদান করে, হিউরিস্টিক পদ্ধতি প্রতিস্থাপন করে
গ্রেডিয়েন্ট সংঘর্ষ সমাধান: Hessian এবং Fisher তথ্যের তাত্ত্বিক অন্তর্দৃষ্টির মাধ্যমে, অপ্টিমাইজেশন অসামঞ্জস্য হ্রাস করতে গ্রেডিয়েন্ট বৈচিত্র্য ম্যাচিং ডিজাইন করুন
উৎস প্রম্পটের সংখ্যা ৩ থেকে ১১ এ বৃদ্ধি পেলে, HGPrompt PANDA এবং SPoT এর তুলনায় শক্তিশালী কর্মক্ষমতা সুবিধা প্রদর্শন করে, বৃহৎ-স্কেল প্রম্পট সংগ্রহে পদ্ধতির কার্যকারিতা যাচাই করে।
t-SNE ভিজ্যুয়ালাইজেশন দেখায় যে HGPrompt দ্বারা উৎপাদিত বৈশিষ্ট্যগুলি আরও ভাল শ্রেণী বৈষম্যমূলকতা রয়েছে, একই শ্রেণীর বস্তুগুলি শক্ত গ্রুপিং এবং স্পষ্ট সীমানা গঠন করে।
পেপারটি সমৃদ্ধ সম্পর্কিত কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
পরামিতি-দক্ষ শেখা: Houlsby et al. (2019), Hu et al. (2021)
স্থানান্তরযোগ্যতা মূল্যায়ন: Bao et al. (2019), You et al. (2021)
বহু-কাজ শেখা: Yu et al. (2020), Rame et al. (2022)
ভিজ্যুয়াল Transformer: Dosovitskiy (2020), Jia et al. (2022)
এই পেপারটি বহু-উৎস ভিজ্যুয়াল প্রম্পট স্থানান্তর ক্ষেত্রে গুরুত্বপূর্ণ অবদান রাখে, তাত্ত্বিক উদ্ভাবন এবং প্রযুক্তিগত অগ্রগতির মাধ্যমে বিদ্যমান পদ্ধতির মূল সমস্যা সমাধান করে, পরামিতি-দক্ষ স্থানান্তর শেখার জন্য নতুন গবেষণা দিকনির্দেশনা প্রদান করে।