Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer
Zhang, Cao, Wu et al.
Prompt tuning has emerged as a lightweight strategy for adapting foundation models to downstream tasks, particularly for resource-constrained systems. As pre-trained prompts become valuable assets, combining multiple source prompts offers a promising approach to enhance generalization for new tasks by leveraging complementary knowledge. However, naive aggregation often overlooks different source prompts have different contribution potential to the target task. To address this, we propose HGPrompt, a dynamic framework that learns optimal ensemble weights. These weights are optimized by jointly maximizing an information-theoretic metric for transferability and minimizing gradient conflicts via a novel regularization strategy. Specifically, we propose a differentiable prompt transferability metric to captures the discriminability of prompt-induced features on the target task. Meanwhile, HGPrompt match the gradient variances with respect to different source prompts based on Hessian and Fisher Information, ensuring stable and coherent knowledge transfer while suppressing gradient conflicts among them. Extensive experiments on the large-scale VTAB benchmark demonstrate the state-of-the-art performance of HGPrompt, validating its effectiveness in learning an optimal ensemble for effective multi-source prompt transfer.
academic
Apprentissage de l'Ensemble de Prompts Optimal pour le Transfert de Prompts Visuels Multi-sources
Cet article propose le cadre HGPrompt pour la tâche de transfert de prompts visuels multi-sources. La méthode apprend les poids d'ensemble optimaux en optimisant conjointement une mesure de transférabilité basée sur la théorie de l'information et un terme de régularisation minimisant les conflits de gradients. Plus précisément, l'article propose une mesure de transférabilité des prompts différentiable pour capturer la discriminabilité des caractéristiques induites par les prompts sur la tâche cible, tout en faisant correspondre les variances de gradients des prompts sources différentes en utilisant les informations de Hessian et Fisher, assurant ainsi un transfert de connaissances stable et cohérent tout en supprimant les conflits de gradients. Les expériences sur le benchmark VTAB à grande échelle valident l'efficacité de HGPrompt.
Avec le développement des modèles de base visuels, l'ajustement des prompts (Prompt Tuning) est devenu une stratégie légère pour adapter les tâches en aval. Le problème fondamental auquel font face les méthodes existantes est : comment agréger efficacement plusieurs prompts sources pour améliorer la capacité de généralisation sur de nouvelles tâches.
Besoin d'efficacité des ressources: L'ajustement complet du modèle devient irréaliste sur les modèles pré-entraînés à grande échelle, tandis que l'ajustement des prompts ne nécessite la mise à jour que de 0,4% des paramètres pour atteindre des performances compétitives
Valeur des actifs de prompts: Les prompts pré-entraînés sont devenus des actifs de connaissances précieux, et la combinaison de prompts multi-sources peut exploiter les connaissances complémentaires
Limitations des méthodes existantes: L'agrégation simple par concaténation ou moyenne ignore les différences de contribution des différents prompts sources à la tâche cible, pouvant entraîner un effondrement de la représentation
Proposition du cadre HGPrompt: Premier cadre théoriquement fiable pour apprendre dynamiquement les poids optimaux des prompts, en évaluant la transférabilité de l'ensemble des caractéristiques induites par les prompts agrégés
Mesure de transférabilité basée sur la théorie de l'information: Mesure de transférabilité des prompts différentiable basée sur le H-score, fournissant une quantification explicite et interprétable des contributions
Régularisation d'alignement des gradients: Objectif innovant de correspondance des variances de gradients, résolvant le problème des conflits de gradients entre prompts multi-sources
Performance SOTA: Atteint les performances de pointe sur le benchmark VTAB, avec une précision moyenne de 60,3%
Étant donné κ tâches sources S = {Sᵢ}ᵏᵢ₌₁ et leurs prompts optimisés correspondants {Pᵢ}ᵏᵢ₌₁, l'objectif est de construire un prompt cible Pₜ pour une nouvelle tâche T en combinant optimalement les prompts sources. Soit M ≤ κ le nombre de prompts sources sélectionnés, avec des poids α = (α₁,...,αₘ) satisfaisant ∑ᵢαᵢ = 1 et αᵢ ≥ 0.
Pour un Transformer pré-entraîné, m tokens de prompts apprenables P = p₁,...,pₘ ∈ Rᵐˣᵈ sont introduits. Étant donné l'intégration des patches E(X) ∈ Rⁿˣᵈ d'une image d'entrée X, la séquence d'entrée combinée est P;E(X) ∈ R⁽ᵐ⁺ⁿ⁾ˣᵈ.
Définition 1: Étant donné les données d'entrée x, les étiquettes y et l'extracteur de caractéristiques f(x), le H-score unilatéral est défini comme:
H(f) = tr(cov(f(X))⁻¹cov(E_P(X|Y)[f(X)|Y]))
Cette mesure possède une interprétation intuitive: un H-score élevé indique une plus grande discriminabilité inter-classe cov(Ef(X)|Y) et une redondance de caractéristiques minimale tr(cov(f(X))).
Définition 2: Les poids de caractéristiques optimaux sont déterminés en maximisant le H-score de la somme pondérée des caractéristiques:
α* = argmax_α H(∑ⱼαⱼ·fPⱼ) s.t. ∑ⱼαⱼ = 1
Théorème 1: Le H-score est une forme quadratique convexe en α, garantissant la résolution fiable du problème d'optimisation.
Pour résoudre le problème d'interférence de gradients de l'agrégation multi-prompts, un objectif de correspondance des variances de gradients est proposé:
Évaluation d'ensemble vs évaluation isolée: Contrairement aux méthodes traditionnelles qui évaluent indépendamment chaque prompt, cet article évalue la transférabilité globale du prompt agrégé
Fondement théorique: Le H-score basé sur la théorie de l'information fournit une base mathématique rigoureuse, remplaçant les méthodes heuristiques
Résolution des conflits de gradients: En s'appuyant sur les intuitions théoriques des informations de Hessian et Fisher, la correspondance des variances de gradients est conçue pour réduire les incohérences d'optimisation
La précision de classification est utilisée comme métrique d'évaluation principale, avec les résultats moyens de trois exécutions indépendantes rapportés.
Validation de la qualité des poids via le coefficient de corrélation de rang de Spearman:
Méthode
CIFAR
C-dist
d-Loc
DML
SVHN
Moyenne
SPoT
0,552
0,175
-0,168
0,112
-0,147
0,105
PANDA
0,916
0,441
0,552
0,713
0,224
0,569
HGPrompt
0,944
0,664
0,853
0,727
0,853
0,808
Les poids appris par HGPrompt présentent la plus forte corrélation avec la précision de transfert zéro-shot, reflétant plus précisément l'affinité sémantique entre tâches.
Avec l'augmentation du nombre de prompts sources de 3 à 11, HGPrompt démontre un avantage de performance plus fort par rapport à PANDA et SPoT, validant l'efficacité de la méthode sur des ensembles de prompts à grande échelle.
La visualisation t-SNE montre que les caractéristiques générées par HGPrompt possèdent une meilleure discriminabilité de classe, avec des objets de la même classe formant des groupements serrés et des frontières claires.
Transfert mono-tâche: SPoT utilisant des métriques pour prédire la meilleure tâche source, Su et al. soulignant le rôle de l'activation neuronale
Paramètre multi-tâche: ATTEMPT utilisant des mécanismes d'attention pour agréger les connaissances, PANDA résolvant le problème de l'oubli par distillation de connaissances
L'article cite de nombreux travaux connexes, incluant:
Apprentissage paramétrique efficace: Houlsby et al. (2019), Hu et al. (2021)
Évaluation de la transférabilité: Bao et al. (2019), You et al. (2021)
Apprentissage multi-tâches: Yu et al. (2020), Rame et al. (2022)
Vision Transformer: Dosovitskiy (2020), Jia et al. (2022)
Cet article apporte des contributions importantes dans le domaine du transfert de prompts visuels multi-sources, résolvant les problèmes clés des méthodes existantes par l'innovation théorique et les percées techniques, ouvrant de nouvelles directions de recherche pour l'apprentissage par transfert paramétrique efficace.