2025-11-21T00:49:15.710789

Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer

Zhang, Cao, Wu et al.
Prompt tuning has emerged as a lightweight strategy for adapting foundation models to downstream tasks, particularly for resource-constrained systems. As pre-trained prompts become valuable assets, combining multiple source prompts offers a promising approach to enhance generalization for new tasks by leveraging complementary knowledge. However, naive aggregation often overlooks different source prompts have different contribution potential to the target task. To address this, we propose HGPrompt, a dynamic framework that learns optimal ensemble weights. These weights are optimized by jointly maximizing an information-theoretic metric for transferability and minimizing gradient conflicts via a novel regularization strategy. Specifically, we propose a differentiable prompt transferability metric to captures the discriminability of prompt-induced features on the target task. Meanwhile, HGPrompt match the gradient variances with respect to different source prompts based on Hessian and Fisher Information, ensuring stable and coherent knowledge transfer while suppressing gradient conflicts among them. Extensive experiments on the large-scale VTAB benchmark demonstrate the state-of-the-art performance of HGPrompt, validating its effectiveness in learning an optimal ensemble for effective multi-source prompt transfer.
academic

Apprentissage de l'Ensemble de Prompts Optimal pour le Transfert de Prompts Visuels Multi-sources

Informations Fondamentales

  • ID de l'article: 2504.12311
  • Titre: Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer
  • Auteurs: Enming Zhang, Liwen Cao, Yanru Wu, Zijie Zhao, Yang Li (Graduate School at Shenzhen, Tsinghua University; Southeast University)
  • Classification: cs.CL (Linguistique Computationnelle)
  • Date de publication/Conférence: Prépublication arXiv (version la plus récente du 15 octobre 2025)
  • Lien de l'article: https://arxiv.org/abs/2504.12311v5

Résumé

Cet article propose le cadre HGPrompt pour la tâche de transfert de prompts visuels multi-sources. La méthode apprend les poids d'ensemble optimaux en optimisant conjointement une mesure de transférabilité basée sur la théorie de l'information et un terme de régularisation minimisant les conflits de gradients. Plus précisément, l'article propose une mesure de transférabilité des prompts différentiable pour capturer la discriminabilité des caractéristiques induites par les prompts sur la tâche cible, tout en faisant correspondre les variances de gradients des prompts sources différentes en utilisant les informations de Hessian et Fisher, assurant ainsi un transfert de connaissances stable et cohérent tout en supprimant les conflits de gradients. Les expériences sur le benchmark VTAB à grande échelle valident l'efficacité de HGPrompt.

Contexte de Recherche et Motivation

Définition du Problème

Avec le développement des modèles de base visuels, l'ajustement des prompts (Prompt Tuning) est devenu une stratégie légère pour adapter les tâches en aval. Le problème fondamental auquel font face les méthodes existantes est : comment agréger efficacement plusieurs prompts sources pour améliorer la capacité de généralisation sur de nouvelles tâches.

Motivation de la Recherche

  1. Besoin d'efficacité des ressources: L'ajustement complet du modèle devient irréaliste sur les modèles pré-entraînés à grande échelle, tandis que l'ajustement des prompts ne nécessite la mise à jour que de 0,4% des paramètres pour atteindre des performances compétitives
  2. Valeur des actifs de prompts: Les prompts pré-entraînés sont devenus des actifs de connaissances précieux, et la combinaison de prompts multi-sources peut exploiter les connaissances complémentaires
  3. Limitations des méthodes existantes: L'agrégation simple par concaténation ou moyenne ignore les différences de contribution des différents prompts sources à la tâche cible, pouvant entraîner un effondrement de la représentation

Défis Fondamentaux

  • Les méthodes traditionnelles évaluent isolément la transférabilité de chaque prompt, ignorant les dépendances mutuelles entre prompts
  • Absence de fondement théorique pour les méthodes heuristiques (comme le calcul de similarité de paramètres)
  • L'interférence de gradients introduite par l'agrégation multi-prompts entraîne une instabilité d'optimisation

Contributions Fondamentales

  1. Proposition du cadre HGPrompt: Premier cadre théoriquement fiable pour apprendre dynamiquement les poids optimaux des prompts, en évaluant la transférabilité de l'ensemble des caractéristiques induites par les prompts agrégés
  2. Mesure de transférabilité basée sur la théorie de l'information: Mesure de transférabilité des prompts différentiable basée sur le H-score, fournissant une quantification explicite et interprétable des contributions
  3. Régularisation d'alignement des gradients: Objectif innovant de correspondance des variances de gradients, résolvant le problème des conflits de gradients entre prompts multi-sources
  4. Performance SOTA: Atteint les performances de pointe sur le benchmark VTAB, avec une précision moyenne de 60,3%

Détails de la Méthode

Définition de la Tâche

Étant donné κ tâches sources S = {Sᵢ}ᵏᵢ₌₁ et leurs prompts optimisés correspondants {Pᵢ}ᵏᵢ₌₁, l'objectif est de construire un prompt cible Pₜ pour une nouvelle tâche T en combinant optimalement les prompts sources. Soit M ≤ κ le nombre de prompts sources sélectionnés, avec des poids α = (α₁,...,αₘ) satisfaisant ∑ᵢαᵢ = 1 et αᵢ ≥ 0.

Architecture du Modèle

1. Fondamentaux de l'Ajustement des Prompts Visuels

Pour un Transformer pré-entraîné, m tokens de prompts apprenables P = p₁,...,pₘ ∈ Rᵐˣᵈ sont introduits. Étant donné l'intégration des patches E(X) ∈ Rⁿˣᵈ d'une image d'entrée X, la séquence d'entrée combinée est P;E(X) ∈ R⁽ᵐ⁺ⁿ⁾ˣᵈ.

La probabilité de prédiction est:

Prθ(Y|X;P) = exp(fY([P;E(X)];θ)) / ∑ᶜᵢ₌₁exp(fᵢ([P;E(X)];θ))

2. Mesure de Transférabilité H-score

Définition 1: Étant donné les données d'entrée x, les étiquettes y et l'extracteur de caractéristiques f(x), le H-score unilatéral est défini comme:

H(f) = tr(cov(f(X))⁻¹cov(E_P(X|Y)[f(X)|Y]))

Cette mesure possède une interprétation intuitive: un H-score élevé indique une plus grande discriminabilité inter-classe cov(Ef(X)|Y) et une redondance de caractéristiques minimale tr(cov(f(X))).

Définition 2: Les poids de caractéristiques optimaux sont déterminés en maximisant le H-score de la somme pondérée des caractéristiques:

α* = argmax_α H(∑ⱼαⱼ·fPⱼ) s.t. ∑ⱼαⱼ = 1

Théorème 1: Le H-score est une forme quadratique convexe en α, garantissant la résolution fiable du problème d'optimisation.

3. Régularisation d'Alignement des Gradients

Pour résoudre le problème d'interférence de gradients de l'agrégation multi-prompts, un objectif de correspondance des variances de gradients est proposé:

Calcul du gradient pour chaque prompt source Pᵢ:

gᵢ = ∇Pᵢ L(fθ([x₀;Pᵢ;E(X)]), y)

Variance des gradients:

vᵢ = Var(G) = 1/(N-1) ∑ⱼ(gⁱⱼ - gᵅⱼ)²

Terme de régularisation:

Lalign(α) = 1/M ∑ᵢ||vᵢ - v̄(α)||²₂

Fonction objectif totale:

L(α) = -H(α) + λLalign(α)

Points d'Innovation Technique

  1. Évaluation d'ensemble vs évaluation isolée: Contrairement aux méthodes traditionnelles qui évaluent indépendamment chaque prompt, cet article évalue la transférabilité globale du prompt agrégé
  2. Fondement théorique: Le H-score basé sur la théorie de l'information fournit une base mathématique rigoureuse, remplaçant les méthodes heuristiques
  3. Résolution des conflits de gradients: En s'appuyant sur les intuitions théoriques des informations de Hessian et Fisher, la correspondance des variances de gradients est conçue pour réduire les incohérences d'optimisation

Configuration Expérimentale

Ensembles de Données

Utilisation du benchmark VTAB-1k avec 13 ensembles de données, couvrant trois catégories de tâches:

  • Natural: Images capturées par caméra conventionnelle (par exemple, CIFAR100, Flowers102, Pets)
  • Specialized: Données acquises par des appareils spécialisés (par exemple, images satellites EuroSAT)
  • Structured: Nécessitant un raisonnement spatial (par exemple, tâche de comptage CLEVR)

Métriques d'Évaluation

La précision de classification est utilisée comme métrique d'évaluation principale, avec les résultats moyens de trois exécutions indépendantes rapportés.

Méthodes de Comparaison

Incluant 11 méthodes de référence:

  1. Réentraînement de la tête de classification: PARTIAL-k, MLP-k
  2. Mise à jour de sous-ensembles de paramètres: Adapter, SIDETUNE, BIAS
  3. Transfert de prompts: Average, Single-Best, VPT, SPoT, ATTEMPT, PANDA

Détails d'Implémentation

  • Réseau de base: ViT-B/16 (pré-entraîné sur ImageNet-21k)
  • Nombre de tokens de prompts: 50
  • Entraînement des tâches sources: 10 epochs
  • Dispositif de calcul: GPU NVIDIA A800-80GB
  • Nombre d'échantillons: 2000 échantillons par tâche source utilisés pour le calcul de la transférabilité et de la perte d'alignement des gradients

Résultats Expérimentaux

Résultats Principaux

HGPrompt atteint les performances SOTA sur 13 tâches visuelles:

MéthodeCIFAR100DTDFlowers102PetsSVHNEuroSATMoyenne
PANDA74,161,396,586,271,290,858,7
HGPrompt75,964,298,187,471,092,660,3
  • Précision moyenne de 60,3%, surpassant toutes les méthodes de référence
  • Performance exceptionnelle sur les tâches de reconnaissance fine-grained (Flowers102, Pets)
  • Établit de nouveaux repères sur les tâches de raisonnement géométrique (sNORB-Azimuth, dSprite-Orientation)

Études d'Ablation

Analyse de la contribution de chaque composant:

H(α)LalignCIFARDTDPetsEuroSATMoyenne
××60,457,882,789,172,5
×74,662,385,991,278,5
×74,161,985,590,878,1
75,964,287,492,680,0

Les résultats montrent que les deux composants ont des rôles complémentaires, avec une utilisation conjointe atteignant les meilleures performances.

Analyse des Poids

Validation de la qualité des poids via le coefficient de corrélation de rang de Spearman:

MéthodeCIFARC-distd-LocDMLSVHNMoyenne
SPoT0,5520,175-0,1680,112-0,1470,105
PANDA0,9160,4410,5520,7130,2240,569
HGPrompt0,9440,6640,8530,7270,8530,808

Les poids appris par HGPrompt présentent la plus forte corrélation avec la précision de transfert zéro-shot, reflétant plus précisément l'affinité sémantique entre tâches.

Analyse de Scalabilité

Avec l'augmentation du nombre de prompts sources de 3 à 11, HGPrompt démontre un avantage de performance plus fort par rapport à PANDA et SPoT, validant l'efficacité de la méthode sur des ensembles de prompts à grande échelle.

Visualisation des Représentations

La visualisation t-SNE montre que les caractéristiques générées par HGPrompt possèdent une meilleure discriminabilité de classe, avec des objets de la même classe formant des groupements serrés et des frontières claires.

Travaux Connexes

Apprentissage par Transfert Paramétrique Efficace

  • Domaine du NLP: Méthodes Adapter, BitFit, LoRA ajustant 1-5% des paramètres
  • Domaine visuel: VPT introduisant des tokens apprenables, VP effectuant des perturbations au niveau des pixels

Estimation de la Transférabilité

  • Méthodes basées sur la théorie de l'information: H-score, LEEP, LogME évaluant la discriminabilité des caractéristiques
  • Transport optimal: OTCE mesurant les différences domaine-tâche

Ajustement Multi-source des Prompts

  • Transfert mono-tâche: SPoT utilisant des métriques pour prédire la meilleure tâche source, Su et al. soulignant le rôle de l'activation neuronale
  • Paramètre multi-tâche: ATTEMPT utilisant des mécanismes d'attention pour agréger les connaissances, PANDA résolvant le problème de l'oubli par distillation de connaissances

Conclusion et Discussion

Conclusions Principales

  1. HGPrompt réalise l'intégration optimale des prompts en optimisant conjointement le H-score et l'alignement des gradients
  2. Les mesures basées sur la théorie de l'information quantifient plus efficacement la transférabilité des prompts que les méthodes heuristiques
  3. La correspondance des variances de gradients résout avec succès le problème d'interférence des prompts multi-sources

Limitations

  1. Spécificité architecturale: Le travail actuel se concentre sur l'architecture Transformer, avec une applicabilité limitée à d'autres architectures
  2. Contraintes modales: Principalement axé sur les tâches visuelles, l'apprentissage multimodal nécessite de nouvelles méthodes de conception de prompts
  3. Surcharge computationnelle: Nécessite le calcul des caractéristiques et des gradients de plusieurs prompts sources

Directions Futures

  1. Extension à des interfaces de prompts génériques indépendantes de l'architecture
  2. Exploration de la conception de prompts dans l'apprentissage multimodal
  3. Recherche de méthodes d'évaluation de transférabilité plus efficaces

Évaluation Approfondie

Points Forts

  1. Innovation théorique: La mesure de transférabilité basée sur la théorie de l'information fournit une base mathématique rigoureuse
  2. Avancée technique: La régularisation d'alignement des gradients résout élégamment le problème d'interférence multi-sources
  3. Expérimentation complète: L'évaluation complète sur des benchmarks à grande échelle valide l'efficacité de la méthode
  4. Forte interprétabilité: Le processus d'apprentissage des poids possède une explication théorique claire

Insuffisances

  1. Profondeur de l'analyse théorique: Bien qu'une preuve de convexité soit fournie, l'analyse de la convergence et de l'optimalité manque de profondeur
  2. Sensibilité aux hyperparamètres: Le choix du paramètre λ a un impact significatif sur les performances, manquant de mécanismes adaptatifs
  3. Complexité computationnelle: L'analyse détaillée de la complexité computationnelle et de la scalabilité de la méthode est absente

Impact

  1. Contribution académique: Fournit un nouveau cadre théorique et une méthode pratique pour le transfert de prompts multi-sources
  2. Valeur pratique: Possède une valeur applicative importante dans les scénarios à ressources limitées
  3. Reproductibilité: Les auteurs s'engagent à fournir le code source, facilitant la promotion de la méthode

Scénarios d'Application

  1. Environnements à ressources limitées: Appareils mobiles, informatique en périphérie, etc.
  2. Besoins d'adaptation rapide: Applications nécessitant une adaptation rapide à de nouvelles tâches
  3. Apprentissage multi-tâches: Scénarios nécessitant l'exploitation des connaissances de plusieurs tâches connexes

Références

L'article cite de nombreux travaux connexes, incluant:

  • Apprentissage paramétrique efficace: Houlsby et al. (2019), Hu et al. (2021)
  • Évaluation de la transférabilité: Bao et al. (2019), You et al. (2021)
  • Apprentissage multi-tâches: Yu et al. (2020), Rame et al. (2022)
  • Vision Transformer: Dosovitskiy (2020), Jia et al. (2022)

Cet article apporte des contributions importantes dans le domaine du transfert de prompts visuels multi-sources, résolvant les problèmes clés des méthodes existantes par l'innovation théorique et les percées techniques, ouvrant de nouvelles directions de recherche pour l'apprentissage par transfert paramétrique efficace.