2025-11-21T00:49:15.710789

Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer

Zhang, Cao, Wu et al.

Prompt tuning has emerged as a lightweight strategy for adapting foundation models to downstream tasks, particularly for resource-constrained systems. As pre-trained prompts become valuable assets, combining multiple source prompts offers a promising approach to enhance generalization for new tasks by leveraging complementary knowledge. However, naive aggregation often overlooks different source prompts have different contribution potential to the target task. To address this, we propose HGPrompt, a dynamic framework that learns optimal ensemble weights. These weights are optimized by jointly maximizing an information-theoretic metric for transferability and minimizing gradient conflicts via a novel regularization strategy. Specifically, we propose a differentiable prompt transferability metric to captures the discriminability of prompt-induced features on the target task. Meanwhile, HGPrompt match the gradient variances with respect to different source prompts based on Hessian and Fisher Information, ensuring stable and coherent knowledge transfer while suppressing gradient conflicts among them. Extensive experiments on the large-scale VTAB benchmark demonstrate the state-of-the-art performance of HGPrompt, validating its effectiveness in learning an optimal ensemble for effective multi-source prompt transfer.

academic

Apprentissage de l'Ensemble de Prompts Optimal pour le Transfert de Prompts Visuels Multi-sources

Informations Fondamentales

ID de l'article: 2504.12311
Titre: Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer
Auteurs: Enming Zhang, Liwen Cao, Yanru Wu, Zijie Zhao, Yang Li (Graduate School at Shenzhen, Tsinghua University; Southeast University)
Classification: cs.CL (Linguistique Computationnelle)
Date de publication/Conférence: Prépublication arXiv (version la plus récente du 15 octobre 2025)
Lien de l'article: https://arxiv.org/abs/2504.12311v5

Résumé

Cet article propose le cadre HGPrompt pour la tâche de transfert de prompts visuels multi-sources. La méthode apprend les poids d'ensemble optimaux en optimisant conjointement une mesure de transférabilité basée sur la théorie de l'information et un terme de régularisation minimisant les conflits de gradients. Plus précisément, l'article propose une mesure de transférabilité des prompts différentiable pour capturer la discriminabilité des caractéristiques induites par les prompts sur la tâche cible, tout en faisant correspondre les variances de gradients des prompts sources différentes en utilisant les informations de Hessian et Fisher, assurant ainsi un transfert de connaissances stable et cohérent tout en supprimant les conflits de gradients. Les expériences sur le benchmark VTAB à grande échelle valident l'efficacité de HGPrompt.

Contexte de Recherche et Motivation

Définition du Problème

Avec le développement des modèles de base visuels, l'ajustement des prompts (Prompt Tuning) est devenu une stratégie légère pour adapter les tâches en aval. Le problème fondamental auquel font face les méthodes existantes est : comment agréger efficacement plusieurs prompts sources pour améliorer la capacité de généralisation sur de nouvelles tâches.

Motivation de la Recherche

Besoin d'efficacité des ressources: L'ajustement complet du modèle devient irréaliste sur les modèles pré-entraînés à grande échelle, tandis que l'ajustement des prompts ne nécessite la mise à jour que de 0,4% des paramètres pour atteindre des performances compétitives
Valeur des actifs de prompts: Les prompts pré-entraînés sont devenus des actifs de connaissances précieux, et la combinaison de prompts multi-sources peut exploiter les connaissances complémentaires
Limitations des méthodes existantes: L'agrégation simple par concaténation ou moyenne ignore les différences de contribution des différents prompts sources à la tâche cible, pouvant entraîner un effondrement de la représentation

Défis Fondamentaux

Les méthodes traditionnelles évaluent isolément la transférabilité de chaque prompt, ignorant les dépendances mutuelles entre prompts
Absence de fondement théorique pour les méthodes heuristiques (comme le calcul de similarité de paramètres)
L'interférence de gradients introduite par l'agrégation multi-prompts entraîne une instabilité d'optimisation

Contributions Fondamentales

Proposition du cadre HGPrompt: Premier cadre théoriquement fiable pour apprendre dynamiquement les poids optimaux des prompts, en évaluant la transférabilité de l'ensemble des caractéristiques induites par les prompts agrégés
Mesure de transférabilité basée sur la théorie de l'information: Mesure de transférabilité des prompts différentiable basée sur le H-score, fournissant une quantification explicite et interprétable des contributions
Régularisation d'alignement des gradients: Objectif innovant de correspondance des variances de gradients, résolvant le problème des conflits de gradients entre prompts multi-sources
Performance SOTA: Atteint les performances de pointe sur le benchmark VTAB, avec une précision moyenne de 60,3%

Détails de la Méthode

Définition de la Tâche

Étant donné κ tâches sources S = {Sᵢ}ᵏᵢ₌₁ et leurs prompts optimisés correspondants {Pᵢ}ᵏᵢ₌₁, l'objectif est de construire un prompt cible Pₜ pour une nouvelle tâche T en combinant optimalement les prompts sources. Soit M ≤ κ le nombre de prompts sources sélectionnés, avec des poids α = (α₁,...,αₘ) satisfaisant ∑ᵢαᵢ = 1 et αᵢ ≥ 0.

Architecture du Modèle

1. Fondamentaux de l'Ajustement des Prompts Visuels

Pour un Transformer pré-entraîné, m tokens de prompts apprenables P = p₁,...,pₘ ∈ Rᵐˣᵈ sont introduits. Étant donné l'intégration des patches E(X) ∈ Rⁿˣᵈ d'une image d'entrée X, la séquence d'entrée combinée est P;E(X) ∈ R⁽ᵐ⁺ⁿ⁾ˣᵈ.

La probabilité de prédiction est:

Prθ(Y|X;P) = exp(fY([P;E(X)];θ)) / ∑ᶜᵢ₌₁exp(fᵢ([P;E(X)];θ))

2. Mesure de Transférabilité H-score

Définition 1: Étant donné les données d'entrée x, les étiquettes y et l'extracteur de caractéristiques f(x), le H-score unilatéral est défini comme:

H(f) = tr(cov(f(X))⁻¹cov(E_P(X|Y)[f(X)|Y]))

Cette mesure possède une interprétation intuitive: un H-score élevé indique une plus grande discriminabilité inter-classe cov(Ef(X)|Y) et une redondance de caractéristiques minimale tr(cov(f(X))).

Définition 2: Les poids de caractéristiques optimaux sont déterminés en maximisant le H-score de la somme pondérée des caractéristiques:

α* = argmax_α H(∑ⱼαⱼ·fPⱼ) s.t. ∑ⱼαⱼ = 1

Théorème 1: Le H-score est une forme quadratique convexe en α, garantissant la résolution fiable du problème d'optimisation.

3. Régularisation d'Alignement des Gradients

Pour résoudre le problème d'interférence de gradients de l'agrégation multi-prompts, un objectif de correspondance des variances de gradients est proposé:

Calcul du gradient pour chaque prompt source Pᵢ:

gᵢ = ∇Pᵢ L(fθ([x₀;Pᵢ;E(X)]), y)

Variance des gradients:

vᵢ = Var(G) = 1/(N-1) ∑ⱼ(gⁱⱼ - gᵅⱼ)²

Terme de régularisation:

Lalign(α) = 1/M ∑ᵢ||vᵢ - v̄(α)||²₂

Fonction objectif totale:

L(α) = -H(α) + λLalign(α)

Points d'Innovation Technique

Évaluation d'ensemble vs évaluation isolée: Contrairement aux méthodes traditionnelles qui évaluent indépendamment chaque prompt, cet article évalue la transférabilité globale du prompt agrégé
Fondement théorique: Le H-score basé sur la théorie de l'information fournit une base mathématique rigoureuse, remplaçant les méthodes heuristiques
Résolution des conflits de gradients: En s'appuyant sur les intuitions théoriques des informations de Hessian et Fisher, la correspondance des variances de gradients est conçue pour réduire les incohérences d'optimisation

Configuration Expérimentale

Ensembles de Données

Utilisation du benchmark VTAB-1k avec 13 ensembles de données, couvrant trois catégories de tâches:

Natural: Images capturées par caméra conventionnelle (par exemple, CIFAR100, Flowers102, Pets)
Specialized: Données acquises par des appareils spécialisés (par exemple, images satellites EuroSAT)
Structured: Nécessitant un raisonnement spatial (par exemple, tâche de comptage CLEVR)

Métriques d'Évaluation

La précision de classification est utilisée comme métrique d'évaluation principale, avec les résultats moyens de trois exécutions indépendantes rapportés.

Méthodes de Comparaison

Incluant 11 méthodes de référence:

Réentraînement de la tête de classification: PARTIAL-k, MLP-k
Mise à jour de sous-ensembles de paramètres: Adapter, SIDETUNE, BIAS
Transfert de prompts: Average, Single-Best, VPT, SPoT, ATTEMPT, PANDA

Détails d'Implémentation

Réseau de base: ViT-B/16 (pré-entraîné sur ImageNet-21k)
Nombre de tokens de prompts: 50
Entraînement des tâches sources: 10 epochs
Dispositif de calcul: GPU NVIDIA A800-80GB
Nombre d'échantillons: 2000 échantillons par tâche source utilisés pour le calcul de la transférabilité et de la perte d'alignement des gradients

Résultats Expérimentaux

Résultats Principaux

HGPrompt atteint les performances SOTA sur 13 tâches visuelles:

Méthode	CIFAR100	DTD	Flowers102	Pets	SVHN	EuroSAT	Moyenne
PANDA	74,1	61,3	96,5	86,2	71,2	90,8	58,7
HGPrompt	75,9	64,2	98,1	87,4	71,0	92,6	60,3

Précision moyenne de 60,3%, surpassant toutes les méthodes de référence
Performance exceptionnelle sur les tâches de reconnaissance fine-grained (Flowers102, Pets)
Établit de nouveaux repères sur les tâches de raisonnement géométrique (sNORB-Azimuth, dSprite-Orientation)

Études d'Ablation

Analyse de la contribution de chaque composant:

H(α)	Lalign	CIFAR	DTD	Pets	EuroSAT	Moyenne
×	×	60,4	57,8	82,7	89,1	72,5
✓	×	74,6	62,3	85,9	91,2	78,5
×	✓	74,1	61,9	85,5	90,8	78,1
✓	✓	75,9	64,2	87,4	92,6	80,0

Les résultats montrent que les deux composants ont des rôles complémentaires, avec une utilisation conjointe atteignant les meilleures performances.

Analyse des Poids

Validation de la qualité des poids via le coefficient de corrélation de rang de Spearman:

Méthode	CIFAR	C-dist	d-Loc	DML	SVHN	Moyenne
SPoT	0,552	0,175	-0,168	0,112	-0,147	0,105
PANDA	0,916	0,441	0,552	0,713	0,224	0,569
HGPrompt	0,944	0,664	0,853	0,727	0,853	0,808

Les poids appris par HGPrompt présentent la plus forte corrélation avec la précision de transfert zéro-shot, reflétant plus précisément l'affinité sémantique entre tâches.

Analyse de Scalabilité

Avec l'augmentation du nombre de prompts sources de 3 à 11, HGPrompt démontre un avantage de performance plus fort par rapport à PANDA et SPoT, validant l'efficacité de la méthode sur des ensembles de prompts à grande échelle.

Visualisation des Représentations

La visualisation t-SNE montre que les caractéristiques générées par HGPrompt possèdent une meilleure discriminabilité de classe, avec des objets de la même classe formant des groupements serrés et des frontières claires.

Travaux Connexes

Apprentissage par Transfert Paramétrique Efficace

Domaine du NLP: Méthodes Adapter, BitFit, LoRA ajustant 1-5% des paramètres
Domaine visuel: VPT introduisant des tokens apprenables, VP effectuant des perturbations au niveau des pixels

Estimation de la Transférabilité

Méthodes basées sur la théorie de l'information: H-score, LEEP, LogME évaluant la discriminabilité des caractéristiques
Transport optimal: OTCE mesurant les différences domaine-tâche

Ajustement Multi-source des Prompts

Transfert mono-tâche: SPoT utilisant des métriques pour prédire la meilleure tâche source, Su et al. soulignant le rôle de l'activation neuronale
Paramètre multi-tâche: ATTEMPT utilisant des mécanismes d'attention pour agréger les connaissances, PANDA résolvant le problème de l'oubli par distillation de connaissances

Conclusion et Discussion

Conclusions Principales

HGPrompt réalise l'intégration optimale des prompts en optimisant conjointement le H-score et l'alignement des gradients
Les mesures basées sur la théorie de l'information quantifient plus efficacement la transférabilité des prompts que les méthodes heuristiques
La correspondance des variances de gradients résout avec succès le problème d'interférence des prompts multi-sources

Limitations

Spécificité architecturale: Le travail actuel se concentre sur l'architecture Transformer, avec une applicabilité limitée à d'autres architectures
Contraintes modales: Principalement axé sur les tâches visuelles, l'apprentissage multimodal nécessite de nouvelles méthodes de conception de prompts
Surcharge computationnelle: Nécessite le calcul des caractéristiques et des gradients de plusieurs prompts sources

Directions Futures

Extension à des interfaces de prompts génériques indépendantes de l'architecture
Exploration de la conception de prompts dans l'apprentissage multimodal
Recherche de méthodes d'évaluation de transférabilité plus efficaces

Évaluation Approfondie

Points Forts

Innovation théorique: La mesure de transférabilité basée sur la théorie de l'information fournit une base mathématique rigoureuse
Avancée technique: La régularisation d'alignement des gradients résout élégamment le problème d'interférence multi-sources
Expérimentation complète: L'évaluation complète sur des benchmarks à grande échelle valide l'efficacité de la méthode
Forte interprétabilité: Le processus d'apprentissage des poids possède une explication théorique claire

Insuffisances

Profondeur de l'analyse théorique: Bien qu'une preuve de convexité soit fournie, l'analyse de la convergence et de l'optimalité manque de profondeur
Sensibilité aux hyperparamètres: Le choix du paramètre λ a un impact significatif sur les performances, manquant de mécanismes adaptatifs
Complexité computationnelle: L'analyse détaillée de la complexité computationnelle et de la scalabilité de la méthode est absente

Impact

Contribution académique: Fournit un nouveau cadre théorique et une méthode pratique pour le transfert de prompts multi-sources
Valeur pratique: Possède une valeur applicative importante dans les scénarios à ressources limitées
Reproductibilité: Les auteurs s'engagent à fournir le code source, facilitant la promotion de la méthode

Scénarios d'Application

Environnements à ressources limitées: Appareils mobiles, informatique en périphérie, etc.
Besoins d'adaptation rapide: Applications nécessitant une adaptation rapide à de nouvelles tâches
Apprentissage multi-tâches: Scénarios nécessitant l'exploitation des connaissances de plusieurs tâches connexes

Références

L'article cite de nombreux travaux connexes, incluant:

Apprentissage paramétrique efficace: Houlsby et al. (2019), Hu et al. (2021)
Évaluation de la transférabilité: Bao et al. (2019), You et al. (2021)
Apprentissage multi-tâches: Yu et al. (2020), Rame et al. (2022)
Vision Transformer: Dosovitskiy (2020), Jia et al. (2022)

Cet article apporte des contributions importantes dans le domaine du transfert de prompts visuels multi-sources, résolvant les problèmes clés des méthodes existantes par l'innovation théorique et les percées techniques, ouvrant de nouvelles directions de recherche pour l'apprentissage par transfert paramétrique efficace.