2025-11-21T00:49:15.710789

Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer

Zhang, Cao, Wu et al.

Prompt tuning has emerged as a lightweight strategy for adapting foundation models to downstream tasks, particularly for resource-constrained systems. As pre-trained prompts become valuable assets, combining multiple source prompts offers a promising approach to enhance generalization for new tasks by leveraging complementary knowledge. However, naive aggregation often overlooks different source prompts have different contribution potential to the target task. To address this, we propose HGPrompt, a dynamic framework that learns optimal ensemble weights. These weights are optimized by jointly maximizing an information-theoretic metric for transferability and minimizing gradient conflicts via a novel regularization strategy. Specifically, we propose a differentiable prompt transferability metric to captures the discriminability of prompt-induced features on the target task. Meanwhile, HGPrompt match the gradient variances with respect to different source prompts based on Hessian and Fisher Information, ensuring stable and coherent knowledge transfer while suppressing gradient conflicts among them. Extensive experiments on the large-scale VTAB benchmark demonstrate the state-of-the-art performance of HGPrompt, validating its effectiveness in learning an optimal ensemble for effective multi-source prompt transfer.

academic

Lernen optimaler Prompt-Ensembles für Multi-Source Visual Prompt Transfer

Grundinformationen

Paper-ID: 2504.12311
Titel: Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer
Autoren: Enming Zhang, Liwen Cao, Yanru Wu, Zijie Zhao, Yang Li (Shenzhen International Graduate School der Tsinghua-Universität, Südostuniversität)
Klassifizierung: cs.CL (Computerlinguistik)
Veröffentlichungszeit/Konferenz: arXiv-Preprint (neueste Version vom 15. Oktober 2025)
Paper-Link: https://arxiv.org/abs/2504.12311v5

Zusammenfassung

Dieser Artikel präsentiert das HGPrompt-Framework für Multi-Source Visual Prompt Transfer-Aufgaben. Die Methode lernt optimale Ensemble-Gewichte durch gemeinsame Optimierung eines informationstheoretischen Transferierbarkeitsmasses und eines Gradienten-Konflikt-Minimierungsterms. Konkret wird ein differenzierbares Prompt-Transferierbarkeitsmass vorgeschlagen, um die Diskriminativität von Prompt-induzierten Merkmalen bei der Zielaufgabe zu erfassen. Gleichzeitig wird die Gradienten-Varianz verschiedener Quell-Prompts durch Hessian- und Fisher-Informations-Matching abgestimmt, um stabilen und konsistenten Wissenstransfer zu gewährleisten und Gradienten-Konflikte zu unterdrücken. Experimente auf der großflächigen VTAB-Benchmark validieren die Effektivität von HGPrompt.

Forschungshintergrund und Motivation

Problemdefinition

Mit der Entwicklung visueller Grundmodelle ist Prompt Tuning zu einer leichtgewichtigen Strategie zur Anpassung an nachgelagerte Aufgaben geworden. Das Kernproblem, dem sich bestehende Methoden gegenübersehen, ist: Wie können mehrere Quell-Prompts effektiv aggregiert werden, um die Generalisierungsfähigkeit bei neuen Aufgaben zu verbessern?

Forschungsmotivation

Ressourceneffizienzanforderungen: Vollständiges Model Fine-Tuning wird bei großflächigen vortrainierten Modellen unpraktisch; Prompt Tuning benötigt nur die Aktualisierung von 0,4% der Parameter, um wettbewerbsfähige Leistung zu erreichen
Wert von Prompt-Assets: Vorgenerierte Prompts sind zu wertvollen Wissensressourcen geworden; die Kombination mehrerer Quell-Prompts kann komplementäres Wissen nutzen
Einschränkungen bestehender Methoden: Einfache Verkettungs- oder Durchschnittsaggregation ignoriert die unterschiedlichen Beitragsdifferenzen verschiedener Quell-Prompts zur Zielaufgabe und kann zu Merkmals-Kollaps führen

Kernherausforderungen

Traditionelle Methoden bewerten die Transferierbarkeit jedes Prompts isoliert und ignorieren gegenseitige Abhängigkeiten zwischen Prompts
Mangel an theoretisch fundierten heuristischen Methoden (wie Berechnung der Parameterähnlichkeit)
Gradienten-Interferenzen durch Multi-Prompt-Aggregation führen zu Optimierungsinstabilität

Kernbeiträge

HGPrompt-Framework: Das erste theoretisch fundierte Framework zum dynamischen Lernen optimaler Prompt-Gewichte durch Bewertung der Transferierbarkeit von aggregierten Prompt-induzierten Merkmalen
Informationstheoretisches Transferierbarkeitsmass: Differenzierbares Prompt-Transferierbarkeitsmass basierend auf H-Score, das eine explizite und interpretierbare Quantifizierung des Beitrags bietet
Gradienten-Alignment-Regularisierung: Innovatives Gradienten-Varianz-Matching-Ziel zur Lösung von Gradienten-Konflikten zwischen Multi-Source-Prompts
SOTA-Leistung: State-of-the-Art-Leistung auf der VTAB-Benchmark mit durchschnittlicher Genauigkeit von 60,3%

Methodische Details

Aufgabendefinition

Gegeben κ Quellaufgaben S = {Si}ᵏᵢ₌₁ und ihre entsprechenden optimierten Prompts {Pi}ᵏᵢ₌₁ besteht das Ziel darin, durch optimale Kombination von Quell-Prompts einen Ziel-Prompt PT für eine neue Aufgabe T zu konstruieren. Sei M ≤ κ die Anzahl der ausgewählten Quell-Prompts und Gewichte α = (α₁,...,αM) erfüllen ∑ᵢαᵢ = 1 und αᵢ ≥ 0.

Modellarchitektur

1. Grundlagen des visuellen Prompt Tuning

Für einen vortrainierten Transformer werden m lernbare Prompt-Tokens P = p₁,...,pm ∈ Rᵐˣᵈ eingeführt. Gegeben die Patch-Einbettung E(X) ∈ Rⁿˣᵈ eines Eingabebildes X ist die kombinierte Eingabesequenz P;E(X) ∈ R⁽ᵐ⁺ⁿ⁾ˣᵈ.

Die Vorhersagewahrscheinlichkeit ist:

Prθ(Y|X;P) = exp(fY([P;E(X)];θ)) / ∑ᶜᵢ₌₁exp(fi([P;E(X)];θ))

2. H-Score Transferierbarkeitsmass

Definition 1: Gegeben Eingabedaten x, Label y und Merkmalsextraktor f(x) ist der einseitige H-Score definiert als:

H(f) = tr(cov(f(X))⁻¹cov(E_PX|Y[f(X)|Y]))

Dieses Mass hat eine intuitive Interpretation: Ein hoher H-Score zeigt grössere Klassen-Diskriminativität cov(Ef(X)|Y) und minimale Merkmals-Redundanz tr(cov(f(X))) an.

Definition 2: Die optimalen Merkmals-Gewichte werden durch Maximierung des H-Scores der gewichteten Merkmalssumme bestimmt:

α* = argmax_α H(∑ⱼαⱼ·fPⱼ) s.t. ∑ⱼαⱼ = 1

Theorem 1: Der H-Score ist eine konvexe quadratische Form bezüglich der Gewichte α, was die zuverlässige Lösung des Optimierungsproblems garantiert.

3. Gradienten-Alignment-Regularisierung

Um das Gradienten-Interferenzproblem bei Multi-Prompt-Aggregation zu lösen, wird ein Gradienten-Varianz-Matching-Ziel vorgeschlagen:

Berechnung des Gradienten für jeden Quell-Prompt Pi:

gi = ∇Pi L(fθ([x₀;Pi;E(X)]), y)

Gradienten-Varianz:

vi = Var(G) = 1/(N-1) ∑ⱼ(gⁱⱼ - gᵅⱼ)²

Regularisierungsterm:

Lalign(α) = 1/M ∑ᵢ||vi - v̄(α)||²₂

Gesamtzielfunction:

L(α) = -H(α) + λLalign(α)

Technische Innovationen

Ensemble-Bewertung vs. isolierte Bewertung: Im Gegensatz zu traditionellen Methoden, die jeden Prompt unabhängig bewerten, bewertet dieser Artikel die Gesamttransferierbarkeit des aggregierten Prompts
Theoretische Grundlagen: Das auf Informationstheorie basierende H-Score-Mass bietet eine strenge mathematische Grundlage und ersetzt heuristische Methoden
Gradienten-Konflikt-Lösung: Durch theoretische Erkenntnisse aus Hessian- und Fisher-Informationen wird Gradienten-Varianz-Matching entworfen, um Optimierungsinkonsistenzen zu reduzieren

Experimentelle Einrichtung

Datensätze

Verwendung von 13 Datensätzen aus der VTAB-1k-Benchmark, die drei Aufgabenkategorien abdecken:

Natural: Bilder von regulären Kameras (z.B. CIFAR100, Flowers102, Pets)
Specialized: Daten von speziellen Geräten (z.B. EuroSAT-Satellitenbild)
Structured: Aufgaben, die räumliches Denken erfordern (z.B. CLEVR-Zählaufgaben)

Bewertungsmetriken

Klassifizierungsgenauigkeit als primäre Bewertungsmetrik; Durchschnittsergebnisse von drei unabhängigen Durchläufen werden berichtet.

Vergleichsmethoden

Umfasst 11 Baseline-Methoden:

Neutraining des Klassifizierungskopfes: PARTIAL-k, MLP-k
Parametersubset-Aktualisierung: Adapter, SIDETUNE, BIAS
Prompt Transfer: Average, Single-Best, VPT, SPoT, ATTEMPT, PANDA

Implementierungsdetails

Backbone-Netzwerk: ViT-B/16 (ImageNet-21k vortrainiert)
Anzahl der Prompt-Tokens: 50
Training der Quellaufgaben: 10 Epochen
Rechengerät: NVIDIA A800-80GB GPU
Stichprobengrösse: 2000 Samples pro Quellaufgabe für Transferierbarkeitsmass- und Gradienten-Alignment-Verlustberechnung

Experimentelle Ergebnisse

Hauptergebnisse

HGPrompt erreicht SOTA-Leistung auf 13 visuellen Aufgaben:

Methode	CIFAR100	DTD	Flowers102	Pets	SVHN	EuroSAT	Durchschnitt
PANDA	74,1	61,3	96,5	86,2	71,2	90,8	58,7
HGPrompt	75,9	64,2	98,1	87,4	71,0	92,6	60,3

Durchschnittliche Genauigkeit von 60,3%, übertrifft alle Baseline-Methoden
Hervorragende Leistung bei feinkörnerigen Erkennungsaufgaben (Flowers102, Pets)
Neue Benchmarks bei geometrischen Inferenzaufgaben (sNORB-Azimuth, dSprite-Orientation)

Ablationsstudien

Beitragsanalyse der Komponenten:

H(α)	Lalign	CIFAR	DTD	Pets	EuroSAT	Durchschnitt
×	×	60,4	57,8	82,7	89,1	72,5
✓	×	74,6	62,3	85,9	91,2	78,5
×	✓	74,1	61,9	85,5	90,8	78,1
✓	✓	75,9	64,2	87,4	92,6	80,0

Die Ergebnisse zeigen, dass die beiden Komponenten komplementär wirken und die beste Leistung bei gemeinsamer Verwendung erreicht wird.

Gewichtsanalyse

Validierung der Gewichtsqualität durch Spearman-Rangkorrelationskoeffizient:

Methode	CIFAR	C-dist	d-Loc	DML	SVHN	Durchschnitt
SPoT	0,552	0,175	-0,168	0,112	-0,147	0,105
PANDA	0,916	0,441	0,552	0,713	0,224	0,569
HGPrompt	0,944	0,664	0,853	0,727	0,853	0,808

Die von HGPrompt gelernten Gewichte zeigen die höchste Korrelation mit Zero-Shot-Transfer-Genauigkeit und reflektieren genauer die semantische Affinität zwischen Aufgaben.

Skalierbarkeitsanalyse

Mit zunehmender Anzahl von Quell-Prompts von 3 auf 11 zeigt HGPrompt stärkere Leistungsvorteile gegenüber PANDA und SPoT und validiert die Effektivität der Methode bei grossen Prompt-Sammlungen.

Merkmals-Visualisierung

t-SNE-Visualisierung zeigt, dass von HGPrompt generierte Merkmale bessere Klassen-Diskriminativität aufweisen, mit engen Gruppierungen gleichartiger Objekte und klaren Grenzen.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

HGPrompt erreicht optimale Prompt-Integration durch gemeinsame Optimierung von H-Score und Gradienten-Alignment
Informationstheoretische Masse quantifizieren Prompt-Transferierbarkeit effektiver als heuristische Methoden
Gradienten-Varianz-Matching löst erfolgreich das Interferenzproblem bei Multi-Source-Prompts

Einschränkungen

Architektur-Spezifität: Aktuelle Arbeiten konzentrieren sich auf Transformer-Architekturen; die Anwendbarkeit auf andere Architekturen ist begrenzt
Modalitäts-Beschränkungen: Hauptsächlich auf visuelle Aufgaben ausgerichtet; Multi-Modal-Learning erfordert neue Prompt-Design-Methoden
Rechenkomplexität: Erfordert Berechnung von Merkmalen und Gradienten mehrerer Quell-Prompts

Zukünftige Richtungen

Erweiterung auf architektur-unabhängige universelle Prompt-Schnittstellen
Erforschung von Prompt-Design im Multi-Modal-Learning
Untersuchung effizienterer Transferierbarkeitsbewertungsmethoden

Tiefgreifende Bewertung

Stärken

Theoretische Innovation: Das auf Informationstheorie basierende Transferierbarkeitsmass bietet eine strenge mathematische Grundlage
Technische Fortschritte: Gradienten-Alignment-Regularisierung löst elegant das Multi-Source-Interferenzproblem
Umfassende Experimente: Vollständige Evaluierung auf grossflächigen Benchmarks validiert die Methodeneffektivität
Starke Interpretierbarkeit: Der Gewichtslernprozess hat explizite theoretische Erklärungen

Mängel

Tiefe der theoretischen Analyse: Obwohl Konvexitätsbeweise bereitgestellt werden, ist die Analyse von Konvergenz und Optimalität nicht ausreichend tiefgreifend
Hyperparameter-Sensitivität: Die Wahl des λ-Parameters hat grossen Einfluss auf die Leistung; es fehlt ein adaptiver Mechanismus
Rechenkomplexität: Die Rechenkomplexität und Skalierbarkeit der Methode werden nicht detailliert analysiert

Auswirkungen

Akademischer Beitrag: Bietet einen neuen theoretischen Rahmen und praktische Methoden für Multi-Source-Prompt-Transfer
Praktischer Wert: Hat wichtige Anwendungswerte in ressourcenbeschränkten Szenarien
Reproduzierbarkeit: Autoren verpflichten sich zur Bereitstellung von Quellcode, was die Methodenverbreitung fördert

Anwendungsszenarien

Ressourcenbeschränkte Umgebungen: Mobile Geräte, Edge Computing und ähnliche Szenarien
Schnelle Adaptationsanforderungen: Anwendungen, die schnelle Anpassung an neue Aufgaben erfordern
Multi-Task-Learning: Szenarien, die Wissen aus mehreren verwandten Aufgaben nutzen müssen

Referenzen

Das Paper zitiert umfangreiche verwandte Arbeiten, einschliesslich:

Parametereffizientes Lernen: Houlsby et al. (2019), Hu et al. (2021)
Transferierbarkeitsbewertung: Bao et al. (2019), You et al. (2021)
Multi-Task-Learning: Yu et al. (2020), Rame et al. (2022)
Vision Transformer: Dosovitskiy (2020), Jia et al. (2022)

Dieses Paper leistet wichtige Beiträge im Bereich des Multi-Source Visual Prompt Transfer, löst Schlüsselprobleme bestehender Methoden durch theoretische Innovation und technische Durchbrüche und bietet neue Forschungsrichtungen für parametereffizientes Transfer Learning.