2025-11-21T00:49:15.710789

Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer

Zhang, Cao, Wu et al.

Prompt tuning has emerged as a lightweight strategy for adapting foundation models to downstream tasks, particularly for resource-constrained systems. As pre-trained prompts become valuable assets, combining multiple source prompts offers a promising approach to enhance generalization for new tasks by leveraging complementary knowledge. However, naive aggregation often overlooks different source prompts have different contribution potential to the target task. To address this, we propose HGPrompt, a dynamic framework that learns optimal ensemble weights. These weights are optimized by jointly maximizing an information-theoretic metric for transferability and minimizing gradient conflicts via a novel regularization strategy. Specifically, we propose a differentiable prompt transferability metric to captures the discriminability of prompt-induced features on the target task. Meanwhile, HGPrompt match the gradient variances with respect to different source prompts based on Hessian and Fisher Information, ensuring stable and coherent knowledge transfer while suppressing gradient conflicts among them. Extensive experiments on the large-scale VTAB benchmark demonstrate the state-of-the-art performance of HGPrompt, validating its effectiveness in learning an optimal ensemble for effective multi-source prompt transfer.

academic

Apprendimento dell'Insieme Ottimale di Prompt per il Trasferimento di Prompt Visivi Multi-Fonte

Informazioni Fondamentali

ID Articolo: 2504.12311
Titolo: Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer
Autori: Enming Zhang, Liwen Cao, Yanru Wu, Zijie Zhao, Yang Li (Scuola Internazionale di Dottorato dell'Università di Tsinghua a Shenzhen, Università del Sudest)
Classificazione: cs.CL (Linguistica Computazionale)
Data di Pubblicazione/Conferenza: Preprint arXiv (versione più recente del 15 ottobre 2025)
Link Articolo: https://arxiv.org/abs/2504.12311v5

Riassunto

Questo articolo propone il framework HGPrompt per il compito di trasferimento di prompt visivi multi-fonte. Il metodo apprende i pesi di insieme ottimali attraverso l'ottimizzazione congiunta di una misura di trasferibilità basata sulla teoria dell'informazione e di un termine di regolarizzazione che minimizza i conflitti di gradiente. Nello specifico, propone una misura di trasferibilità di prompt differenziabile per catturare la discriminatività delle caratteristiche indotte dai prompt sul compito target, mentre abbina la varianza del gradiente dei prompt di diverse fonti basandosi sulle informazioni di Hessian e Fisher, garantendo un trasferimento di conoscenza stabile e coerente e sopprimendo i conflitti di gradiente. Gli esperimenti sul benchmark VTAB su larga scala verificano l'efficacia di HGPrompt.

Contesto di Ricerca e Motivazione

Definizione del Problema

Con lo sviluppo dei modelli di base visivi, l'ottimizzazione dei prompt (Prompt Tuning) è diventata una strategia leggera per adattarsi ai compiti a valle. Il problema centrale affrontato dai metodi esistenti è: come aggregare efficacemente più prompt di fonte per migliorare la capacità di generalizzazione su nuovi compiti.

Motivazione della Ricerca

Esigenza di Efficienza Risorse: L'ottimizzazione completa del modello diventa impraticabile su modelli pre-addestrati su larga scala, mentre l'ottimizzazione dei prompt richiede solo l'aggiornamento dello 0,4% dei parametri per ottenere prestazioni competitive
Valore degli Asset di Prompt: I prompt pre-addestrati sono diventati asset di conoscenza preziosi, e la combinazione di prompt multi-fonte può sfruttare conoscenze complementari
Limitazioni dei Metodi Esistenti: L'aggregazione semplice mediante concatenazione o media ignora le differenze nel contributo dei diversi prompt di fonte al compito target, potendo causare il collasso della rappresentazione

Sfide Fondamentali

I metodi tradizionali valutano isolatamente la trasferibilità di ogni prompt, ignorando le interdipendenze tra i prompt
Mancanza di fondamenti teorici nei metodi euristici (come il calcolo della similarità parametrica)
L'interferenza di gradiente introdotta dall'aggregazione multi-prompt causa instabilità nell'ottimizzazione

Contributi Fondamentali

Propone il Framework HGPrompt: Il primo framework teoricamente affidabile che apprende dinamicamente i pesi ottimali dei prompt, valutando la trasferibilità dell'insieme di caratteristiche indotte dai prompt aggregati
Misura di Trasferibilità Basata sulla Teoria dell'Informazione: Una misura di trasferibilità dei prompt differenziabile basata su H-score, fornendo una quantificazione esplicita e interpretabile dei contributi
Regolarizzazione di Allineamento del Gradiente: Un innovativo obiettivo di abbinamento della varianza del gradiente che risolve il problema dei conflitti di gradiente tra prompt multi-fonte
Prestazioni SOTA: Raggiunge prestazioni all'avanguardia sul benchmark VTAB, con accuratezza media del 60,3%

Dettagli del Metodo

Definizione del Compito

Dati κ compiti di fonte S = {Sᵢ}ᵏᵢ₌₁ e i loro corrispondenti prompt ottimizzati {Pᵢ}ᵏᵢ₌₁, l'obiettivo è costruire il prompt target Pₜ per un nuovo compito T attraverso la combinazione ottimale dei prompt di fonte. Sia M ≤ κ il numero di prompt di fonte selezionati, con pesi α = (α₁,...,αₘ) che soddisfano ∑ᵢαᵢ = 1 e αᵢ ≥ 0.

Architettura del Modello

1. Fondamenti dell'Ottimizzazione dei Prompt Visivi

Per un Transformer pre-addestrato, si introducono m token di prompt apprendibili P = p₁,...,pₘ ∈ Rᵐˣᵈ. Data l'incorporamento dei patch dell'immagine di input X, E(X) ∈ Rⁿˣᵈ, la sequenza di input combinata è P;E(X) ∈ R⁽ᵐ⁺ⁿ⁾ˣᵈ.

La probabilità di predizione è:

Prθ(Y|X;P) = exp(fY([P;E(X)];θ)) / ∑ᶜᵢ₌₁exp(fᵢ([P;E(X)];θ))

2. Misura di Trasferibilità H-score

Definizione 1: Dati i dati di input x, l'etichetta y e l'estrattore di caratteristiche f(x), l'H-score unilaterale è definito come:

H(f) = tr(cov(f(X))⁻¹cov(E_PX|Y[f(X)|Y]))

Questa misura ha un'interpretazione intuitiva: un H-score elevato indica una maggiore discriminatività tra classi cov(Ef(X)|Y) e una ridondanza minima delle caratteristiche tr(cov(f(X))).

Definizione 2: I pesi ottimali delle caratteristiche sono determinati massimizzando l'H-score della somma ponderata delle caratteristiche:

α* = argmax_α H(∑ⱼαⱼ·fPⱼ) s.t. ∑ⱼαⱼ = 1

Teorema 1: L'H-score è una forma quadratica convessa nei pesi α, garantendo la risoluzione affidabile del problema di ottimizzazione.

3. Regolarizzazione di Allineamento del Gradiente

Per risolvere il problema dell'interferenza di gradiente nell'aggregazione multi-prompt, si propone un obiettivo di abbinamento della varianza del gradiente:

Calcolo del gradiente per ogni prompt di fonte Pᵢ:

gᵢ = ∇Pᵢ L(fθ([x₀;Pᵢ;E(X)]), y)

Varianza del gradiente:

vᵢ = Var(G) = 1/(N-1) ∑ⱼ(gⁱⱼ - gᵅⱼ)²

Termine di regolarizzazione:

Lalign(α) = 1/M ∑ᵢ||vᵢ - v̄(α)||²₂

Funzione obiettivo totale:

L(α) = -H(α) + λLalign(α)

Punti di Innovazione Tecnica

Valutazione dell'Insieme vs Valutazione Isolata: Diversamente dai metodi tradizionali che valutano indipendentemente ogni prompt, questo articolo valuta la trasferibilità complessiva del prompt aggregato
Fondamenti Teorici: La misura H-score basata sulla teoria dell'informazione fornisce una base matematica rigorosa, sostituendo i metodi euristici
Risoluzione dei Conflitti di Gradiente: Attraverso intuizioni teoriche sulle informazioni di Hessian e Fisher, si progetta l'abbinamento della varianza del gradiente per ridurre l'incoerenza nell'ottimizzazione

Configurazione Sperimentale

Dataset

Utilizzo del benchmark VTAB-1k con 13 dataset, coprendo tre categorie di compiti:

Natural: Immagini acquisite da fotocamere convenzionali (ad es. CIFAR100, Flowers102, Pets)
Specialized: Dati acquisiti da dispositivi specializzati (ad es. immagini satellitari EuroSAT)
Structured: Richiedono ragionamento spaziale (ad es. compiti di conteggio CLEVR)

Metriche di Valutazione

L'accuratezza della classificazione è utilizzata come metrica di valutazione principale, riportando i risultati medi di tre esecuzioni indipendenti.

Metodi di Confronto

Include 11 metodi di riferimento:

Riadattamento della Testa di Classificazione: PARTIAL-k, MLP-k
Aggiornamento di Sottoinsiemi Parametrici: Adapter, SIDETUNE, BIAS
Trasferimento di Prompt: Average, Single-Best, VPT, SPoT, ATTEMPT, PANDA

Dettagli di Implementazione

Rete di base: ViT-B/16 (pre-addestrato su ImageNet-21k)
Numero di token di prompt: 50
Addestramento dei compiti di fonte: 10 epoch
Dispositivo di calcolo: GPU NVIDIA A800-80GB
Numero di campioni: 2000 campioni per ogni compito di fonte utilizzati per il calcolo della perdita di trasferibilità e allineamento del gradiente

Risultati Sperimentali

Risultati Principali

HGPrompt raggiunge prestazioni SOTA su 13 compiti visivi:

Metodo	CIFAR100	DTD	Flowers102	Pets	SVHN	EuroSAT	Media
PANDA	74,1	61,3	96,5	86,2	71,2	90,8	58,7
HGPrompt	75,9	64,2	98,1	87,4	71,0	92,6	60,3

Accuratezza media del 60,3%, superando tutti i metodi di riferimento
Prestazioni eccezionali su compiti di riconoscimento a grana fine (Flowers102, Pets)
Stabilisce nuovi benchmark su compiti di ragionamento geometrico (sNORB-Azimuth, dSprite-Orientation)

Esperimenti di Ablazione

Analisi del contributo di ogni componente:

H(α)	Lalign	CIFAR	DTD	Pets	EuroSAT	Media
×	×	60,4	57,8	82,7	89,1	72,5
✓	×	74,6	62,3	85,9	91,2	78,5
×	✓	74,1	61,9	85,5	90,8	78,1
✓	✓	75,9	64,2	87,4	92,6	80,0

I risultati mostrano che i due componenti hanno effetti complementari, raggiungendo le migliori prestazioni quando utilizzati congiuntamente.

Analisi dei Pesi

Verifica della qualità dei pesi attraverso il coefficiente di correlazione di rango di Spearman:

Metodo	CIFAR	C-dist	d-Loc	DML	SVHN	Media
SPoT	0,552	0,175	-0,168	0,112	-0,147	0,105
PANDA	0,916	0,441	0,552	0,713	0,224	0,569
HGPrompt	0,944	0,664	0,853	0,727	0,853	0,808

I pesi appresi da HGPrompt mostrano la più alta correlazione con l'accuratezza di trasferimento zero-shot, riflettendo più accuratamente l'affinità semantica tra compiti.

Analisi di Scalabilità

Con l'aumento del numero di prompt di fonte da 3 a 11, HGPrompt dimostra un vantaggio di prestazioni più forte rispetto a PANDA e SPoT, verificando l'efficacia del metodo su insiemi di prompt su larga scala.

Visualizzazione della Rappresentazione

La visualizzazione t-SNE mostra che le caratteristiche generate da HGPrompt hanno una migliore discriminatività di classe, con oggetti della stessa classe che formano raggruppamenti stretti e confini chiari.

Lavori Correlati

Apprendimento di Trasferimento Parametricamente Efficiente

Dominio NLP: Metodi Adapter, BitFit, LoRA ottimizzano l'1-5% dei parametri
Dominio Visivo: VPT introduce token apprendibili, VP esegue perturbazioni a livello di pixel

Stima della Trasferibilità

Metodi Basati sulla Teoria dell'Informazione: H-score, LEEP, LogME valutano la discriminatività delle caratteristiche
Trasporto Ottimale: OTCE misura le differenze dominio-compito

Ottimizzazione Multi-Fonte dei Prompt

Trasferimento Singolo-Compito: SPoT utilizza metriche per predire il miglior compito di fonte, Su et al. enfatizzano il ruolo dell'attivazione neuronale
Impostazione Multi-Compito: ATTEMPT utilizza meccanismi di attenzione per aggregare la conoscenza, PANDA risolve il problema dell'oblio attraverso la distillazione della conoscenza

Conclusioni e Discussione

Conclusioni Principali

HGPrompt realizza l'integrazione ottimale dei prompt attraverso l'ottimizzazione congiunta di H-score e allineamento del gradiente
Le misure basate sulla teoria dell'informazione quantificano più efficacemente la trasferibilità dei prompt rispetto ai metodi euristici
L'abbinamento della varianza del gradiente risolve con successo il problema dell'interferenza dei prompt multi-fonte

Limitazioni

Specificità dell'Architettura: Il lavoro attuale si concentra sull'architettura Transformer, con applicabilità limitata ad altre architetture
Vincoli Modali: Principalmente orientato ai compiti visivi, l'apprendimento multimodale richiede nuovi metodi di progettazione dei prompt
Sovraccarico Computazionale: Richiede il calcolo delle caratteristiche e dei gradienti di più prompt di fonte

Direzioni Future

Estensione a interfacce di prompt generiche indipendenti dall'architettura
Esplorazione della progettazione dei prompt nell'apprendimento multimodale
Ricerca di metodi di valutazione della trasferibilità più efficienti

Valutazione Approfondita

Punti di Forza

Innovazione Teorica: La misura di trasferibilità basata sulla teoria dell'informazione fornisce una base matematica rigorosa
Avanzamento Tecnico: La regolarizzazione di allineamento del gradiente risolve elegantemente il problema dell'interferenza multi-fonte
Valutazione Completa: La valutazione completa su benchmark su larga scala verifica l'efficacia del metodo
Forte Interpretabilità: Il processo di apprendimento dei pesi ha una spiegazione teorica esplicita

Carenze

Profondità dell'Analisi Teorica: Sebbene fornisca una prova di convessità, l'analisi della convergenza e dell'ottimalità non è sufficientemente approfondita
Sensibilità ai Iperparametri: La scelta del parametro λ ha un impatto significativo sulle prestazioni, mancando di meccanismi adattativi
Complessità Computazionale: Manca un'analisi dettagliata della complessità computazionale e della scalabilità del metodo

Impatto

Contributo Accademico: Fornisce un nuovo framework teorico e un metodo pratico per il trasferimento di prompt multi-fonte
Valore Pratico: Ha un'importanza significativa in scenari con risorse limitate
Riproducibilità: Gli autori si impegnano a fornire il codice sorgente, facilitando la diffusione del metodo

Scenari Applicabili

Ambienti con Risorse Limitate: Dispositivi mobili, edge computing e altri scenari
Esigenze di Adattamento Rapido: Applicazioni che richiedono un rapido adattamento a nuovi compiti
Apprendimento Multi-Compito: Scenari che necessitano di sfruttare la conoscenza di più compiti correlati

Bibliografia

L'articolo cita un'ampia letteratura correlata, inclusa:

Apprendimento Parametricamente Efficiente: Houlsby et al. (2019), Hu et al. (2021)
Valutazione della Trasferibilità: Bao et al. (2019), You et al. (2021)
Apprendimento Multi-Compito: Yu et al. (2020), Rame et al. (2022)
Vision Transformer: Dosovitskiy (2020), Jia et al. (2022)

Questo articolo apporta contributi significativi nel campo del trasferimento di prompt visivi multi-fonte, risolvendo i problemi chiave dei metodi esistenti attraverso innovazioni teoriche e avanzamenti tecnici, fornendo nuove direzioni di ricerca per l'apprendimento di trasferimento parametricamente efficiente.