Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer
Zhang, Cao, Wu et al.
Prompt tuning has emerged as a lightweight strategy for adapting foundation models to downstream tasks, particularly for resource-constrained systems. As pre-trained prompts become valuable assets, combining multiple source prompts offers a promising approach to enhance generalization for new tasks by leveraging complementary knowledge. However, naive aggregation often overlooks different source prompts have different contribution potential to the target task. To address this, we propose HGPrompt, a dynamic framework that learns optimal ensemble weights. These weights are optimized by jointly maximizing an information-theoretic metric for transferability and minimizing gradient conflicts via a novel regularization strategy. Specifically, we propose a differentiable prompt transferability metric to captures the discriminability of prompt-induced features on the target task. Meanwhile, HGPrompt match the gradient variances with respect to different source prompts based on Hessian and Fisher Information, ensuring stable and coherent knowledge transfer while suppressing gradient conflicts among them. Extensive experiments on the large-scale VTAB benchmark demonstrate the state-of-the-art performance of HGPrompt, validating its effectiveness in learning an optimal ensemble for effective multi-source prompt transfer.
academic
Apprendimento dell'Insieme Ottimale di Prompt per il Trasferimento di Prompt Visivi Multi-Fonte
Titolo: Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer
Autori: Enming Zhang, Liwen Cao, Yanru Wu, Zijie Zhao, Yang Li (Scuola Internazionale di Dottorato dell'Università di Tsinghua a Shenzhen, Università del Sudest)
Questo articolo propone il framework HGPrompt per il compito di trasferimento di prompt visivi multi-fonte. Il metodo apprende i pesi di insieme ottimali attraverso l'ottimizzazione congiunta di una misura di trasferibilità basata sulla teoria dell'informazione e di un termine di regolarizzazione che minimizza i conflitti di gradiente. Nello specifico, propone una misura di trasferibilità di prompt differenziabile per catturare la discriminatività delle caratteristiche indotte dai prompt sul compito target, mentre abbina la varianza del gradiente dei prompt di diverse fonti basandosi sulle informazioni di Hessian e Fisher, garantendo un trasferimento di conoscenza stabile e coerente e sopprimendo i conflitti di gradiente. Gli esperimenti sul benchmark VTAB su larga scala verificano l'efficacia di HGPrompt.
Con lo sviluppo dei modelli di base visivi, l'ottimizzazione dei prompt (Prompt Tuning) è diventata una strategia leggera per adattarsi ai compiti a valle. Il problema centrale affrontato dai metodi esistenti è: come aggregare efficacemente più prompt di fonte per migliorare la capacità di generalizzazione su nuovi compiti.
Esigenza di Efficienza Risorse: L'ottimizzazione completa del modello diventa impraticabile su modelli pre-addestrati su larga scala, mentre l'ottimizzazione dei prompt richiede solo l'aggiornamento dello 0,4% dei parametri per ottenere prestazioni competitive
Valore degli Asset di Prompt: I prompt pre-addestrati sono diventati asset di conoscenza preziosi, e la combinazione di prompt multi-fonte può sfruttare conoscenze complementari
Limitazioni dei Metodi Esistenti: L'aggregazione semplice mediante concatenazione o media ignora le differenze nel contributo dei diversi prompt di fonte al compito target, potendo causare il collasso della rappresentazione
Propone il Framework HGPrompt: Il primo framework teoricamente affidabile che apprende dinamicamente i pesi ottimali dei prompt, valutando la trasferibilità dell'insieme di caratteristiche indotte dai prompt aggregati
Misura di Trasferibilità Basata sulla Teoria dell'Informazione: Una misura di trasferibilità dei prompt differenziabile basata su H-score, fornendo una quantificazione esplicita e interpretabile dei contributi
Regolarizzazione di Allineamento del Gradiente: Un innovativo obiettivo di abbinamento della varianza del gradiente che risolve il problema dei conflitti di gradiente tra prompt multi-fonte
Prestazioni SOTA: Raggiunge prestazioni all'avanguardia sul benchmark VTAB, con accuratezza media del 60,3%
Dati κ compiti di fonte S = {Sᵢ}ᵏᵢ₌₁ e i loro corrispondenti prompt ottimizzati {Pᵢ}ᵏᵢ₌₁, l'obiettivo è costruire il prompt target Pₜ per un nuovo compito T attraverso la combinazione ottimale dei prompt di fonte. Sia M ≤ κ il numero di prompt di fonte selezionati, con pesi α = (α₁,...,αₘ) che soddisfano ∑ᵢαᵢ = 1 e αᵢ ≥ 0.
Per un Transformer pre-addestrato, si introducono m token di prompt apprendibili P = p₁,...,pₘ ∈ Rᵐˣᵈ. Data l'incorporamento dei patch dell'immagine di input X, E(X) ∈ Rⁿˣᵈ, la sequenza di input combinata è P;E(X) ∈ R⁽ᵐ⁺ⁿ⁾ˣᵈ.
Definizione 1: Dati i dati di input x, l'etichetta y e l'estrattore di caratteristiche f(x), l'H-score unilaterale è definito come:
H(f) = tr(cov(f(X))⁻¹cov(E_PX|Y[f(X)|Y]))
Questa misura ha un'interpretazione intuitiva: un H-score elevato indica una maggiore discriminatività tra classi cov(Ef(X)|Y) e una ridondanza minima delle caratteristiche tr(cov(f(X))).
Definizione 2: I pesi ottimali delle caratteristiche sono determinati massimizzando l'H-score della somma ponderata delle caratteristiche:
α* = argmax_α H(∑ⱼαⱼ·fPⱼ) s.t. ∑ⱼαⱼ = 1
Teorema 1: L'H-score è una forma quadratica convessa nei pesi α, garantendo la risoluzione affidabile del problema di ottimizzazione.
Per risolvere il problema dell'interferenza di gradiente nell'aggregazione multi-prompt, si propone un obiettivo di abbinamento della varianza del gradiente:
Calcolo del gradiente per ogni prompt di fonte Pᵢ:
Valutazione dell'Insieme vs Valutazione Isolata: Diversamente dai metodi tradizionali che valutano indipendentemente ogni prompt, questo articolo valuta la trasferibilità complessiva del prompt aggregato
Fondamenti Teorici: La misura H-score basata sulla teoria dell'informazione fornisce una base matematica rigorosa, sostituendo i metodi euristici
Risoluzione dei Conflitti di Gradiente: Attraverso intuizioni teoriche sulle informazioni di Hessian e Fisher, si progetta l'abbinamento della varianza del gradiente per ridurre l'incoerenza nell'ottimizzazione
Verifica della qualità dei pesi attraverso il coefficiente di correlazione di rango di Spearman:
Metodo
CIFAR
C-dist
d-Loc
DML
SVHN
Media
SPoT
0,552
0,175
-0,168
0,112
-0,147
0,105
PANDA
0,916
0,441
0,552
0,713
0,224
0,569
HGPrompt
0,944
0,664
0,853
0,727
0,853
0,808
I pesi appresi da HGPrompt mostrano la più alta correlazione con l'accuratezza di trasferimento zero-shot, riflettendo più accuratamente l'affinità semantica tra compiti.
Con l'aumento del numero di prompt di fonte da 3 a 11, HGPrompt dimostra un vantaggio di prestazioni più forte rispetto a PANDA e SPoT, verificando l'efficacia del metodo su insiemi di prompt su larga scala.
La visualizzazione t-SNE mostra che le caratteristiche generate da HGPrompt hanno una migliore discriminatività di classe, con oggetti della stessa classe che formano raggruppamenti stretti e confini chiari.
Trasferimento Singolo-Compito: SPoT utilizza metriche per predire il miglior compito di fonte, Su et al. enfatizzano il ruolo dell'attivazione neuronale
Impostazione Multi-Compito: ATTEMPT utilizza meccanismi di attenzione per aggregare la conoscenza, PANDA risolve il problema dell'oblio attraverso la distillazione della conoscenza
Profondità dell'Analisi Teorica: Sebbene fornisca una prova di convessità, l'analisi della convergenza e dell'ottimalità non è sufficientemente approfondita
Sensibilità ai Iperparametri: La scelta del parametro λ ha un impatto significativo sulle prestazioni, mancando di meccanismi adattativi
Complessità Computazionale: Manca un'analisi dettagliata della complessità computazionale e della scalabilità del metodo
L'articolo cita un'ampia letteratura correlata, inclusa:
Apprendimento Parametricamente Efficiente: Houlsby et al. (2019), Hu et al. (2021)
Valutazione della Trasferibilità: Bao et al. (2019), You et al. (2021)
Apprendimento Multi-Compito: Yu et al. (2020), Rame et al. (2022)
Vision Transformer: Dosovitskiy (2020), Jia et al. (2022)
Questo articolo apporta contributi significativi nel campo del trasferimento di prompt visivi multi-fonte, risolvendo i problemi chiave dei metodi esistenti attraverso innovazioni teoriche e avanzamenti tecnici, fornendo nuove direzioni di ricerca per l'apprendimento di trasferimento parametricamente efficiente.