Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer
Zhang, Cao, Wu et al.
Prompt tuning has emerged as a lightweight strategy for adapting foundation models to downstream tasks, particularly for resource-constrained systems. As pre-trained prompts become valuable assets, combining multiple source prompts offers a promising approach to enhance generalization for new tasks by leveraging complementary knowledge. However, naive aggregation often overlooks different source prompts have different contribution potential to the target task. To address this, we propose HGPrompt, a dynamic framework that learns optimal ensemble weights. These weights are optimized by jointly maximizing an information-theoretic metric for transferability and minimizing gradient conflicts via a novel regularization strategy. Specifically, we propose a differentiable prompt transferability metric to captures the discriminability of prompt-induced features on the target task. Meanwhile, HGPrompt match the gradient variances with respect to different source prompts based on Hessian and Fisher Information, ensuring stable and coherent knowledge transfer while suppressing gradient conflicts among them. Extensive experiments on the large-scale VTAB benchmark demonstrate the state-of-the-art performance of HGPrompt, validating its effectiveness in learning an optimal ensemble for effective multi-source prompt transfer.
academic
Обучение оптимальному ансамблю подсказок для многоисточниковой передачи визуальных подсказок
Название: Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer
Авторы: Enming Zhang, Liwen Cao, Yanru Wu, Zijie Zhao, Yang Li (Международный аспирантский институт Университета Цинхуа в Шэньчжэне, Юго-восточный университет)
Классификация: cs.CL (вычислительная лингвистика)
Дата публикации/конференция: препринт arXiv (последняя версия от 15 октября 2025 г.)
В данной работе предлагается фреймворк HGPrompt для задачи многоисточниковой передачи визуальных подсказок. Метод обучает оптимальные весовые коэффициенты путём совместной оптимизации информационно-теоретической меры передаваемости и регуляризационного члена минимизации конфликтов градиентов. Конкретно, предложена дифференцируемая мера передаваемости подсказок для захвата дискриминативности признаков, индуцируемых подсказками на целевой задаче, а также основанное на информации Гессиана и Фишера согласование дисперсии градиентов различных исходных подсказок, обеспечивающее стабильную и согласованную передачу знаний и подавление конфликтов градиентов. Экспериментальная проверка на крупномасштабном эталоне VTAB подтвердила эффективность HGPrompt.
С развитием визуальных фундаментальных моделей настройка подсказок (Prompt Tuning) стала лёгкой стратегией адаптации к задачам нижестоящего уровня. Основная проблема, с которой сталкиваются существующие методы: как эффективно агрегировать несколько исходных подсказок для повышения обобщающей способности на новых задачах.
Требование эффективности ресурсов: полная настройка модели становится нереальной на крупномасштабных предварительно обученных моделях, тогда как настройка подсказок требует обновления только 0,4% параметров для достижения конкурентоспособной производительности
Ценность активов подсказок: предварительно обученные подсказки стали ценными активами знаний, комбинация многоисточниковых подсказок может использовать дополнительные знания
Ограничения существующих методов: простая конкатенация или усреднённая агрегация игнорирует различия в вкладе различных исходных подсказок в целевую задачу, что может привести к коллапсу представления
Предложение фреймворка HGPrompt: первый теоретически обоснованный фреймворк для динамического обучения оптимальных весов подсказок путём оценки передаваемости интегрированных признаков, индуцируемых агрегированными подсказками
Информационно-теоретическая мера передаваемости: дифференцируемая мера передаваемости подсказок на основе H-score, обеспечивающая явное и интерпретируемое количественное определение вклада
Регуляризация выравнивания градиентов: инновационная цель согласования дисперсии градиентов, решающая проблему конфликтов градиентов между многоисточниковыми подсказками
Производительность SOTA: достижение передовой производительности на эталоне VTAB со средней точностью 60,3%
Дано κ исходных задач S = {Sᵢ}ᵏᵢ₌₁ и соответствующие им оптимизированные подсказки {Pᵢ}ᵏᵢ₌₁, целью является построение целевой подсказки Pₜ для новой задачи T путём оптимальной комбинации исходных подсказок. Пусть M ≤ κ — количество выбранных исходных подсказок, весовые коэффициенты α = (α₁,...,αₘ) удовлетворяют ∑ᵢαᵢ = 1 и αᵢ ≥ 0.
Для предварительно обученного Transformer вводятся m обучаемых токенов подсказок P = p₁,...,pₘ ∈ ℝᵐˣᵈ. Для встраивания патчей E(X) ∈ ℝⁿˣᵈ входного изображения X объединённая входная последовательность имеет вид P;E(X) ∈ ℝ⁽ᵐ⁺ⁿ⁾ˣᵈ.
Определение 1: Для входных данных x, метки y и экстрактора признаков f(x) односторонний H-score определяется как:
H(f) = tr(cov(f(X))⁻¹cov(E_P[X|Y][f(X)|Y]))
Эта мера имеет интуитивную интерпретацию: высокий H-score указывает на большую межклассовую дискриминативность cov(Ef(X)|Y) и минимальную избыточность признаков tr(cov(f(X))).
Определение 2: Оптимальные весовые коэффициенты признаков определяются путём максимизации H-score взвешенной суммы признаков:
α* = argmax_α H(∑ⱼαⱼ·fPⱼ) s.t. ∑ⱼαⱼ = 1
Теорема 1: H-score является выпуклой квадратичной формой относительно весовых коэффициентов α, что гарантирует надёжное решение задачи оптимизации.
Интегрированная оценка vs изолированная оценка: в отличие от традиционных методов, независимо оценивающих каждую подсказку, данная работа оценивает общую передаваемость агрегированной подсказки
Теоретическая основа: H-score на основе информационной теории обеспечивает строгую математическую основу, заменяя эвристические методы
Решение конфликтов градиентов: на основе теоретических идей информации Гессиана и Фишера разработано согласование дисперсии градиентов для снижения несогласованности оптимизации
Проверка качества весовых коэффициентов с использованием коэффициента ранговой корреляции Спирмена:
Метод
CIFAR
C-dist
d-Loc
DML
SVHN
Среднее
SPoT
0,552
0,175
-0,168
0,112
-0,147
0,105
PANDA
0,916
0,441
0,552
0,713
0,224
0,569
HGPrompt
0,944
0,664
0,853
0,727
0,853
0,808
Весовые коэффициенты, обучаемые HGPrompt, имеют наивысшую корреляцию с точностью нулевой передачи, более точно отражая семантическое сродство между задачами.
С увеличением количества исходных подсказок с 3 до 11, HGPrompt демонстрирует более сильное преимущество производительности по сравнению с PANDA и SPoT, подтверждая эффективность метода на крупномасштабных наборах подсказок.
Визуализация t-SNE показывает, что признаки, генерируемые HGPrompt, обладают лучшей дискриминативностью классов, объекты одного класса образуют плотные группировки с чёткими границами.
Статья цитирует богатый объём связанных работ, включая:
Параметрически эффективное обучение: Houlsby et al. (2019), Hu et al. (2021)
Оценка передаваемости: Bao et al. (2019), You et al. (2021)
Многозадачное обучение: Yu et al. (2020), Rame et al. (2022)
Визуальные Transformer: Dosovitskiy (2020), Jia et al. (2022)
Данная статья вносит важный вклад в область многоисточниковой передачи визуальных подсказок, решая ключевые проблемы существующих методов посредством теоретических инноваций и технических прорывов, открывая новое направление исследований в параметрически эффективном трансферном обучении.