2025-11-21T00:49:15.710789

Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer

Zhang, Cao, Wu et al.

Prompt tuning has emerged as a lightweight strategy for adapting foundation models to downstream tasks, particularly for resource-constrained systems. As pre-trained prompts become valuable assets, combining multiple source prompts offers a promising approach to enhance generalization for new tasks by leveraging complementary knowledge. However, naive aggregation often overlooks different source prompts have different contribution potential to the target task. To address this, we propose HGPrompt, a dynamic framework that learns optimal ensemble weights. These weights are optimized by jointly maximizing an information-theoretic metric for transferability and minimizing gradient conflicts via a novel regularization strategy. Specifically, we propose a differentiable prompt transferability metric to captures the discriminability of prompt-induced features on the target task. Meanwhile, HGPrompt match the gradient variances with respect to different source prompts based on Hessian and Fisher Information, ensuring stable and coherent knowledge transfer while suppressing gradient conflicts among them. Extensive experiments on the large-scale VTAB benchmark demonstrate the state-of-the-art performance of HGPrompt, validating its effectiveness in learning an optimal ensemble for effective multi-source prompt transfer.

academic

Обучение оптимальному ансамблю подсказок для многоисточниковой передачи визуальных подсказок

Основная информация

ID статьи: 2504.12311
Название: Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer
Авторы: Enming Zhang, Liwen Cao, Yanru Wu, Zijie Zhao, Yang Li (Международный аспирантский институт Университета Цинхуа в Шэньчжэне, Юго-восточный университет)
Классификация: cs.CL (вычислительная лингвистика)
Дата публикации/конференция: препринт arXiv (последняя версия от 15 октября 2025 г.)
Ссылка на статью: https://arxiv.org/abs/2504.12311v5

Аннотация

В данной работе предлагается фреймворк HGPrompt для задачи многоисточниковой передачи визуальных подсказок. Метод обучает оптимальные весовые коэффициенты путём совместной оптимизации информационно-теоретической меры передаваемости и регуляризационного члена минимизации конфликтов градиентов. Конкретно, предложена дифференцируемая мера передаваемости подсказок для захвата дискриминативности признаков, индуцируемых подсказками на целевой задаче, а также основанное на информации Гессиана и Фишера согласование дисперсии градиентов различных исходных подсказок, обеспечивающее стабильную и согласованную передачу знаний и подавление конфликтов градиентов. Экспериментальная проверка на крупномасштабном эталоне VTAB подтвердила эффективность HGPrompt.

Исследовательский контекст и мотивация

Определение проблемы

С развитием визуальных фундаментальных моделей настройка подсказок (Prompt Tuning) стала лёгкой стратегией адаптации к задачам нижестоящего уровня. Основная проблема, с которой сталкиваются существующие методы: как эффективно агрегировать несколько исходных подсказок для повышения обобщающей способности на новых задачах.

Исследовательская мотивация

Требование эффективности ресурсов: полная настройка модели становится нереальной на крупномасштабных предварительно обученных моделях, тогда как настройка подсказок требует обновления только 0,4% параметров для достижения конкурентоспособной производительности
Ценность активов подсказок: предварительно обученные подсказки стали ценными активами знаний, комбинация многоисточниковых подсказок может использовать дополнительные знания
Ограничения существующих методов: простая конкатенация или усреднённая агрегация игнорирует различия в вкладе различных исходных подсказок в целевую задачу, что может привести к коллапсу представления

Основные вызовы

Традиционные методы оценивают передаваемость каждой подсказки изолированно, игнорируя взаимозависимости между подсказками
Отсутствие теоретической основы эвристических методов (например, расчёт сходства параметров)
Градиентные помехи, вводимые многоподсказочной агрегацией, приводят к нестабильности оптимизации

Основные вклады

Предложение фреймворка HGPrompt: первый теоретически обоснованный фреймворк для динамического обучения оптимальных весов подсказок путём оценки передаваемости интегрированных признаков, индуцируемых агрегированными подсказками
Информационно-теоретическая мера передаваемости: дифференцируемая мера передаваемости подсказок на основе H-score, обеспечивающая явное и интерпретируемое количественное определение вклада
Регуляризация выравнивания градиентов: инновационная цель согласования дисперсии градиентов, решающая проблему конфликтов градиентов между многоисточниковыми подсказками
Производительность SOTA: достижение передовой производительности на эталоне VTAB со средней точностью 60,3%

Подробное описание метода

Определение задачи

Дано κ исходных задач S = {Sᵢ}ᵏᵢ₌₁ и соответствующие им оптимизированные подсказки {Pᵢ}ᵏᵢ₌₁, целью является построение целевой подсказки Pₜ для новой задачи T путём оптимальной комбинации исходных подсказок. Пусть M ≤ κ — количество выбранных исходных подсказок, весовые коэффициенты α = (α₁,...,αₘ) удовлетворяют ∑ᵢαᵢ = 1 и αᵢ ≥ 0.

Архитектура модели

1. Основы визуальной настройки подсказок

Для предварительно обученного Transformer вводятся m обучаемых токенов подсказок P = p₁,...,pₘ ∈ ℝᵐˣᵈ. Для встраивания патчей E(X) ∈ ℝⁿˣᵈ входного изображения X объединённая входная последовательность имеет вид P;E(X) ∈ ℝ⁽ᵐ⁺ⁿ⁾ˣᵈ.

Вероятность предсказания:

Prθ(Y|X;P) = exp(fY([P;E(X)];θ)) / ∑ᶜᵢ₌₁exp(fᵢ([P;E(X)];θ))

2. Мера передаваемости H-score

Определение 1: Для входных данных x, метки y и экстрактора признаков f(x) односторонний H-score определяется как:

H(f) = tr(cov(f(X))⁻¹cov(E_P[X|Y][f(X)|Y]))

Эта мера имеет интуитивную интерпретацию: высокий H-score указывает на большую межклассовую дискриминативность cov(Ef(X)|Y) и минимальную избыточность признаков tr(cov(f(X))).

Определение 2: Оптимальные весовые коэффициенты признаков определяются путём максимизации H-score взвешенной суммы признаков:

α* = argmax_α H(∑ⱼαⱼ·fPⱼ) s.t. ∑ⱼαⱼ = 1

Теорема 1: H-score является выпуклой квадратичной формой относительно весовых коэффициентов α, что гарантирует надёжное решение задачи оптимизации.

3. Регуляризация выравнивания градиентов

Для решения проблемы градиентных помех при агрегации многих подсказок предложена цель согласования дисперсии градиентов:

Расчёт градиента для каждой исходной подсказки Pᵢ:

gᵢ = ∇Pᵢ L(fθ([x₀;Pᵢ;E(X)]), y)

Дисперсия градиента:

vᵢ = Var(G) = 1/(N-1) ∑ⱼ(gⁱⱼ - gᵅⱼ)²

Регуляризационный член:

Lalign(α) = 1/M ∑ᵢ||vᵢ - v̄(α)||²₂

Общая целевая функция:

L(α) = -H(α) + λLalign(α)

Технические инновации

Интегрированная оценка vs изолированная оценка: в отличие от традиционных методов, независимо оценивающих каждую подсказку, данная работа оценивает общую передаваемость агрегированной подсказки
Теоретическая основа: H-score на основе информационной теории обеспечивает строгую математическую основу, заменяя эвристические методы
Решение конфликтов градиентов: на основе теоретических идей информации Гессиана и Фишера разработано согласование дисперсии градиентов для снижения несогласованности оптимизации

Экспериментальная установка

Наборы данных

Используется эталон VTAB-1k, состоящий из 13 наборов данных, охватывающих три категории задач:

Natural: изображения, полученные обычными камерами (например, CIFAR100, Flowers102, Pets)
Specialized: данные, полученные специализированными устройствами (например, спутниковые изображения EuroSAT)
Structured: требующие пространственного рассуждения (например, задача подсчёта CLEVR)

Метрики оценки

В качестве основной метрики оценки используется точность классификации, результаты представляют собой среднее значение трёх независимых прогонов.

Методы сравнения

Включает 11 базовых методов:

Переобучение классификационной головки: PARTIAL-k, MLP-k
Обновление подмножества параметров: Adapter, SIDETUNE, BIAS
Передача подсказок: Average, Single-Best, VPT, SPoT, ATTEMPT, PANDA

Детали реализации

Основная сеть: ViT-B/16 (предварительно обучена на ImageNet-21k)
Количество токенов подсказок: 50
Обучение на исходных задачах: 10 эпох
Вычислительное устройство: GPU NVIDIA A800-80GB
Количество образцов: 2000 образцов на каждую исходную задачу для расчёта потерь передаваемости и выравнивания градиентов

Результаты экспериментов

Основные результаты

HGPrompt достигает производительности SOTA на 13 визуальных задачах:

Метод	CIFAR100	DTD	Flowers102	Pets	SVHN	EuroSAT	Среднее
PANDA	74,1	61,3	96,5	86,2	71,2	90,8	58,7
HGPrompt	75,9	64,2	98,1	87,4	71,0	92,6	60,3

Средняя точность 60,3%, превосходящая все базовые методы
Выдающаяся производительность на задачах тонкозернистого распознавания (Flowers102, Pets)
Установление новых эталонов на задачах геометрического рассуждения (sNORB-Azimuth, dSprite-Orientation)

Абляционные эксперименты

Анализ вклада каждого компонента:

H(α)	Lalign	CIFAR	DTD	Pets	EuroSAT	Среднее
×	×	60,4	57,8	82,7	89,1	72,5
✓	×	74,6	62,3	85,9	91,2	78,5
×	✓	74,1	61,9	85,5	90,8	78,1
✓	✓	75,9	64,2	87,4	92,6	80,0

Результаты показывают, что оба компонента имеют дополняющий эффект, совместное использование достигает оптимальной производительности.

Анализ весовых коэффициентов

Проверка качества весовых коэффициентов с использованием коэффициента ранговой корреляции Спирмена:

Метод	CIFAR	C-dist	d-Loc	DML	SVHN	Среднее
SPoT	0,552	0,175	-0,168	0,112	-0,147	0,105
PANDA	0,916	0,441	0,552	0,713	0,224	0,569
HGPrompt	0,944	0,664	0,853	0,727	0,853	0,808

Весовые коэффициенты, обучаемые HGPrompt, имеют наивысшую корреляцию с точностью нулевой передачи, более точно отражая семантическое сродство между задачами.

Анализ масштабируемости

С увеличением количества исходных подсказок с 3 до 11, HGPrompt демонстрирует более сильное преимущество производительности по сравнению с PANDA и SPoT, подтверждая эффективность метода на крупномасштабных наборах подсказок.

Визуализация представлений

Визуализация t-SNE показывает, что признаки, генерируемые HGPrompt, обладают лучшей дискриминативностью классов, объекты одного класса образуют плотные группировки с чёткими границами.

Связанные работы

Параметрически эффективное трансферное обучение

Область NLP: методы Adapter, BitFit, LoRA настраивают 1-5% параметров
Область компьютерного зрения: VPT вводит обучаемые токены, VP выполняет пиксельные возмущения

Оценка передаваемости

Информационно-теоретические методы: H-score, LEEP, LogME оценивают дискриминативность признаков
Оптимальный транспорт: OTCE измеряет различие домен-задача

Многоисточниковая настройка подсказок

Передача одной задачи: SPoT использует метрику для предсказания лучшей исходной задачи, Su и др. подчёркивают роль активации нейронов
Многозадачная установка: ATTEMPT использует механизм внимания для агрегации знаний, PANDA решает проблему забывания через дистилляцию знаний

Заключение и обсуждение

Основные выводы

HGPrompt достигает оптимальной интеграции подсказок путём совместной оптимизации H-score и выравнивания градиентов
Информационно-теоретическая мера более эффективно количественно определяет передаваемость подсказок, чем эвристические методы
Согласование дисперсии градиентов успешно решает проблему помех многоисточниковых подсказок

Ограничения

Специфичность архитектуры: текущая работа сосредоточена на архитектуре Transformer, применимость к другим архитектурам ограничена
Модальные ограничения: в основном ориентирована на визуальные задачи, многомодальное обучение требует новых методов проектирования подсказок
Вычислительные затраты: требует расчёта признаков и градиентов для нескольких исходных подсказок

Направления будущих исследований

Расширение на архитектурно-независимые универсальные интерфейсы подсказок
Исследование проектирования подсказок в многомодальном обучении
Разработка более эффективных методов оценки передаваемости

Глубокая оценка

Преимущества

Теоретическая инновация: информационно-теоретическая мера передаваемости обеспечивает строгую математическую основу
Передовая техника: регуляризация выравнивания градиентов ловко решает проблему многоисточниковых помех
Полные эксперименты: всесторонняя оценка на крупномасштабных эталонах подтверждает эффективность метода
Сильная интерпретируемость: процесс обучения весовых коэффициентов имеет явное теоретическое объяснение

Недостатки

Глубина теоретического анализа: хотя предоставлено доказательство выпуклости, анализ сходимости и оптимальности недостаточно глубок
Чувствительность к гиперпараметрам: выбор параметра λ значительно влияет на производительность, отсутствует адаптивный механизм
Сложность вычислений: недостаточно подробный анализ вычислительной сложности и масштабируемости метода

Влияние

Академический вклад: предоставляет новый теоретический фреймворк и практический метод для многоисточниковой передачи подсказок
Практическая ценность: имеет важное прикладное значение в сценариях с ограниченными ресурсами
Воспроизводимость: авторы обещают предоставить исходный код, что способствует распространению метода

Применимые сценарии

Среды с ограниченными ресурсами: мобильные устройства, граничные вычисления и т.д.
Требования быстрой адаптации: приложения, требующие быстрой адаптации к новым задачам
Многозадачное обучение: сценарии, требующие использования знаний из нескольких связанных задач

Библиография

Статья цитирует богатый объём связанных работ, включая:

Параметрически эффективное обучение: Houlsby et al. (2019), Hu et al. (2021)
Оценка передаваемости: Bao et al. (2019), You et al. (2021)
Многозадачное обучение: Yu et al. (2020), Rame et al. (2022)
Визуальные Transformer: Dosovitskiy (2020), Jia et al. (2022)

Данная статья вносит важный вклад в область многоисточниковой передачи визуальных подсказок, решая ключевые проблемы существующих методов посредством теоретических инноваций и технических прорывов, открывая новое направление исследований в параметрически эффективном трансферном обучении.