2025-11-12T07:07:10.309678

Information-Theoretic Criteria for Knowledge Distillation in Multimodal Learning

Xie, Xu, Sanguinetti

The rapid increase in multimodal data availability has sparked significant interest in cross-modal knowledge distillation (KD) techniques, where richer "teacher" modalities transfer information to weaker "student" modalities during model training to improve performance. However, despite successes across various applications, cross-modal KD does not always result in improved outcomes, primarily due to a limited theoretical understanding that could inform practice. To address this gap, we introduce the Cross-modal Complementarity Hypothesis (CCH): we propose that cross-modal KD is effective when the mutual information between teacher and student representations exceeds the mutual information between the student representation and the labels. We theoretically validate the CCH in a joint Gaussian model and further confirm it empirically across diverse multimodal datasets, including image, text, video, audio, and cancer-related omics data. Our study establishes a novel theoretical framework for understanding cross-modal KD and offers practical guidelines based on the CCH criterion to select optimal teacher modalities for improving the performance of weaker modalities.

academic

Информационно-теоретические критерии для дистилляции знаний в мультимодальном обучении

Основная информация

ID статьи: 2510.13182
Название: Information-Theoretic Criteria for Knowledge Distillation in Multimodal Learning
Авторы: Rongrong Xie¹, Yizhou Xu², Guido Sanguinetti¹
Учреждения: ¹SISSA (Международная школа высших исследований, Италия), ²EPFL (Швейцарский федеральный политехнический институт Лозанны)
Классификация: cs.LG (машинное обучение)
Дата публикации: 16 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2510.13182

Аннотация

С быстрым ростом мультимодальных данных кросс-модальная дистилляция знаний (KD) привлекла широкое внимание как техника повышения производительности модели путём передачи информации от информативного модального "учителя" к более слабому модальному "ученику". Однако, несмотря на успех в различных приложениях, кросс-модальная KD не всегда приводит к улучшению производительности, главным образом из-за отсутствия теоретического понимания, направляющего практику. Для решения этой проблемы в статье предлагается гипотеза кросс-модальной дополнительности (CCH): кросс-модальная KD эффективна тогда и только тогда, когда взаимная информация между представлениями учителя и ученика превышает взаимную информацию между представлением ученика и меткой. Исследование теоретически проверяет CCH в модели совместного гауссова распределения и подтверждает её эмпирически на множестве мультимодальных наборов данных, включая изображения, текст, видео, аудио и данные геномики, связанные с раком.

Предпосылки и мотивация исследования

Определение проблемы

Основной вопрос: Когда кросс-модальная дистилляция знаний эффективна? Существующие исследования не имеют теоретической базы для предсказания условий успеха KD
Практические вызовы: Кросс-модальная KD иногда терпит неудачу и даже снижает производительность, но отсутствуют количественные критерии для предварительного определения её целесообразности
Теоретический пробел: Хотя существуют некоторые эмпирические исследования, отсутствует строгая аналитическая база, основанная на теории информации

Значимость исследования

Практическая ценность: В сценариях медицинской диагностики дорогостоящие модальности (например, секвенирование генов) доступны только во время обучения и требуют руководства для обучения дешёвых модальностей
Теоретическое значение: Предоставляет информационно-теоретическую основу для мультимодального обучения, заполняя пробел между теорией и практикой
Широкая применимость: Охватывает множество областей, включая изображения, текст, аудио, видео и биомедицину

Ограничения существующих методов

Главным образом объясняются "модальным разрывом", но отсутствует количественное описание
Предложенные решения (сложные стратегии слияния, специализированные функции потерь) имеют неясную универсальность
Отсутствуют критерии для предварительного определения целесообразности KD

Основные вклады

Предложение гипотезы кросс-модальной дополнительности (CCH): Простой критерий, основанный на взаимной информации, позволяющий предварительно определить успех кросс-модальной KD
Теоретическая проверка: Строгое доказательство валидности CCH в модели совместного гауссова распределения
Широкая эмпирическая проверка: Проверка практичности CCH на синтетических данных, изображениях, тексте, видео, аудио и данных геномики рака
Практическое руководство: Предоставление действенных принципов для выбора эффективных модальностей учителя

Подробное описание методологии

Определение задачи

Даны две модальности X₁ (учитель) и X₂ (ученик), где X₁ имеет более сильную предсказательную способность. Цель состоит в повышении производительности на слабой модальности X₂ посредством кросс-модальной KD. Пусть H₁, H₂ — представления X₁, X₂ соответственно, Y — истинная метка.

Гипотеза кросс-модальной дополнительности (CCH)

Основное предположение: Кросс-модальная дистилляция знаний эффективна тогда и только тогда, когда I(H₁;H₂) > I(H₂;Y).

Интуитивное объяснение:

I(H₁;H₂): взаимная информация между представлениями учителя и ученика, измеряющая информационное перекрытие между модальностями
I(H₂;Y): взаимная информация между представлением ученика и меткой, измеряющая предсказательную способность ученика
Когда первая превышает вторую, учитель может предоставить дополнительную информацию, связанную с меткой, которой не хватает ученику

Теоретический анализ

Модель совместного гауссова распределения

Предположим, что данные {(x₁ᵢ, x₂ᵢ, yᵢ)}ⁿᵢ₌₁ подчиняются совместному гауссову распределению:

[x₁ᵢ]     [  Σ₁₁  Σ₁₂  Σ₁₃ ]
[x₂ᵢ] ~ N([0], [Σ₁₂ᵀ  Σ₂₂  Σ₂₃])
[yᵢ ]     [Σ₁₃ᵀ  Σ₂₃ᵀ  Σ₃₃ ]

Кросс-модальная целевая функция

Цель обучения сети ученика:

ŵ = argmin Σᵢ ||yᵢ - w₂ᵀx₂ᵢ||² + λΣᵢ ||w₂ᵀx₂ᵢ - w₁ᵀx₁ᵢ||²

Основная теорема

Теорема 1: При мягких предположениях, если I(w₁ᵀx₁, (w*)ᵀx₂) > I((w*)ᵀx₂, y), то для достаточно малого λ имеет место R(λ,w₁) < R₀ (т.е. KD превосходит базовый уровень без KD).

Технические инновации

Информационно-теоретический подход: Впервые используется взаимная информация для количественного описания условий успеха кросс-модальной KD
Теоретические гарантии: Предоставляет строгий анализ при гауссовых предположениях
Практический критерий: Предоставляет вычислимый критерий предварительного определения без необходимости фактического обучения

Экспериментальная установка

Наборы данных

Синтетические данные: Контролируемые задачи гауссовой регрессии, n=10000, p=100
Данные изображений: MNIST (учитель) → MNIST-M (ученик)
Мультимодальные данные: Набор данных CMU-MOSEI для анализа эмоций (текст, визуальные данные, аудио)
Данные о раке: Когорты BRCA, KIPAN, LIHC набора данных TCGA (mRNA, CNV, RPPA)

Метрики оценки

Задачи регрессии: Среднеквадратичная ошибка (MSE)
Задачи классификации: Точность, взвешенный F1-показатель, AUC
Оценка взаимной информации: Использование трёх оценивателей: latentmi, MINE, KSG

Методы сравнения

KD vs без KD модели ученика
Прямое слияние vs слияние+KD
Сравнение различных модальностей учителя

Детали реализации

Архитектура сети: Учитель и ученик используют одинаковую архитектуру для изоляции влияния взаимной информации
Оптимизаторы: Adam (синтетические данные), SGD (изображения), AdamW (MOSEI)
Гиперпараметры: Температура T∈{1,2,3,4}, вес дистилляции λ∈{0.2,0.3,0.5,0.7,0.8}

Результаты экспериментов

Основные результаты

Проверка на синтетических данных

Ключевые находки: Когда I(H₁;H₂) > I(H₂;Y), KD значительно снижает MSE; в противном случае улучшений не наблюдается
Влияние параметров: Одна и та же закономерность наблюдается при различных значениях λ
Теоретическая согласованность: Результаты экспериментов полностью соответствуют теореме 1

Эксперименты с данными изображений

MNIST→MNIST-M: Контроль качества учителя посредством гауссова размытия
Проверка CCH: Улучшение точности строго соответствует условию взаимной информации I(H₁;H₂) > I(H₂;Y)
Производительность: При выполнении CCH точность повышается на 0.01-0.035, при нарушении снижается на 0.12-0.46

Мультимодальные эксперименты CMU-MOSEI

Ранжирование модальностей: Текст > Аудио > Визуальные данные (по I(H;Y))
Эффект KD: Текст→Визуальные данные (повышение точности на 1.1%), Текст→Аудио (повышение точности на 2.3%)
Эксперименты с шумом: Введение шума в учителя для проверки граничных условий CCH

Анализ данных о раке

Три набора данных: BRCA, KIPAN, LIHC
Согласованные результаты: Условие CCH идеально соответствует эффекту KD во всех наборах данных
Стратегия слияния: При выполнении CCH слияние+KD превосходит прямое слияние

Абляционные исследования

Параметр температуры T: Робастность условия CCH при различных температурах
Вес дистилляции λ: Теоретические предсказания более точны при малых значениях λ
Уровень шума: Систематическое снижение качества учителя для проверки границы CCH
Оцениватели взаимной информации: Три оценивателя дают согласованное относительное ранжирование

Ключевые находки

Универсальность CCH: Эффект KD идеально соответствует условию CCH во всех экспериментах
Нелинейные отношения: Точность ученика показывает нелинейный отклик на разницу взаимной информации
Робастность оценивателей: Различные оцениватели MI дают согласованные выводы
Практическая ценность: CCH может служить практическим критерием для выбора модальности учителя

Связанные работы

Основы дистилляции знаний

Классическая KD: Метод мягких меток с температурой Хинтона и др.
Кросс-модальные расширения: Обобщение KD на передачу знаний между гетерогенными модальностями

Проблема модального разрыва

Основные вызовы: Модальный дисбаланс и смещение мягких меток
Существующие решения: Сложные стратегии слияния, специализированные функции потерь
Ограничения: Отсутствие теоретического руководства и универсальности

Теоретические исследования

Привилегированная информация: Теоретическая база Вапника и др.
Обобщённая дистилляция: Анализ сложности выборки Лопеса-Паса и др.
Эмпирические исследования: Предположения Сюэ и др. о совместном использовании информации, связанной с меткой

Преимущества данной работы

По сравнению с существующими работами, данная статья впервые предоставляет количественный критерий, основанный на взаимной информации, с теоретическими гарантиями и широкой применимостью.

Заключение и обсуждение

Основные выводы

Эффективность CCH: Критерий взаимной информации может точно предсказать успех кросс-модальной KD
Теоретическая основа: Предоставляет строгое доказательство в модели совместного гауссова распределения
Практическая ценность: Предоставляет действенные принципы проектирования для мультимодального обучения
Широкая применимость: Проверена эффективность на множестве модальностей и задач

Ограничения

Теоретические предположения: Строгое доказательство справедливо только при гауссовых предположениях
Оценка MI: Оценка взаимной информации для высокомерных данных остаётся сложной задачей
Ограничения архитектуры: В экспериментах учитель и ученик используют одинаковую архитектуру
Вычислительные затраты: Требуется дополнительное вычисление взаимной информации

Направления будущих исследований

Теоретические расширения: Обобщение на негауссовы распределения и более сложные модели
Эффективная оценка: Разработка более точных методов оценки взаимной информации для высокомерных данных
Исследование архитектур: Изучение применимости CCH при различных архитектурах
Расширение приложений: Проверка практичности CCH в большем количестве областей

Глубокая оценка

Достоинства

Теоретическая инновация: Впервые предложена теоретическая база кросс-модальной KD, основанная на теории информации
Строгость: Предоставляет математические доказательства и широкую экспериментальную проверку
Практичность: Критерий CCH прост в использовании и имеет практическую ценность
Полнота: Систематическое исследование, охватывающее множество модальностей, задач и наборов данных
Воспроизводимость: Предоставляет подробные экспериментальные установки и код

Недостатки

Теоретические ограничения: Строгая теория применима только к гауссовому случаю, реальные данные часто не удовлетворяют этому условию
Вызовы оценки MI: Проблемы точности и вычислительной эффективности оценки взаимной информации в высоких размерностях
Ограничения архитектуры: Экспериментальный дизайн использует одинаковую архитектуру для изоляции влияния MI, что ограничивает практическую применимость
Граничные эффекты: Поведение вблизи условия CCH может быть нестабильным

Влияние

Теоретический вклад: Предоставляет новую теоретическую перспективу для мультимодального обучения
Практическое руководство: Предоставляет конкретные принципы проектирования для инженерных приложений
Исследовательское вдохновение: Может стимулировать дальнейшие исследования, основанные на теории информации в мультимодальном обучении
Кросс-дисциплинарная ценность: Имеет потенциал применения в медицине, компьютерном зрении, обработке естественного языка и других областях

Применимые сценарии

Медицинская диагностика: Дорогостоящие обследования направляют обучение обычных обследований
Мультимодальное слияние: Выбор оптимальной модальности учителя для передачи знаний
Вывод с ограниченными ресурсами: Использование богатых модальностей во время обучения, простых модальностей при выводе
Кросс-доменная адаптация: Передача знаний между различными модальностями

Библиография

Статья ссылается на важные работы в областях дистилляции знаний, мультимодального обучения и теории информации, включая:

Hinton et al. (2015) — классическая статья о дистилляции знаний
Vapnik & Vashist (2009) — теория привилегированной информации
Lopez-Paz et al. (2015) — база обобщённой дистилляции
А также соответствующую литературу по мультимодальным наборам данных и методам оценки

Общая оценка: Это высококачественная исследовательская работа, сочетающая теорию и практику, предоставляющая важные теоретические инсайты и практическое руководство для кросс-модальной дистилляции знаний. Гипотеза CCH проста и элегантна, экспериментальная проверка полна, работа имеет значительную академическую и практическую ценность.