2025-11-12T07:07:10.309678

Information-Theoretic Criteria for Knowledge Distillation in Multimodal Learning

Xie, Xu, Sanguinetti
The rapid increase in multimodal data availability has sparked significant interest in cross-modal knowledge distillation (KD) techniques, where richer "teacher" modalities transfer information to weaker "student" modalities during model training to improve performance. However, despite successes across various applications, cross-modal KD does not always result in improved outcomes, primarily due to a limited theoretical understanding that could inform practice. To address this gap, we introduce the Cross-modal Complementarity Hypothesis (CCH): we propose that cross-modal KD is effective when the mutual information between teacher and student representations exceeds the mutual information between the student representation and the labels. We theoretically validate the CCH in a joint Gaussian model and further confirm it empirically across diverse multimodal datasets, including image, text, video, audio, and cancer-related omics data. Our study establishes a novel theoretical framework for understanding cross-modal KD and offers practical guidelines based on the CCH criterion to select optimal teacher modalities for improving the performance of weaker modalities.
academic

Информационно-теоретические критерии для дистилляции знаний в мультимодальном обучении

Основная информация

  • ID статьи: 2510.13182
  • Название: Information-Theoretic Criteria for Knowledge Distillation in Multimodal Learning
  • Авторы: Rongrong Xie¹, Yizhou Xu², Guido Sanguinetti¹
  • Учреждения: ¹SISSA (Международная школа высших исследований, Италия), ²EPFL (Швейцарский федеральный политехнический институт Лозанны)
  • Классификация: cs.LG (машинное обучение)
  • Дата публикации: 16 октября 2025 г.
  • Ссылка на статью: https://arxiv.org/abs/2510.13182

Аннотация

С быстрым ростом мультимодальных данных кросс-модальная дистилляция знаний (KD) привлекла широкое внимание как техника повышения производительности модели путём передачи информации от информативного модального "учителя" к более слабому модальному "ученику". Однако, несмотря на успех в различных приложениях, кросс-модальная KD не всегда приводит к улучшению производительности, главным образом из-за отсутствия теоретического понимания, направляющего практику. Для решения этой проблемы в статье предлагается гипотеза кросс-модальной дополнительности (CCH): кросс-модальная KD эффективна тогда и только тогда, когда взаимная информация между представлениями учителя и ученика превышает взаимную информацию между представлением ученика и меткой. Исследование теоретически проверяет CCH в модели совместного гауссова распределения и подтверждает её эмпирически на множестве мультимодальных наборов данных, включая изображения, текст, видео, аудио и данные геномики, связанные с раком.

Предпосылки и мотивация исследования

Определение проблемы

  1. Основной вопрос: Когда кросс-модальная дистилляция знаний эффективна? Существующие исследования не имеют теоретической базы для предсказания условий успеха KD
  2. Практические вызовы: Кросс-модальная KD иногда терпит неудачу и даже снижает производительность, но отсутствуют количественные критерии для предварительного определения её целесообразности
  3. Теоретический пробел: Хотя существуют некоторые эмпирические исследования, отсутствует строгая аналитическая база, основанная на теории информации

Значимость исследования

  • Практическая ценность: В сценариях медицинской диагностики дорогостоящие модальности (например, секвенирование генов) доступны только во время обучения и требуют руководства для обучения дешёвых модальностей
  • Теоретическое значение: Предоставляет информационно-теоретическую основу для мультимодального обучения, заполняя пробел между теорией и практикой
  • Широкая применимость: Охватывает множество областей, включая изображения, текст, аудио, видео и биомедицину

Ограничения существующих методов

  • Главным образом объясняются "модальным разрывом", но отсутствует количественное описание
  • Предложенные решения (сложные стратегии слияния, специализированные функции потерь) имеют неясную универсальность
  • Отсутствуют критерии для предварительного определения целесообразности KD

Основные вклады

  1. Предложение гипотезы кросс-модальной дополнительности (CCH): Простой критерий, основанный на взаимной информации, позволяющий предварительно определить успех кросс-модальной KD
  2. Теоретическая проверка: Строгое доказательство валидности CCH в модели совместного гауссова распределения
  3. Широкая эмпирическая проверка: Проверка практичности CCH на синтетических данных, изображениях, тексте, видео, аудио и данных геномики рака
  4. Практическое руководство: Предоставление действенных принципов для выбора эффективных модальностей учителя

Подробное описание методологии

Определение задачи

Даны две модальности X₁ (учитель) и X₂ (ученик), где X₁ имеет более сильную предсказательную способность. Цель состоит в повышении производительности на слабой модальности X₂ посредством кросс-модальной KD. Пусть H₁, H₂ — представления X₁, X₂ соответственно, Y — истинная метка.

Гипотеза кросс-модальной дополнительности (CCH)

Основное предположение: Кросс-модальная дистилляция знаний эффективна тогда и только тогда, когда I(H₁;H₂) > I(H₂;Y).

Интуитивное объяснение:

  • I(H₁;H₂): взаимная информация между представлениями учителя и ученика, измеряющая информационное перекрытие между модальностями
  • I(H₂;Y): взаимная информация между представлением ученика и меткой, измеряющая предсказательную способность ученика
  • Когда первая превышает вторую, учитель может предоставить дополнительную информацию, связанную с меткой, которой не хватает ученику

Теоретический анализ

Модель совместного гауссова распределения

Предположим, что данные {(x₁ᵢ, x₂ᵢ, yᵢ)}ⁿᵢ₌₁ подчиняются совместному гауссову распределению:

[x₁ᵢ]     [  Σ₁₁  Σ₁₂  Σ₁₃ ]
[x₂ᵢ] ~ N([0], [Σ₁₂ᵀ  Σ₂₂  Σ₂₃])
[yᵢ ]     [Σ₁₃ᵀ  Σ₂₃ᵀ  Σ₃₃ ]

Кросс-модальная целевая функция

Цель обучения сети ученика:

ŵ = argmin Σᵢ ||yᵢ - w₂ᵀx₂ᵢ||² + λΣᵢ ||w₂ᵀx₂ᵢ - w₁ᵀx₁ᵢ||²

Основная теорема

Теорема 1: При мягких предположениях, если I(w₁ᵀx₁, (w*)ᵀx₂) > I((w*)ᵀx₂, y), то для достаточно малого λ имеет место R(λ,w₁) < R₀ (т.е. KD превосходит базовый уровень без KD).

Технические инновации

  1. Информационно-теоретический подход: Впервые используется взаимная информация для количественного описания условий успеха кросс-модальной KD
  2. Теоретические гарантии: Предоставляет строгий анализ при гауссовых предположениях
  3. Практический критерий: Предоставляет вычислимый критерий предварительного определения без необходимости фактического обучения

Экспериментальная установка

Наборы данных

  1. Синтетические данные: Контролируемые задачи гауссовой регрессии, n=10000, p=100
  2. Данные изображений: MNIST (учитель) → MNIST-M (ученик)
  3. Мультимодальные данные: Набор данных CMU-MOSEI для анализа эмоций (текст, визуальные данные, аудио)
  4. Данные о раке: Когорты BRCA, KIPAN, LIHC набора данных TCGA (mRNA, CNV, RPPA)

Метрики оценки

  • Задачи регрессии: Среднеквадратичная ошибка (MSE)
  • Задачи классификации: Точность, взвешенный F1-показатель, AUC
  • Оценка взаимной информации: Использование трёх оценивателей: latentmi, MINE, KSG

Методы сравнения

  • KD vs без KD модели ученика
  • Прямое слияние vs слияние+KD
  • Сравнение различных модальностей учителя

Детали реализации

  • Архитектура сети: Учитель и ученик используют одинаковую архитектуру для изоляции влияния взаимной информации
  • Оптимизаторы: Adam (синтетические данные), SGD (изображения), AdamW (MOSEI)
  • Гиперпараметры: Температура T∈{1,2,3,4}, вес дистилляции λ∈{0.2,0.3,0.5,0.7,0.8}

Результаты экспериментов

Основные результаты

Проверка на синтетических данных

  • Ключевые находки: Когда I(H₁;H₂) > I(H₂;Y), KD значительно снижает MSE; в противном случае улучшений не наблюдается
  • Влияние параметров: Одна и та же закономерность наблюдается при различных значениях λ
  • Теоретическая согласованность: Результаты экспериментов полностью соответствуют теореме 1

Эксперименты с данными изображений

  • MNIST→MNIST-M: Контроль качества учителя посредством гауссова размытия
  • Проверка CCH: Улучшение точности строго соответствует условию взаимной информации I(H₁;H₂) > I(H₂;Y)
  • Производительность: При выполнении CCH точность повышается на 0.01-0.035, при нарушении снижается на 0.12-0.46

Мультимодальные эксперименты CMU-MOSEI

  • Ранжирование модальностей: Текст > Аудио > Визуальные данные (по I(H;Y))
  • Эффект KD: Текст→Визуальные данные (повышение точности на 1.1%), Текст→Аудио (повышение точности на 2.3%)
  • Эксперименты с шумом: Введение шума в учителя для проверки граничных условий CCH

Анализ данных о раке

  • Три набора данных: BRCA, KIPAN, LIHC
  • Согласованные результаты: Условие CCH идеально соответствует эффекту KD во всех наборах данных
  • Стратегия слияния: При выполнении CCH слияние+KD превосходит прямое слияние

Абляционные исследования

  1. Параметр температуры T: Робастность условия CCH при различных температурах
  2. Вес дистилляции λ: Теоретические предсказания более точны при малых значениях λ
  3. Уровень шума: Систематическое снижение качества учителя для проверки границы CCH
  4. Оцениватели взаимной информации: Три оценивателя дают согласованное относительное ранжирование

Ключевые находки

  1. Универсальность CCH: Эффект KD идеально соответствует условию CCH во всех экспериментах
  2. Нелинейные отношения: Точность ученика показывает нелинейный отклик на разницу взаимной информации
  3. Робастность оценивателей: Различные оцениватели MI дают согласованные выводы
  4. Практическая ценность: CCH может служить практическим критерием для выбора модальности учителя

Связанные работы

Основы дистилляции знаний

  • Классическая KD: Метод мягких меток с температурой Хинтона и др.
  • Кросс-модальные расширения: Обобщение KD на передачу знаний между гетерогенными модальностями

Проблема модального разрыва

  • Основные вызовы: Модальный дисбаланс и смещение мягких меток
  • Существующие решения: Сложные стратегии слияния, специализированные функции потерь
  • Ограничения: Отсутствие теоретического руководства и универсальности

Теоретические исследования

  • Привилегированная информация: Теоретическая база Вапника и др.
  • Обобщённая дистилляция: Анализ сложности выборки Лопеса-Паса и др.
  • Эмпирические исследования: Предположения Сюэ и др. о совместном использовании информации, связанной с меткой

Преимущества данной работы

По сравнению с существующими работами, данная статья впервые предоставляет количественный критерий, основанный на взаимной информации, с теоретическими гарантиями и широкой применимостью.

Заключение и обсуждение

Основные выводы

  1. Эффективность CCH: Критерий взаимной информации может точно предсказать успех кросс-модальной KD
  2. Теоретическая основа: Предоставляет строгое доказательство в модели совместного гауссова распределения
  3. Практическая ценность: Предоставляет действенные принципы проектирования для мультимодального обучения
  4. Широкая применимость: Проверена эффективность на множестве модальностей и задач

Ограничения

  1. Теоретические предположения: Строгое доказательство справедливо только при гауссовых предположениях
  2. Оценка MI: Оценка взаимной информации для высокомерных данных остаётся сложной задачей
  3. Ограничения архитектуры: В экспериментах учитель и ученик используют одинаковую архитектуру
  4. Вычислительные затраты: Требуется дополнительное вычисление взаимной информации

Направления будущих исследований

  1. Теоретические расширения: Обобщение на негауссовы распределения и более сложные модели
  2. Эффективная оценка: Разработка более точных методов оценки взаимной информации для высокомерных данных
  3. Исследование архитектур: Изучение применимости CCH при различных архитектурах
  4. Расширение приложений: Проверка практичности CCH в большем количестве областей

Глубокая оценка

Достоинства

  1. Теоретическая инновация: Впервые предложена теоретическая база кросс-модальной KD, основанная на теории информации
  2. Строгость: Предоставляет математические доказательства и широкую экспериментальную проверку
  3. Практичность: Критерий CCH прост в использовании и имеет практическую ценность
  4. Полнота: Систематическое исследование, охватывающее множество модальностей, задач и наборов данных
  5. Воспроизводимость: Предоставляет подробные экспериментальные установки и код

Недостатки

  1. Теоретические ограничения: Строгая теория применима только к гауссовому случаю, реальные данные часто не удовлетворяют этому условию
  2. Вызовы оценки MI: Проблемы точности и вычислительной эффективности оценки взаимной информации в высоких размерностях
  3. Ограничения архитектуры: Экспериментальный дизайн использует одинаковую архитектуру для изоляции влияния MI, что ограничивает практическую применимость
  4. Граничные эффекты: Поведение вблизи условия CCH может быть нестабильным

Влияние

  1. Теоретический вклад: Предоставляет новую теоретическую перспективу для мультимодального обучения
  2. Практическое руководство: Предоставляет конкретные принципы проектирования для инженерных приложений
  3. Исследовательское вдохновение: Может стимулировать дальнейшие исследования, основанные на теории информации в мультимодальном обучении
  4. Кросс-дисциплинарная ценность: Имеет потенциал применения в медицине, компьютерном зрении, обработке естественного языка и других областях

Применимые сценарии

  1. Медицинская диагностика: Дорогостоящие обследования направляют обучение обычных обследований
  2. Мультимодальное слияние: Выбор оптимальной модальности учителя для передачи знаний
  3. Вывод с ограниченными ресурсами: Использование богатых модальностей во время обучения, простых модальностей при выводе
  4. Кросс-доменная адаптация: Передача знаний между различными модальностями

Библиография

Статья ссылается на важные работы в областях дистилляции знаний, мультимодального обучения и теории информации, включая:

  • Hinton et al. (2015) — классическая статья о дистилляции знаний
  • Vapnik & Vashist (2009) — теория привилегированной информации
  • Lopez-Paz et al. (2015) — база обобщённой дистилляции
  • А также соответствующую литературу по мультимодальным наборам данных и методам оценки

Общая оценка: Это высококачественная исследовательская работа, сочетающая теорию и практику, предоставляющая важные теоретические инсайты и практическое руководство для кросс-модальной дистилляции знаний. Гипотеза CCH проста и элегантна, экспериментальная проверка полна, работа имеет значительную академическую и практическую ценность.