2025-11-19T16:19:13.919719

Sparsely Multimodal Data Fusion

Bjorgaard

Multimodal data fusion is essential for applications requiring the integration of diverse data sources, especially in the presence of incomplete or sparsely available modalities. This paper presents a comparative study of three multimodal embedding techniques, Modal Channel Attention (MCA), Zorro, and Everything at Once (EAO), to evaluate their performance on sparsely multimodal data. MCA introduces fusion embeddings for all combinations of input modalities and uses attention masking to create distinct attention channels, enabling flexible and efficient data fusion. Experiments on two datasets with four modalities each, CMU-MOSEI and TCGA, demonstrate that MCA outperforms Zorro across ranking, recall, regression, and classification tasks and outperforms EAO across regression and classification tasks. MCA achieves superior performance by maintaining robust uniformity across unimodal and fusion embeddings. While EAO performs best in ranking metrics due to its approach of forming fusion embeddings post-inference, it underperforms in downstream tasks requiring multimodal interactions. These results highlight the importance of contrasting all modality combinations in constructing embedding spaces and offers insights into the design of multimodal architectures for real-world applications with incomplete data.

academic

Редкие многомодальные данные: слияние

Основная информация

ID статьи: 2403.20280
Название: Sparsely Multimodal Data Fusion
Автор: Josiah A. Bjorgaard (Syntensor, Inc.)
Классификация: cs.LG cs.AI
Дата публикации: Март 2024 г. (arXiv v2: Январь 2025 г.)
Ссылка на статью: https://arxiv.org/abs/2403.20280

Аннотация

В данной работе исследуется проблема слияния редких многомодальных данных и предлагается метод Modal Channel Attention (MCA), который систематически сравнивается с двумя существующими методами: Zorro и Everything at Once (EAO). MCA достигает гибкого и эффективного слияния данных путём создания объединённых встраиваний для всех комбинаций модальностей и использования масок внимания для создания различных каналов внимания. Эксперименты на четырёхмодальных наборах данных CMU-MOSEI и TCGA показывают, что MCA превосходит Zorro в задачах ранжирования, отзыва, регрессии и классификации, а также превосходит EAO в задачах регрессии и классификации.

Исследовательский контекст и мотивация

Определение проблемы

С развитием многомодального глубокого обучения реальные приложения часто сталкиваются с проблемой неполноты модальностей (modal-incomplete). Когда набор данных содержит 3 или более модальностей, образцы с отсутствующими модальностями становятся более распространёнными, формируя редкие многомодальные (sparsely multimodal) наборы данных.

Значимость исследования

Практические потребности: Слияние данных с множественных датчиков, биоинформатика, системы домашнего мониторинга и другие области часто сталкиваются с проблемой отсутствия многомодальных данных
Технические вызовы: Существующие модели многомодального слияния часто неспособны эффективно обрабатывать образцы с неполными модальностями
Прикладная ценность: Повышение надёжности и практичности моделей в реальных сценариях

Ограничения существующих методов

Методы, такие как FLAVA, хотя и могут обрабатывать отсутствующие модальности, не могут генерировать объединённое пространство встраиваний многомодальных данных
EAO требует нескольких прямых проходов, что снижает вычислительную эффективность
Zorro использует только один канал слияния, не полностью использует информацию из различных комбинаций модальностей

Основные вклады

Предложение метода MCA: Введение механизма модального канального внимания для создания объединённых встраиваний для всех возможных комбинаций модальностей
Систематическое сравнительное исследование: Комплексная оценка трёх методов (MCA, Zorro и EAO) на редких многомодальных данных
Повышение производительности: MCA превосходит существующие методы в большинстве задач, особенно в нисходящих задачах
Теоретические выводы: Раскрытие важности сопоставления всех комбинаций модальностей при построении пространства встраиваний

Подробное описание метода

Определение задачи

Входные данные: Набор данных с 4 модальностями с различной степенью редкости модальностей (0-0.8) Выходные данные: Унифицированное пространство объединённых встраиваний, поддерживающее поиск и нисходящие задачи Ограничения: Обработка образцов с неполными модальностями, сохранение вычислительной эффективности

Архитектура модели

Основной дизайн MCA

Генерация объединённых встраиваний: Создание объединённых встраиваний для всех возможных комбинаций модальностей (как показано на рис. 3a)
Маски модального канального внимания: Использование блочных масок внимания для создания различных каналов внимания (как показано на рис. 3b)
Единственный прямой проход: Обработка всех комбинаций модальностей в одном прямом проходе

Дизайн маски внимания

Для четырёхмодального набора данных MCA создаёт 11 каналов внимания:

4 одномодальных канала: (1), (2), (3), (4)
6 двумодальных каналов: (1,2), (1,3), (1,4), (2,3), (2,4), (3,4)
1 полномодальный канал: (1,2,3,4)

Стратегия функции потерь

Применение стратегии маски образца и потерь:

Отсутствующие модальности заменяются токенами заполнения
Потери вычисляются для соответствующих объединённых токенов, если присутствует хотя бы одна модальность
Использование потерь оценки контрастного шума (NCE)

Технические инновации

Многоканальное слияние: В отличие от одноканального подхода Zorro, MCA поддерживает слияние всех комбинаций модальностей
Вычислительная эффективность: В отличие от нескольких прямых проходов EAO, MCA требует только одного
Гибкость: Способность обрабатывать отсутствие произвольных комбинаций модальностей
Унифицированная структура: Справедливое сравнение трёх методов в единой структуре

Экспериментальная установка

Наборы данных

CMU-MOSEI

Размер: 23 248 образцов, тестовый набор 2 324 образца
Модальности: 4 предварительно обработанные модальности (векторы Glove, OpenFace, COVAREP, кодировщик FACET)
Задача: Регрессия анализа настроений (диапазон 0-1)
Предварительная обработка: Преобразование линейным слоем + нормализация слоя + позиционное встраивание

TCGA (The Cancer Genome Atlas)

Размер: 7 017 образцов, тестовый набор 707 образцов
Модальности: Экспрессия генов (800 генов), массив белков (198 белков), метилирование ДНК (800 сайтов), miRNA (662)
Задача: Классификация 32 типов рака
Предварительная обработка: Кодирование двухслойным MLP + обучаемое встраивание

Определение редкости модальностей

$S = \frac{1}{N_S}\sum_{i=1}^{N_S} M_i/M_T$

где $N_S$ — количество образцов, $M_i$ — количество модальностей в образце i, $M_T$ — общее количество модальностей. Эксперименты проводились с S = 0, 0.2, 0.4, 0.6, 0.8.

Метрики оценки

Метрики качества встраивания

Согласованность (Alignment): $L_a = E_{x,y}[||f(x)-f(y)||_2^2]$
Однородность (Uniformity): $L_u = E_{x,y}[e^{-2||f(x)-f(y)||_2^2}]$

Метрики задачи поиска

Медианное ранжирование: Медианный ранг правильного совпадения
Коэффициент отзыва: R@1, R@5, R@10

Метрики нисходящих задач

Регрессия: Коэффициент корреляции (CMU-MOSEI)
Классификация: Средний AUPR (TCGA)

Детали реализации

Параметры модели: Скрытый размер 512, 8 голов внимания, 4-кратный коэффициент прямой связи
Параметры обучения: Размер пакета 32, скорость обучения 1e-4, косинусное расписание
Оборудование: MCA/Zorro используют 4×A10G GPU (17GB), EAO использует 4×A100 GPU (41GB)

Результаты экспериментов

Основные результаты

Анализ качества встраивания (рис. 4)

Однородность: MCA сохраняет лучшую однородность объединённого встраивания в большинстве случаев
Согласованность: EAO имеет лучшую согласованность, но худшую однородность
Влияние редкости: Когда редкость модальностей превышает 0.4, однородность всех методов снижается

Производительность ранжирования и отзыва (рис. 5)

EAO оптимален: Показывает лучшие результаты в метриках ранжирования благодаря стратегии слияния после вывода
MCA превосходит Zorro: В большинстве случаев медианное ранжирование и коэффициент отзыва MCA лучше, чем у Zorro
Различия в наборах данных: Различия более выражены на большем наборе данных CMU-MOSEI

Производительность нисходящих задач (рис. 6)

Задача регрессии: MCA достигает базовой производительности 0.54 в задаче анализа настроений CMU-MOSEI, превосходя Zorro и EAO
Задача классификации: MCA показывает лучшие результаты в задаче классификации рака TCGA
Надёжность при редкости: MCA сохраняет относительно стабильную производительность при высокой редкости

Ключевые выводы

Компромисс между однородностью и согласованностью: Лучшая однородность благоприятна для нисходящих задач, лучшая согласованность благоприятна для задач поиска
Преимущества многоканального подхода: Сопоставление всех комбинаций модальностей значительно улучшает качество встраивания
Вычислительная эффективность: MCA значительно снижает вычислительные затраты при сохранении производительности

Связанные работы

Методы без контрастного обучения

Методы чередующихся данных: Такие как Flamingo, использующие авторегрессивные или маскированные языковые цели
Маскирование поздней стадии слияния: Обработка неполных модальностей через маскированные представления

Методы с контрастным обучением

FLAVA: Многопотерьевая модель, но не может генерировать пространство объединённых встраиваний
LORRETA: Предсказание третьей модальности, требует двумодальных пар

Методы чистого контрастного обучения

EAO: Несколько прямых проходов, комбинированные контрастные потери
Zorro: Блочные маски внимания, единственный прямой проход

Заключение и обсуждение

Основные выводы

Эффективность MCA: На редких многомодальных данных MCA показывает лучшую общую производительность
Специфичность задачи: Различные методы имеют преимущества в различных типах задач
Важность дизайна: Сопоставление всех комбинаций модальностей имеет решающее значение для построения надёжного пространства встраиваний

Ограничения

Вычислительная сложность: Хотя более эффективен, чем EAO, всё ещё сложнее, чем одноканальные методы
Чувствительность гиперпараметров: Требует тщательной настройки количества каналов внимания
Размер набора данных: Преимущества менее выражены на меньших наборах данных

Будущие направления

Адаптивный выбор каналов: Динамическая настройка каналов внимания в зависимости от характеристик данных
Расширение на большее количество модальностей: Проверка производительности на большем количестве модальностей (>4)
Теоретический анализ: Глубокое понимание теоретических отношений между однородностью и согласованностью

Глубокая оценка

Преимущества

Важность проблемы: Решение ключевой проблемы в реальных приложениях
Инновационность метода: Умелое сочетание преимуществ EAO и Zorro
Полнота экспериментов: Систематические сравнительные эксперименты и анализ абляции
Теоретические выводы: Предоставление ценного анализа качества встраивания

Недостатки

Ограничение наборов данных: Проверка только на двух наборах данных, обобщаемость требует дальнейшей проверки
Недостаточный теоретический анализ: Отсутствие теоретического объяснения эффективности метода
Анализ вычислительных затрат: Отсутствие подробного анализа вычислительной сложности различных методов

Влияние

Академический вклад: Предоставление нового решения для редкого многомодального обучения
Практическая ценность: Прямое применение к слиянию данных с множественных датчиков, медицинской информатике и другим областям
Воспроизводимость: Предоставление подробных деталей реализации и параметров

Применимые сценарии

Системы с множественными датчиками: IoT-устройства, восприятие робота
Медицинская информатика: Слияние многоуровневых данных
Многомедийный поиск: Поиск контента с неполными модальностями
Промышленный мониторинг: Анализ слияния данных из множественных источников

Библиография

Статья ссылается на множество важных работ по многомодальному обучению, включая:

CLIP (Radford et al., 2021): Основополагающая работа по контрастному многомодальному обучению
EAO (Shvetsova et al., 2022): Важный метод для многомодального поиска
Zorro (Recasens et al., 2023): Маскированный многомодальный Transformer
Wang & Isola (2020): Теория однородности и согласованности контрастного обучения

Данная статья вносит значительный вклад в область слияния редких многомодальных данных. Предложенный метод MCA значительно улучшает производительность при сохранении вычислительной эффективности, предоставляя эффективное решение для обработки неполных многомодальных данных в реальном мире.