NAP: Attention-Based Late Fusion for Automatic Sleep Staging
Rossi, van der Meer, Schmidt et al.
Polysomnography signals are highly heterogeneous, varying in modality composition (e.g., EEG, EOG, ECG), channel availability (e.g., frontal, occipital EEG), and acquisition protocols across datasets and clinical sites. Most existing models that process polysomnography data rely on a fixed subset of modalities or channels and therefore neglect to fully exploit its inherently multimodal nature. We address this limitation by introducing NAP (Neural Aggregator of Predictions), an attention-based model which learns to combine multiple prediction streams using a tri-axial attention mechanism that captures temporal, spatial, and predictor-level dependencies. NAP is trained to adapt to different input dimensions. By aggregating outputs from frozen, pretrained single-channel models, NAP consistently outperforms individual predictors and simple ensembles, achieving state-of-the-art zero-shot generalization across multiple datasets. While demonstrated in the context of automated sleep staging from polysomnography, the proposed approach could be extended to other multimodal physiological applications.
academic
NAP: Основанное на внимании позднее слияние для автоматической классификации стадий сна
Сигналы полисомнографии (ПСГ) характеризуются высокой гетерогенностью, различаясь по составу модальностей (таких как ЭЭГ, ЭОГ, ЭКГ), доступности каналов (например, лобные и затылочные отведения ЭЭГ) и протоколам сбора данных в различных наборах данных и клинических центрах. Большинство существующих моделей обработки данных ПСГ полагаются на фиксированные подмножества модальностей или каналов, поэтому не полностью используют присущие им мультимодальные свойства. В данной работе предлагается NAP (Neural Aggregator of Predictions) — модель на основе механизма внимания, использующая трёхосевое внимание для изучения комбинирования нескольких потоков предсказаний и захвата зависимостей на временном, пространственном и уровне предсказателей. NAP обучается адаптироваться к различным входным размерностям. Путём агрегирования выходов замороженных предварительно обученных однканальных моделей NAP последовательно превосходит отдельные предсказатели и простые методы ансамбля, достигая передовых результатов нулевой выборки на нескольких наборах данных.
Основная проблема: Проблема гетерогенности данных полисомнографии, включая различные составы модальностей, конфигурации каналов и протоколы сбора, которые существующие модели не могут полностью использовать.
Значимость:
Классификация стадий сна является клиническим золотым стандартом для диагностики расстройств сна и бодрствования
Ручная классификация сна отнимает много времени и подвержена субъективным смещениям
Мультимодальная информация обеспечивает более полное представление динамики сна, способствуя лучшему пониманию состояния здоровья пациента
Ограничения существующих методов:
Большинство моделей полагаются на фиксированные подмножества модальностей или каналов
Простые методы мягкого голосования предполагают, что усреднение является достаточной функцией агрегирования
Неявно рассматривают всех участников как одинаково надёжных
Работают на уровне эпох, игнорируя временные зависимости
Исследовательская мотивация: Разработка модели на основе механизма внимания, которая может гибко обрабатывать различные входные размерности, эффективно агрегировать потоки мультимодальных предсказаний и сохранять модульность.
Предложение модели NAP: Лёгкая метамодель на основе внимания, которая явно захватывает временные, пространственные/канальные, модельные и кросс-модальные зависимости для изучения агрегирования предсказаний предварительно обученных однканальных моделей.
Расширение механизма кросс-внимания: Обобщение механизма крест-накрест внимания от пространственно-временных измерений к трёхосевому вниманию как эффективной стратегии слияния.
Адаптивное обучение к размерностям: Расширение адаптивного обучения к размерностям для динамической выборки различных длин последовательностей, количества каналов, количества моделей и количества модальностей.
SOTA производительность нулевой выборки: Достижение передовых результатов нулевой выборки на нескольких наборах данных, значительно превосходя отдельные предсказатели и простые методы ансамбля.
Трёхосевой механизм внимания: Разложение вычисления внимания на три измерения — пространственное, временное и предсказателей, более эффективное и целенаправленное, чем традиционное совместное внимание.
Динамическая адаптация к размерностям: Случайная выборка различных временных шагов, наборов модальностей, количества каналов и базовых предсказателей во время обучения для повышения способности к обобщению.
Стратегия накопления градиентов: Накопление градиентов на G различных пакетах, избегая операций заполнения и маскирования, повышая вычислительную эффективность.
Последовательное улучшение: NAP достигает улучшения нулевой выборки MF1 на большинстве наборов данных вне распределения
DCSM: 0,803 → 0,815
DOD-H: 0,828 → 0,834
PHYS: 0,693 → 0,732
SEDF-SC: 0,734 → 0,752
SEDF-ST: 0,761 → 0,796
Улучшение стадии N1: Улучшение MF1 в основном происходит за счёт улучшения распознавания сложной стадии N1, в некоторых случаях также улучшается распознавание стадии Бодрствования
Сценарии максимального улучшения: NAP достигает наибольшего улучшения на наборах данных, где SOMNUS показывает относительно худшие результаты (например, PHYS и SEDF)
Хотя в статье отсутствуют подробные абляционные эксперименты, сравнение с простым мягким голосованием (SOMNUS) подтверждает преимущества механизма внимания над простым усреднением.
NAP эффективно агрегирует потоки мультимодальных предсказаний через механизм внимания, достигая SOTA производительности нулевой выборки на нескольких наборах данных
Принципиальное позднее слияние может преодолеть разрыв в производительности существующих методов на некоторых наборах данных
Трёхосевой механизм внимания является эффективной стратегией для обработки многомерных зависимостей
Ограничения модальностей: Текущие эксперименты рассматривают только модальности ЭЭГ и ЭОГ из-за ограничений доступности предварительно обученных моделей
Зависимость от базовых моделей: Производительность ограничена качеством предварительно обученных однканальных моделей
Вычислительные затраты: Хотя более эффективно, чем совместное внимание, всё ещё требует дополнительных вычислительных ресурсов
Высокая инновационность: Дизайн трёхосевого механизма внимания является новаторским и эффективно решает проблему моделирования многомерных зависимостей
Высокая практическая ценность: Решает важную проблему гетерогенности данных ПСГ в клинической практике
Полные эксперименты: Всесторонняя оценка нулевой выборки на нескольких крупномасштабных наборах данных
Универсальность метода: Структура может быть расширена на другие приложения мультимодальных физиологических сигналов
Недостаточный теоретический анализ: Отсутствие теоретического анализа и анализа сложности трёхосевого механизма внимания
Ограниченные абляционные эксперименты: Отсутствие подробного анализа конкретного вклада каждого компонента (пространственное, временное, смешанное внимание)
Неполное покрытие модальностей: Проверка только ЭЭГ и ЭОГ, отсутствие проверки других важных модальностей (ЭМГ, ЭКГ)
Статья цитирует важные работы в области медицины сна, глубокого обучения и мультимодального слияния, включая:
Berry et al. (2017): Стандарты классификации сна AASM
Perslev et al. (2021): Модель U-Sleep
Phan et al. (2022): SleepTransformer
Huang et al. (2019): Оригинальная работа по крест-накрест вниманию
Zhang et al. (2018, 2024): Ресурсы данных NSRR
Общая оценка: Это высококачественная статья по машинному обучению, предлагающая инновационное решение клинически важной проблемы. Дизайн трёхосевого механизма внимания остроумен, результаты экспериментов убедительны. Хотя есть место для улучшения в теоретическом анализе и абляционных экспериментах, практическая ценность и техническая инновация делают её важным вкладом в область обработки мультимодальных физиологических сигналов.