2025-11-11T15:10:09.360380

NAP: Attention-Based Late Fusion for Automatic Sleep Staging

Rossi, van der Meer, Schmidt et al.

Polysomnography signals are highly heterogeneous, varying in modality composition (e.g., EEG, EOG, ECG), channel availability (e.g., frontal, occipital EEG), and acquisition protocols across datasets and clinical sites. Most existing models that process polysomnography data rely on a fixed subset of modalities or channels and therefore neglect to fully exploit its inherently multimodal nature. We address this limitation by introducing NAP (Neural Aggregator of Predictions), an attention-based model which learns to combine multiple prediction streams using a tri-axial attention mechanism that captures temporal, spatial, and predictor-level dependencies. NAP is trained to adapt to different input dimensions. By aggregating outputs from frozen, pretrained single-channel models, NAP consistently outperforms individual predictors and simple ensembles, achieving state-of-the-art zero-shot generalization across multiple datasets. While demonstrated in the context of automated sleep staging from polysomnography, the proposed approach could be extended to other multimodal physiological applications.

academic

NAP: Основанное на внимании позднее слияние для автоматической классификации стадий сна

Основная информация

ID статьи: 2511.03488
Название: NAP: Attention-Based Late Fusion for Automatic Sleep Staging
Авторы: Alvise Dei Rossi, Julia van der Meer, Markus H. Schmidt, Claudio L.A. Bassetti, Luigi Fiorillo, Francesca Faraci
Категория: cs.LG (Машинное обучение)
Дата публикации: 5 ноября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2511.03488v1

Аннотация

Сигналы полисомнографии (ПСГ) характеризуются высокой гетерогенностью, различаясь по составу модальностей (таких как ЭЭГ, ЭОГ, ЭКГ), доступности каналов (например, лобные и затылочные отведения ЭЭГ) и протоколам сбора данных в различных наборах данных и клинических центрах. Большинство существующих моделей обработки данных ПСГ полагаются на фиксированные подмножества модальностей или каналов, поэтому не полностью используют присущие им мультимодальные свойства. В данной работе предлагается NAP (Neural Aggregator of Predictions) — модель на основе механизма внимания, использующая трёхосевое внимание для изучения комбинирования нескольких потоков предсказаний и захвата зависимостей на временном, пространственном и уровне предсказателей. NAP обучается адаптироваться к различным входным размерностям. Путём агрегирования выходов замороженных предварительно обученных однканальных моделей NAP последовательно превосходит отдельные предсказатели и простые методы ансамбля, достигая передовых результатов нулевой выборки на нескольких наборах данных.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: Проблема гетерогенности данных полисомнографии, включая различные составы модальностей, конфигурации каналов и протоколы сбора, которые существующие модели не могут полностью использовать.
Значимость:
- Классификация стадий сна является клиническим золотым стандартом для диагностики расстройств сна и бодрствования
- Ручная классификация сна отнимает много времени и подвержена субъективным смещениям
- Мультимодальная информация обеспечивает более полное представление динамики сна, способствуя лучшему пониманию состояния здоровья пациента
Ограничения существующих методов:
- Большинство моделей полагаются на фиксированные подмножества модальностей или каналов
- Простые методы мягкого голосования предполагают, что усреднение является достаточной функцией агрегирования
- Неявно рассматривают всех участников как одинаково надёжных
- Работают на уровне эпох, игнорируя временные зависимости
Исследовательская мотивация: Разработка модели на основе механизма внимания, которая может гибко обрабатывать различные входные размерности, эффективно агрегировать потоки мультимодальных предсказаний и сохранять модульность.

Основные вклады

Предложение модели NAP: Лёгкая метамодель на основе внимания, которая явно захватывает временные, пространственные/канальные, модельные и кросс-модальные зависимости для изучения агрегирования предсказаний предварительно обученных однканальных моделей.
Расширение механизма кросс-внимания: Обобщение механизма крест-накрест внимания от пространственно-временных измерений к трёхосевому вниманию как эффективной стратегии слияния.
Адаптивное обучение к размерностям: Расширение адаптивного обучения к размерностям для динамической выборки различных длин последовательностей, количества каналов, количества моделей и количества модальностей.
SOTA производительность нулевой выборки: Достижение передовых результатов нулевой выборки на нескольких наборах данных, значительно превосходя отдельные предсказатели и простые методы ансамбля.

Детальное описание методологии

Определение задачи

Вход: Запись ПСГ X, содержащая T последовательных 30-секундных эпох сна, каждая эпоха связана с M физиологическими модальностями
Выход: Предсказание стадии сна для каждой эпохи, разделённое на 5 классов: {Бодрствование, N1, N2, N3, REM}
Ограничения: Модель должна адаптироваться к различным комбинациям модальностей, количеству каналов и длинам последовательностей

Архитектура модели

Архитектура NAP содержит четыре основных модуля:

1. Генератор базовых предсказаний (Base Predictions Generator)

Для модальности mk, канала cj и базового предсказателя bℓ генерируются предсказания $\hat{h}_{(m_k,c_j,b_\ell),t} \in \mathbb{R}^5$
Результаты предсказаний линейно проецируются в высокомерное пространство признаков $\mathbb{R}^{d_{model}}$
Генерируются гипнодензитеты (вероятностные представления стадий сна)

2. Кодировщик с трёхосевым вниманием (Tri-axial Attention Encoder)

Расширение крест-накрест внимания на три пути:

Пространственное внимание: Вычисление внимания вдоль оси каналов $C_{m_k}$ $Z_s^{(i)} = \text{Softmax}\left(\frac{\text{LN}(Q_s^{(i)}) \text{LN}(K_s^{(i)})^T}{\sqrt{d_k}}\right) V_s^{(i)}$

Временное внимание: Вычисление внимания вдоль оси длины последовательности T

Смешанное внимание: Вычисление внимания вдоль оси базовых предсказателей $B_{m_k}$

Каждому пути назначается h/3 голов внимания, окончательный выход получается конкатенацией всех путей.

3. Слой слияния модальностей (Modality Fusion Layer)

Использование механизма слияния на основе внимания: $\alpha_{t,n} = \frac{\exp(\tanh(W_A x_{t,n} + b_A)^T u_A)}{\sum_{j=1}^N \exp(\tanh(W_A x_{t,j} + b_A)^T u_A)}$

Вычисление взвешенной комбинации: $\hat{z}_t = \sum_{n=1}^N \alpha_{t,n} \tilde{z}_{t,n}$

4. Головка классификатора (Classifier Head)

Сеть прямого распространения с одним скрытым слоем, обучаемая сквозным образом с использованием потерь кросс-энтропии.

Технические инновации

Трёхосевой механизм внимания: Разложение вычисления внимания на три измерения — пространственное, временное и предсказателей, более эффективное и целенаправленное, чем традиционное совместное внимание.
Динамическая адаптация к размерностям: Случайная выборка различных временных шагов, наборов модальностей, количества каналов и базовых предсказателей во время обучения для повышения способности к обобщению.
Стратегия накопления градиентов: Накопление градиентов на G различных пакетах, избегая операций заполнения и маскирования, повышая вычислительную эффективность.

Экспериментальная установка

Наборы данных

Наборы данных для обучения:

BSWR: 8 410 записей ПСГ (≈67 000 часов), охватывающих полный спектр расстройств сна и бодрствования
Зарезервированные наборы из NSRR: включая ABC, APOE, APPLES, CCSHS, CFS, CHAT, HOMEPAP, MESA, MNC, MROS, MSP, NCHSDB, SHHS, SOF, WSC и другие

Наборы данных для оценки (нулевая выборка):

DOD-H & DOD-O: здоровые взрослые и пациенты с ОСА
DCSM: данные Датского центра медицины сна
SEDF-SC & SEDF-ST: расширенные наборы данных Sleep-EDF
PHYS: данные конкурса PhysioNet 2018

Метрики оценки

Макро-усреднённый F1-балл (Macro F1, MF1)
F1-баллы для каждой стадии сна (F1W, F1N1, F1N2, F1N3, F1REM)

Методы сравнения

Лучшие однмодальные модели (например, DeepResNetEEG, U-SleepEEG)
Метод ансамбля SOMNUS (мягкое голосование по всем каналам, модальностям и моделям)

Детали реализации

Размерность встраивания: dmodel = 24
Количество голов внимания: h = 6 (2 головы на путь)
Количество слоёв кодировщика: L = 4
Размер пакета: B = 8 записей, K = 4 сегмента на запись
Накопление градиентов: G = 4 прямых-обратных распространения
Оптимизатор: AdamW, скорость обучения η = 10^-3

Результаты экспериментов

Основные результаты

Набор данных	Модель	MF1	F1W	F1N1	F1N2	F1N3	F1REM
BSWR	DeepResNetEEG	.695(.120)	.828(.143)	.397(.172)	.793(.148)	.629(.270)	.848(.180)
	SOMNUS	.708(.120)	.836(.141)	.404(.178)	.804(.146)	.696(.280)	.864(.173)
	NAP	.749(.117)‡	.856(.132)	.533(.164)	.809(.146)	.705(.260)	.864(.172)
DCSM	SOMNUS	.803(.084)	.983(.023)	.505(.153)	.858(.097)	.783(.202)	.891(.146)
	NAP	.815(.081)‡	.986(.020)	.550(.143)	.848(.103)	.802(.190)	.893(.145)

‡ Указывает на статистически значимое улучшение MF1 по сравнению с другими методами (α < 0,05)

Ключевые находки

Последовательное улучшение: NAP достигает улучшения нулевой выборки MF1 на большинстве наборов данных вне распределения
- DCSM: 0,803 → 0,815
- DOD-H: 0,828 → 0,834
- PHYS: 0,693 → 0,732
- SEDF-SC: 0,734 → 0,752
- SEDF-ST: 0,761 → 0,796
Улучшение стадии N1: Улучшение MF1 в основном происходит за счёт улучшения распознавания сложной стадии N1, в некоторых случаях также улучшается распознавание стадии Бодрствования
Сценарии максимального улучшения: NAP достигает наибольшего улучшения на наборах данных, где SOMNUS показывает относительно худшие результаты (например, PHYS и SEDF)

Абляционные эксперименты

Хотя в статье отсутствуют подробные абляционные эксперименты, сравнение с простым мягким голосованием (SOMNUS) подтверждает преимущества механизма внимания над простым усреднением.

Связанные работы

Основные направления исследований

Автоматическая классификация стадий сна: Различные парадигмы моделирования с использованием сверточных, рекуррентных и внимательных сетей
Мультимодальное слияние: Раннее слияние (слияние представлений) против позднего слияния (агрегирование предсказаний)
Методы ансамбля: Стратегии мягкого голосования по каналам, модальностям или моделям

Преимущества данной работы

Гибкость: Способность обрабатывать произвольное количество модальностей, каналов и предсказателей
Временное моделирование: Явное моделирование временных зависимостей в отличие от мягкого голосования на уровне эпох
Механизм внимания: Изучение адаптивных весов вместо предположения о равных весах

Выводы и обсуждение

Основные выводы

NAP эффективно агрегирует потоки мультимодальных предсказаний через механизм внимания, достигая SOTA производительности нулевой выборки на нескольких наборах данных
Принципиальное позднее слияние может преодолеть разрыв в производительности существующих методов на некоторых наборах данных
Трёхосевой механизм внимания является эффективной стратегией для обработки многомерных зависимостей

Ограничения

Ограничения модальностей: Текущие эксперименты рассматривают только модальности ЭЭГ и ЭОГ из-за ограничений доступности предварительно обученных моделей
Зависимость от базовых моделей: Производительность ограничена качеством предварительно обученных однканальных моделей
Вычислительные затраты: Хотя более эффективно, чем совместное внимание, всё ещё требует дополнительных вычислительных ресурсов

Направления будущих исследований

Расширение модальностей: Интеграция предварительно обученных моделей для большего количества физиологических сигналов (ЭМГ, ЭКГ и т.д.)
Раннее слияние: Адаптация в качестве Neural Aggregator of Representations для слияния на уровне представлений
Приложения в других областях: Расширение на другие приложения физиологических сигналов, требующие агрегирования мультимодальных предсказаний

Глубокая оценка

Преимущества

Высокая инновационность: Дизайн трёхосевого механизма внимания является новаторским и эффективно решает проблему моделирования многомерных зависимостей
Высокая практическая ценность: Решает важную проблему гетерогенности данных ПСГ в клинической практике
Полные эксперименты: Всесторонняя оценка нулевой выборки на нескольких крупномасштабных наборах данных
Универсальность метода: Структура может быть расширена на другие приложения мультимодальных физиологических сигналов

Недостатки

Недостаточный теоретический анализ: Отсутствие теоретического анализа и анализа сложности трёхосевого механизма внимания
Ограниченные абляционные эксперименты: Отсутствие подробного анализа конкретного вклада каждого компонента (пространственное, временное, смешанное внимание)
Неполное покрытие модальностей: Проверка только ЭЭГ и ЭОГ, отсутствие проверки других важных модальностей (ЭМГ, ЭКГ)

Влияние

Академический вклад: Предоставляет новую стратегию слияния для обработки мультимодальных физиологических сигналов
Клиническая ценность: Может повысить практичность и точность систем автоматической классификации стадий сна
Воспроизводимость: Предоставляет подробные детали реализации, облегчающие воспроизведение и расширение

Применимые сценарии

Клиническая медицина сна: Автоматическая классификация стадий сна при различных конфигурациях больниц и оборудования
Мультимодальные физиологические сигналы: Другие медицинские приложения, требующие слияния нескольких физиологических сигналов для предсказания
Слияние гетерогенных данных: Любые задачи, требующие агрегирования мультимодальных предсказаний с переменными размерностями

Библиография

Статья цитирует важные работы в области медицины сна, глубокого обучения и мультимодального слияния, включая:

Berry et al. (2017): Стандарты классификации сна AASM
Perslev et al. (2021): Модель U-Sleep
Phan et al. (2022): SleepTransformer
Huang et al. (2019): Оригинальная работа по крест-накрест вниманию
Zhang et al. (2018, 2024): Ресурсы данных NSRR

Общая оценка: Это высококачественная статья по машинному обучению, предлагающая инновационное решение клинически важной проблемы. Дизайн трёхосевого механизма внимания остроумен, результаты экспериментов убедительны. Хотя есть место для улучшения в теоретическом анализе и абляционных экспериментах, практическая ценность и техническая инновация делают её важным вкладом в область обработки мультимодальных физиологических сигналов.