2025-11-11T15:10:09.360380

NAP: Attention-Based Late Fusion for Automatic Sleep Staging

Rossi, van der Meer, Schmidt et al.

Polysomnography signals are highly heterogeneous, varying in modality composition (e.g., EEG, EOG, ECG), channel availability (e.g., frontal, occipital EEG), and acquisition protocols across datasets and clinical sites. Most existing models that process polysomnography data rely on a fixed subset of modalities or channels and therefore neglect to fully exploit its inherently multimodal nature. We address this limitation by introducing NAP (Neural Aggregator of Predictions), an attention-based model which learns to combine multiple prediction streams using a tri-axial attention mechanism that captures temporal, spatial, and predictor-level dependencies. NAP is trained to adapt to different input dimensions. By aggregating outputs from frozen, pretrained single-channel models, NAP consistently outperforms individual predictors and simple ensembles, achieving state-of-the-art zero-shot generalization across multiple datasets. While demonstrated in the context of automated sleep staging from polysomnography, the proposed approach could be extended to other multimodal physiological applications.

academic

NAP: Fusión Tardía Basada en Atención para Clasificación Automática del Sueño

Información Básica

ID del Artículo: 2511.03488
Título: NAP: Attention-Based Late Fusion for Automatic Sleep Staging
Autores: Alvise Dei Rossi, Julia van der Meer, Markus H. Schmidt, Claudio L.A. Bassetti, Luigi Fiorillo, Francesca Faraci
Clasificación: cs.LG (Aprendizaje Automático)
Fecha de Publicación: 5 de noviembre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2511.03488v1

Resumen

Las señales de polisomnografía (PSG) presentan una alta heterogeneidad, con variaciones en la composición modal (como EEG, EOG, ECG), disponibilidad de canales (como EEG frontal u occipital) y protocolos de adquisición en diferentes conjuntos de datos y centros clínicos. La mayoría de los modelos existentes que procesan datos de PSG dependen de subconjuntos fijos de modalidades o canales, por lo que no aprovechan plenamente su naturaleza multimodal inherente. Este artículo aborda esta limitación mediante la introducción de NAP (Neural Aggregator of Predictions), un modelo basado en mecanismos de atención que utiliza atención triaxial para aprender a combinar múltiples flujos de predicción, capturando dependencias a nivel temporal, espacial y de predictor. NAP se entrena para adaptarse a diferentes dimensiones de entrada. Al agregar salidas de modelos preentrenados de un solo canal congelados, NAP supera consistentemente a predictores individuales y métodos de conjunto simples, logrando un rendimiento de generalización de cero disparos de última generación en múltiples conjuntos de datos.

Antecedentes de Investigación y Motivación

Definición del Problema

Problema Central: El problema de heterogeneidad en datos de polisomnografía (PSG), incluyendo diferentes composiciones modales, configuraciones de canales y protocolos de adquisición, que los modelos existentes no pueden aprovechar plenamente.
Importancia:
- La clasificación del sueño es el estándar de oro clínico para diagnosticar trastornos del sueño-vigilia
- La clasificación manual del sueño consume tiempo y presenta sesgos subjetivos
- La información multimodal proporciona una vista más completa de la dinámica del sueño, facilitando una mejor comprensión de la salud del paciente
Limitaciones de Métodos Existentes:
- La mayoría de los modelos dependen de subconjuntos fijos de modalidades o canales
- Los métodos de votación suave simple asumen que el promediado es una función de agregación suficiente
- Tratan implícitamente a todos los contribuyentes como igualmente confiables
- Operan a nivel de época, ignorando las dependencias temporales
Motivación de la Investigación: Desarrollar un modelo con mecanismo de atención que pueda procesar flexiblemente diferentes dimensiones de entrada, agregar efectivamente múltiples flujos de predicción multimodal y mantener modularidad.

Contribuciones Principales

Propuesta del Modelo NAP: Un metamodelo ligero basado en atención que aprende a agregar predicciones de modelos preentrenados de un solo canal capturando explícitamente dependencias temporales, espaciales/de canal, a nivel de modelo y entre modalidades.
Extensión del Mecanismo de Atención Cruzada: Generalización del mecanismo de atención criss-cross desde dimensiones espacio-temporales a atención triaxial como estrategia de fusión efectiva.
Entrenamiento Adaptativo a Dimensiones: Extensión del entrenamiento adaptativo a dimensiones para muestrear dinámicamente diferentes longitudes de secuencia, números de canales, números de modelos y números de modalidades.
Rendimiento SOTA de Cero Disparos: Logro de rendimiento de generalización de cero disparos de última generación en múltiples conjuntos de datos, superando significativamente a predictores individuales y métodos de conjunto simple.

Explicación Detallada del Método

Definición de la Tarea

Entrada: Registro PSG X, que contiene T épocas de sueño consecutivas de 30 segundos, cada época asociada con M modalidades fisiológicas
Salida: Predicción de la etapa del sueño para cada época, clasificada en 5 categorías: {Vigilia, N1, N2, N3, REM}
Restricciones: El modelo debe adaptarse a diferentes combinaciones de modalidades, números de canales y longitudes de secuencia

Arquitectura del Modelo

La arquitectura NAP contiene cuatro módulos principales:

1. Generador de Predicciones Base (Base Predictions Generator)

Para la modalidad mk, canal cj y predictor base bℓ, genera predicción $\hat{h}_{(m_k,c_j,b_\ell),t} \in \mathbb{R}^5$
Los resultados de predicción se proyectan linealmente a un espacio de características de alta dimensión $\mathbb{R}^{d_{model}}$
Genera hipnodensidades (representación probabilística de etapas del sueño)

2. Codificador de Atención Triaxial (Tri-axial Attention Encoder)

Extiende la atención criss-cross en tres rutas:

Atención Espacial: Cálculo de atención a lo largo del eje de canales $C_{m_k}$ $Z_s^{(i)} = \text{Softmax}\left(\frac{\text{LN}(Q_s^{(i)}) \text{LN}(K_s^{(i)})^T}{\sqrt{d_k}}\right) V_s^{(i)}$

Atención Temporal: Cálculo de atención a lo largo del eje de longitud de secuencia T

Atención Mixta: Cálculo de atención a lo largo del eje de predictores base $B_{m_k}$

Cada ruta asigna h/3 cabezas de atención, con concatenación final de todas las salidas de ruta.

Utiliza mecanismo de fusión basado en atención: $\alpha_{t,n} = \frac{\exp(\tanh(W_A x_{t,n} + b_A)^T u_A)}{\sum_{j=1}^N \exp(\tanh(W_A x_{t,j} + b_A)^T u_A)}$

Calcula combinación ponderada: $\hat{z}_t = \sum_{n=1}^N \alpha_{t,n} \tilde{z}_{t,n}$

4. Cabeza Clasificadora (Classifier Head)

Red neuronal prealimentada de una capa oculta, entrenada de extremo a extremo con pérdida de entropía cruzada.

Puntos de Innovación Técnica

Mecanismo de Atención Triaxial: Descomposición del cálculo de atención en tres dimensiones (espacial, temporal y predictor), más eficiente y específico que la atención conjunta tradicional.
Adaptación Dinámica de Dimensiones: Muestreo aleatorio durante el entrenamiento de diferentes pasos temporales, conjuntos de modalidades, números de canales y predictores base para mejorar la capacidad de generalización.
Estrategia de Acumulación de Gradientes: Acumulación de gradientes en G lotes diferentes, evitando operaciones de relleno y enmascaramiento, mejorando la eficiencia computacional.

Configuración Experimental

Conjuntos de Datos

Conjuntos de Datos de Entrenamiento:

BSWR: 8,410 registros PSG (≈67,000 horas), cubriendo el espectro completo de trastornos del sueño-vigilia
Conjunto retenido de conjuntos de datos NSRR: incluyendo ABC, APOE, APPLES, CCSHS, CFS, CHAT, HOMEPAP, MESA, MNC, MROS, MSP, NCHSDB, SHHS, SOF, WSC

Conjuntos de Datos de Evaluación (cero disparos):

DOD-H & DOD-O: Adultos sanos y pacientes con OSA
DCSM: Datos del Centro de Medicina del Sueño Danés
SEDF-SC & SEDF-ST: Conjuntos de datos extendidos de Sleep-EDF
PHYS: Datos del Desafío PhysioNet 2018

Métricas de Evaluación

Puntuación F1 promediada macro (Macro F1, MF1)
Puntuaciones F1 para cada etapa del sueño (F1W, F1N1, F1N2, F1N3, F1REM)

Métodos de Comparación

Mejor modelo unimodal (como DeepResNetEEG, U-SleepEEG)
Método de conjunto SOMNUS (votación suave en todos los canales, modalidades y modelos)

Detalles de Implementación

Dimensión de incrustación: dmodel = 24
Número de cabezas de atención: h = 6 (2 cabezas por ruta)
Número de capas de codificador: L = 4
Tamaño de lote: B = 8 registros, K = 4 segmentos por registro
Acumulación de gradientes: G = 4 propagaciones hacia adelante-atrás
Optimizador: AdamW, tasa de aprendizaje η = 10^-3

Resultados Experimentales

Resultados Principales

Conjunto de Datos	Modelo	MF1	F1W	F1N1	F1N2	F1N3	F1REM
BSWR	DeepResNetEEG	.695(.120)	.828(.143)	.397(.172)	.793(.148)	.629(.270)	.848(.180)
	SOMNUS	.708(.120)	.836(.141)	.404(.178)	.804(.146)	.696(.280)	.864(.173)
	NAP	.749(.117)‡	.856(.132)	.533(.164)	.809(.146)	.705(.260)	.864(.172)
DCSM	SOMNUS	.803(.084)	.983(.023)	.505(.153)	.858(.097)	.783(.202)	.891(.146)
	NAP	.815(.081)‡	.986(.020)	.550(.143)	.848(.103)	.802(.190)	.893(.145)

‡ Indica mejora estadísticamente significativa en MF1 en relación con otros métodos (α < 0.05)

Hallazgos Clave

Mejora Consistente: NAP logra mejoras de MF1 de cero disparos en la mayoría de conjuntos de datos fuera de distribución
- DCSM: 0.803 → 0.815
- DOD-H: 0.828 → 0.834
- PHYS: 0.693 → 0.732
- SEDF-SC: 0.734 → 0.752
- SEDF-ST: 0.761 → 0.796
Mejora en Etapa N1: La mejora de MF1 proviene principalmente de la mejora en la identificación de la difícil etapa N1, mejorando también la identificación de la etapa Vigilia en algunos casos
Escenarios de Máxima Mejora: NAP logra las mayores mejoras en conjuntos de datos donde SOMNUS tiene un rendimiento relativamente pobre (como PHYS y SEDF)

Experimentos de Ablación

Aunque el artículo no presenta experimentos de ablación detallados, la comparación con votación suave simple (SOMNUS) valida las ventajas del mecanismo de atención sobre el promediado simple.

Trabajo Relacionado

Direcciones de Investigación Principales

Clasificación Automática del Sueño: Múltiples paradigmas de modelado utilizando redes convolucionales, recurrentes y de atención
Fusión Multimodal: Fusión temprana (fusión de representaciones) vs. fusión tardía (agregación de predicciones)
Métodos de Conjunto: Estrategias de votación suave en canales, modalidades o modelos

Ventajas de Este Trabajo

Flexibilidad: Capacidad de procesar cualquier número de modalidades, canales y predictores
Modelado Temporal: Modelado explícito de dependencias temporales en comparación con votación suave a nivel de época
Mecanismo de Atención: Aprendizaje de pesos adaptativos en lugar de asumir pesos iguales

Conclusiones y Discusión

Conclusiones Principales

NAP agrega efectivamente flujos de predicción multimodal mediante mecanismos de atención, logrando rendimiento de generalización de cero disparos de última generación en múltiples conjuntos de datos
La fusión tardía principista puede cerrar las brechas de rendimiento de métodos existentes en ciertos conjuntos de datos
El mecanismo de atención triaxial es una estrategia efectiva para procesar relaciones de dependencia multidimensional

Limitaciones

Limitación Modal: Los experimentos actuales consideran solo modalidades EEG y EOG, limitados por la disponibilidad de modelos preentrenados
Dependencia del Modelo Base: El rendimiento está limitado por la calidad de los modelos preentrenados de un solo canal
Sobrecarga Computacional: Aunque más eficiente que la atención conjunta, aún requiere recursos computacionales adicionales

Direcciones Futuras

Expansión Modal: Integración de modelos preentrenados para más señales fisiológicas (EMG, ECG, etc.)
Fusión Temprana: Adaptación como Neural Aggregator of Representations para fusión a nivel de representación
Aplicaciones Interdisciplinarias: Extensión a otras aplicaciones de señales fisiológicas que requieren agregación de predicciones multimodal

Evaluación Profunda

Fortalezas

Innovación Fuerte: El diseño del mecanismo de atención triaxial es novedoso, resolviendo efectivamente el problema del modelado de dependencias multidimensionales
Alto Valor Práctico: Resuelve el importante problema de heterogeneidad de datos PSG en la práctica clínica
Experimentación Exhaustiva: Evaluación completa de cero disparos en múltiples conjuntos de datos a gran escala
Marco Generalizable: La arquitectura es extensible a otras aplicaciones de señales fisiológicas multimodal

Deficiencias

Análisis Teórico Insuficiente: Falta análisis teórico del mecanismo de atención triaxial y análisis de complejidad
Experimentos de Ablación Limitados: Sin análisis detallado de las contribuciones específicas de cada componente (atención espacial, temporal, mixta)
Cobertura Modal Incompleta: Solo validación de EEG y EOG, falta de verificación de otras modalidades importantes (EMG, ECG)

Impacto

Contribución Académica: Proporciona una nueva estrategia de fusión para procesamiento de señales fisiológicas multimodal
Valor Clínico: Promete mejorar la practicidad y precisión de sistemas automáticos de clasificación del sueño
Reproducibilidad: Proporciona detalles de implementación detallados, facilitando reproducción y extensión

Escenarios Aplicables

Medicina Clínica del Sueño: Clasificación automática del sueño bajo diferentes configuraciones de hospitales y equipos
Señales Fisiológicas Multimodal: Otras aplicaciones médicas que requieren fusión de múltiples predicciones de señales fisiológicas
Fusión de Datos Heterogéneos: Cualquier tarea de agregación de predicciones multimodal que requiera procesar dimensiones variables

Referencias

El artículo cita trabajos importantes en medicina del sueño, aprendizaje profundo y fusión multimodal, incluyendo:

Berry et al. (2017): Estándares de clasificación del sueño AASM
Perslev et al. (2021): Modelo U-Sleep
Phan et al. (2022): SleepTransformer
Huang et al. (2019): Trabajo original de atención criss-cross
Zhang et al. (2018, 2024): Recursos de datos NSRR

Evaluación General: Este es un artículo de aprendizaje automático de alta calidad que propone una solución innovadora para un problema clínicamente importante. El diseño del mecanismo de atención triaxial es ingenioso y los resultados experimentales son convincentes. Aunque hay espacio para mejora en análisis teórico y experimentos de ablación, su valor práctico e innovación técnica lo convierten en una contribución importante en el campo del procesamiento de señales fisiológicas multimodal.