NAP: Attention-Based Late Fusion for Automatic Sleep Staging
Rossi, van der Meer, Schmidt et al.
Polysomnography signals are highly heterogeneous, varying in modality composition (e.g., EEG, EOG, ECG), channel availability (e.g., frontal, occipital EEG), and acquisition protocols across datasets and clinical sites. Most existing models that process polysomnography data rely on a fixed subset of modalities or channels and therefore neglect to fully exploit its inherently multimodal nature. We address this limitation by introducing NAP (Neural Aggregator of Predictions), an attention-based model which learns to combine multiple prediction streams using a tri-axial attention mechanism that captures temporal, spatial, and predictor-level dependencies. NAP is trained to adapt to different input dimensions. By aggregating outputs from frozen, pretrained single-channel models, NAP consistently outperforms individual predictors and simple ensembles, achieving state-of-the-art zero-shot generalization across multiple datasets. While demonstrated in the context of automated sleep staging from polysomnography, the proposed approach could be extended to other multimodal physiological applications.
academic
NAP: Fusión Tardía Basada en Atención para Clasificación Automática del Sueño
Las señales de polisomnografía (PSG) presentan una alta heterogeneidad, con variaciones en la composición modal (como EEG, EOG, ECG), disponibilidad de canales (como EEG frontal u occipital) y protocolos de adquisición en diferentes conjuntos de datos y centros clínicos. La mayoría de los modelos existentes que procesan datos de PSG dependen de subconjuntos fijos de modalidades o canales, por lo que no aprovechan plenamente su naturaleza multimodal inherente. Este artículo aborda esta limitación mediante la introducción de NAP (Neural Aggregator of Predictions), un modelo basado en mecanismos de atención que utiliza atención triaxial para aprender a combinar múltiples flujos de predicción, capturando dependencias a nivel temporal, espacial y de predictor. NAP se entrena para adaptarse a diferentes dimensiones de entrada. Al agregar salidas de modelos preentrenados de un solo canal congelados, NAP supera consistentemente a predictores individuales y métodos de conjunto simples, logrando un rendimiento de generalización de cero disparos de última generación en múltiples conjuntos de datos.
Problema Central: El problema de heterogeneidad en datos de polisomnografía (PSG), incluyendo diferentes composiciones modales, configuraciones de canales y protocolos de adquisición, que los modelos existentes no pueden aprovechar plenamente.
Importancia:
La clasificación del sueño es el estándar de oro clínico para diagnosticar trastornos del sueño-vigilia
La clasificación manual del sueño consume tiempo y presenta sesgos subjetivos
La información multimodal proporciona una vista más completa de la dinámica del sueño, facilitando una mejor comprensión de la salud del paciente
Limitaciones de Métodos Existentes:
La mayoría de los modelos dependen de subconjuntos fijos de modalidades o canales
Los métodos de votación suave simple asumen que el promediado es una función de agregación suficiente
Tratan implícitamente a todos los contribuyentes como igualmente confiables
Operan a nivel de época, ignorando las dependencias temporales
Motivación de la Investigación: Desarrollar un modelo con mecanismo de atención que pueda procesar flexiblemente diferentes dimensiones de entrada, agregar efectivamente múltiples flujos de predicción multimodal y mantener modularidad.
Propuesta del Modelo NAP: Un metamodelo ligero basado en atención que aprende a agregar predicciones de modelos preentrenados de un solo canal capturando explícitamente dependencias temporales, espaciales/de canal, a nivel de modelo y entre modalidades.
Extensión del Mecanismo de Atención Cruzada: Generalización del mecanismo de atención criss-cross desde dimensiones espacio-temporales a atención triaxial como estrategia de fusión efectiva.
Entrenamiento Adaptativo a Dimensiones: Extensión del entrenamiento adaptativo a dimensiones para muestrear dinámicamente diferentes longitudes de secuencia, números de canales, números de modelos y números de modalidades.
Rendimiento SOTA de Cero Disparos: Logro de rendimiento de generalización de cero disparos de última generación en múltiples conjuntos de datos, superando significativamente a predictores individuales y métodos de conjunto simple.
Mecanismo de Atención Triaxial: Descomposición del cálculo de atención en tres dimensiones (espacial, temporal y predictor), más eficiente y específico que la atención conjunta tradicional.
Adaptación Dinámica de Dimensiones: Muestreo aleatorio durante el entrenamiento de diferentes pasos temporales, conjuntos de modalidades, números de canales y predictores base para mejorar la capacidad de generalización.
Estrategia de Acumulación de Gradientes: Acumulación de gradientes en G lotes diferentes, evitando operaciones de relleno y enmascaramiento, mejorando la eficiencia computacional.
Mejora Consistente: NAP logra mejoras de MF1 de cero disparos en la mayoría de conjuntos de datos fuera de distribución
DCSM: 0.803 → 0.815
DOD-H: 0.828 → 0.834
PHYS: 0.693 → 0.732
SEDF-SC: 0.734 → 0.752
SEDF-ST: 0.761 → 0.796
Mejora en Etapa N1: La mejora de MF1 proviene principalmente de la mejora en la identificación de la difícil etapa N1, mejorando también la identificación de la etapa Vigilia en algunos casos
Escenarios de Máxima Mejora: NAP logra las mayores mejoras en conjuntos de datos donde SOMNUS tiene un rendimiento relativamente pobre (como PHYS y SEDF)
Aunque el artículo no presenta experimentos de ablación detallados, la comparación con votación suave simple (SOMNUS) valida las ventajas del mecanismo de atención sobre el promediado simple.
NAP agrega efectivamente flujos de predicción multimodal mediante mecanismos de atención, logrando rendimiento de generalización de cero disparos de última generación en múltiples conjuntos de datos
La fusión tardía principista puede cerrar las brechas de rendimiento de métodos existentes en ciertos conjuntos de datos
El mecanismo de atención triaxial es una estrategia efectiva para procesar relaciones de dependencia multidimensional
Innovación Fuerte: El diseño del mecanismo de atención triaxial es novedoso, resolviendo efectivamente el problema del modelado de dependencias multidimensionales
Alto Valor Práctico: Resuelve el importante problema de heterogeneidad de datos PSG en la práctica clínica
Experimentación Exhaustiva: Evaluación completa de cero disparos en múltiples conjuntos de datos a gran escala
Marco Generalizable: La arquitectura es extensible a otras aplicaciones de señales fisiológicas multimodal
El artículo cita trabajos importantes en medicina del sueño, aprendizaje profundo y fusión multimodal, incluyendo:
Berry et al. (2017): Estándares de clasificación del sueño AASM
Perslev et al. (2021): Modelo U-Sleep
Phan et al. (2022): SleepTransformer
Huang et al. (2019): Trabajo original de atención criss-cross
Zhang et al. (2018, 2024): Recursos de datos NSRR
Evaluación General: Este es un artículo de aprendizaje automático de alta calidad que propone una solución innovadora para un problema clínicamente importante. El diseño del mecanismo de atención triaxial es ingenioso y los resultados experimentales son convincentes. Aunque hay espacio para mejora en análisis teórico y experimentos de ablación, su valor práctico e innovación técnica lo convierten en una contribución importante en el campo del procesamiento de señales fisiológicas multimodal.