2025-11-12T20:43:14.525720

Multi Class Parkinsons Disease Detection Based on Finger Tapping Using Attention-Enhanced CNN BiLSTM

Miah, Hassan, Hossain et al.
Effective clinical management and intervention development depend on accurate evaluation of Parkinsons disease (PD) severity. Many researchers have worked on developing gesture-based PD recognition systems; however, their performance accuracy is not satisfactory. In this study, we propose a multi-class Parkinson Disease detection system based on finger tapping using an attention-enhanced CNN BiLSTM. We collected finger tapping videos and derived temporal, frequency, and amplitude based features from wrist and hand movements. Then, we proposed a hybrid deep learning framework integrating CNN, BiLSTM, and attention mechanisms for multi-class PD severity classification from video-derived motion features. First, the input sequence is reshaped and passed through a Conv1D MaxPooling block to capture local spatial dependencies. The resulting feature maps are fed into a BiLSTM layer to model temporal dynamics. An attention mechanism focuses on the most informative temporal features, producing a context vector that is further processed by a second BiLSTM layer. CNN-derived features and attention-enhanced BiLSTM outputs are concatenated, followed by dense and dropout layers, before the final softmax classifier outputs the predicted PD severity level. The model demonstrated strong performance in distinguishing between the five severity classes, suggesting that integrating spatial temporal representations with attention mechanisms can improve automated PD severity detection, making it a promising non-invasive tool to support clinicians in PD monitoring and progression tracking.
academic

Detección de Enfermedad de Parkinson Multiclase Basada en Golpeteo de Dedos Utilizando CNN-BiLSTM Mejorado con Atención

Información Básica

  • ID del Artículo: 2510.10121
  • Título: Multi-Class Parkinson's Disease Detection Based on Finger Tapping Using Attention-Enhanced CNN-BiLSTM
  • Autores: Abu Saleh Musa Miah, Md Maruf Al Hossain, Najmul Hassan, Yuichi Okuyama, Jungpil Shin
  • Clasificación: cs.CV (Visión por Computadora)
  • Fecha de Publicación: 11 de octubre de 2025 (Preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.10121

Resumen

La gestión clínica efectiva y el desarrollo de intervenciones para la enfermedad de Parkinson (EP) dependen de la evaluación precisa de la gravedad de la enfermedad. Este estudio propone un sistema de detección multiclase de la enfermedad de Parkinson basado en el golpeteo de dedos, utilizando una arquitectura CNN-BiLSTM mejorada con atención. El estudio extrae características temporales, de frecuencia y amplitud de videos de golpeteo de dedos, construyendo un marco de aprendizaje profundo híbrido que integra CNN, BiLSTM y mecanismos de atención. El modelo captura dependencias espaciales locales mediante bloques Conv1D-MaxPooling, las capas BiLSTM modelan dinámicas temporales, y el mecanismo de atención se enfoca en las características temporales más informativas. Finalmente, logra una precisión de clasificación del 93%, mostrando un desempeño excelente en la diferenciación de cinco niveles de gravedad.

Antecedentes y Motivación de la Investigación

Definición del Problema

La enfermedad de Parkinson es una enfermedad neurodegenerativa progresiva que afecta a más de 10 millones de personas en todo el mundo, manifestándose principalmente con síntomas motores como temblor, rigidez, bradicinesia e inestabilidad postural. La evaluación tradicional de la gravedad de la EP se basa principalmente en escalas clínicas como la UPDRS (Escala Unificada de Evaluación de la Enfermedad de Parkinson) y MDS-UPDRS.

Limitaciones de los Métodos Existentes

  1. Alta Subjetividad: La evaluación clínica tradicional depende del juicio subjetivo del médico, con variabilidad entre evaluadores
  2. Consumo de Tiempo: El proceso de evaluación clínica es complejo y consume muchos recursos de tiempo y personal
  3. Falta de Consistencia: Ausencia de métodos de evaluación objetivos y estandarizados, afectando el seguimiento de la progresión de la enfermedad
  4. Precisión Insuficiente: Los sistemas existentes de reconocimiento de EP basados en gestos no logran una precisión de rendimiento ideal

Motivación de la Investigación

Desarrollar métodos automáticos no invasivos, objetivos y accesibles para la evaluación de la gravedad de la EP basados en análisis de video, utilizando técnicas de visión por computadora y aprendizaje automático para lograr una clasificación precisa de la enfermedad, proporcionando a los médicos una herramienta confiable de diagnóstico asistido.

Contribuciones Principales

  1. Se propone una arquitectura híbrida CNN-BiLSTM mejorada con atención, que combina efectivamente la extracción de características espaciales y el modelado de series temporales
  2. Se implementa la clasificación multiclase de la gravedad de la EP, capaz de distinguir cinco niveles diferentes de gravedad
  3. Se integra un mecanismo de atención, mejorando la capacidad del modelo para enfocarse en características temporales críticas
  4. Se logra una precisión de clasificación del 93%, significativamente superior a los métodos de referencia
  5. Se proporciona una herramienta de monitoreo no invasiva de la EP, apoyando a los médicos en el seguimiento de la progresión de la enfermedad

Explicación Detallada del Método

Definición de la Tarea

Entrada: Vector de características de 57 dimensiones derivado de videos de golpeteo de dedos, que contiene características temporales, de frecuencia y amplitud Salida: Resultado de clasificación de la gravedad de la EP en cinco clases (Clase 0-4) Restricciones: Datos anotados por expertos basados en el estándar MDS-UPDRS

Arquitectura del Modelo

Diseño General

El modelo adopta un proceso de procesamiento multietapa:

  1. Remodelado de Entrada: Remodelar características de 57 dimensiones en formato de secuencia
  2. Extracción de Características CNN: Conv1D + MaxPooling1D capturan patrones espaciales locales
  3. Modelado Temporal BiLSTM: LSTM bidireccional modela relaciones de dependencia temporal
  4. Mecanismo de Atención: Se enfoca en las características temporales más importantes
  5. Fusión de Características: Conecta características CNN y BiLSTM mejoradas con atención
  6. Salida de Clasificación: Capas completamente conectadas + Softmax para clasificación en cinco clases

Fórmulas Matemáticas

Representación de Entrada:

X = {x₁, x₂, ..., xₙ}, xᵢ ∈ R⁵⁷

Procesamiento Convolucional:

X_remodelado = Reshape(X) ∈ R^(N×57×1)
X_conv = Conv1D(X_remodelado)
X_pool = MaxPooling1D(X_conv)

Modelado BiLSTM:

hₜ = BiLSTM(X_pool)

Mecanismo de Atención:

puntuación(i,j) = tanh(W₁hᵢ + W₂hⱼ)
αᵢⱼ = softmax(V(puntuación(i,j)))
cⱼ = Σᵢ αᵢⱼhᵢ

Fusión de Características y Salida:

X_combinado = [Flatten(X_conv), Flatten(h_final)]
ŷ = softmax(Dense(X_combinado))

Puntos de Innovación Técnica

  1. Fusión de Características Multimodales: Utiliza simultáneamente características espaciales extraídas por CNN y características temporales modeladas por BiLSTM
  2. Diseño BiLSTM de Doble Capa: La primera capa BiLSTM modela dependencias temporales básicas, la segunda capa procesa características mejoradas con atención
  3. Pesos de Atención Adaptativos: Calcula dinámicamente pesos de atención, enfocándose automáticamente en segmentos temporales críticos
  4. Optimización Extremo a Extremo: Toda la arquitectura puede entrenarse extremo a extremo, evitando ingeniería de características manual

Configuración Experimental

Conjunto de Datos

  • Fuente de Datos: Conjunto de datos público ParkTest
  • Escala de Datos: Videos de golpeteo de dedos de 250 participantes globales
  • Recopilación de Datos: Principalmente recopilados en el hogar de los participantes mediante cámara web, 48 personas completadas en clínica
  • Método de Anotación: Anotado por neurólogos expertos y evaluadores certificados en MDS-UPDRS
  • Dimensión de Características: Características de 57 dimensiones, incluyendo velocidad de golpeteo de dedos, aceleración, frecuencia, período, amplitud y desplazamiento de muñeca

Métricas de Evaluación

  • Precisión (Accuracy): Precisión general de clasificación
  • Precisión (Precision): Precisión de predicción de cada clase
  • Sensibilidad (Recall): Tasa de detección de cada clase
  • Puntuación F1: Media armónica de precisión y sensibilidad
  • Promedio Macro: Promedio de métricas de cada clase

Métodos de Comparación

  • Método de Referencia: Método original propuesto por Islam et al. 1
  • Estudio de Ablación: Análisis de la contribución de cada componente (CNN, BiLSTM, mecanismo de atención)

Detalles de Implementación

  • Optimizador: Optimizador Adam
  • Función de Pérdida: Entropía cruzada de clasificación dispersa
  • Épocas de Entrenamiento: 100 épocas
  • Tasa de Dropout: 0.2
  • Capas Completamente Conectadas: 250 unidades
  • Tiempo de Entrenamiento: 31.82 segundos (100 épocas)

Resultados Experimentales

Resultados Principales

ClasePrecisiónSensibilidadPuntuación F1
095.00%95.00%95.00%
192.00%92.00%92.00%
290.00%97.00%93.00%
3100.00%83.00%91.00%
4100.00%100.00%100.00%
Promedio Macro95.40%93.40%94.20%
Precisión General93.00%

Hallazgos Clave

  1. Desempeño General Excelente: Precisión del 93% significativamente superior a los métodos de referencia
  2. Identificación de Casos Graves: La Clase 4 (grave) logra 100% de precisión, sensibilidad y puntuación F1
  3. Desempeño Equilibrado de Clases: Buen desempeño en todos los niveles de gravedad
  4. Entrenamiento Eficiente: Solo requiere 31.82 segundos para completar 100 épocas de entrenamiento
  5. Análisis de Matriz de Confusión: Alta concentración en la diagonal, con pocas clasificaciones erróneas

Análisis del Desempeño del Modelo

  • Desempeño de la Clase 2: Sensibilidad más alta (97%), precisión del 90%, indicando fuerte sensibilidad del modelo a esta clase
  • Clases 3-4: Identificación precisa de casos graves, con significado clínico importante
  • Efecto de Atención: Captura exitosamente patrones temporales relevantes en características de marcha
  • Ventaja de Arquitectura: La combinación de CNN y BiLSTM mejora efectivamente la capacidad de distinción entre niveles de gravedad adyacentes

Trabajos Relacionados

Métodos de Aprendizaje Automático Tradicional

  • Ingeniería de Características: Algoritmos SVM, árboles de decisión, bosques aleatorios combinados con características manuales
  • Fusión Multimodal: Combinación de datos de imágenes y datos clínicos para mejorar el desempeño diagnóstico
  • Interpretabilidad: Métodos como EBM proporcionan explicaciones globales y locales transparentes

Avances en Aprendizaje Profundo

  • Aplicación de CNN: Arquitecturas ResNet18 logran 98.66% de precisión en datos de MRI
  • Mecanismo de Atención: AttentionLUNet integra LeNet y U-Net, logrando 99.58% de precisión
  • Modelado Temporal: CNN-LSTM logra 93.51% de precisión en datos de voz
  • Atención 3D: Red residual de atención multiencabezada para reconocimiento de cambios de movimiento

Ventajas de Este Artículo

En comparación con trabajos existentes, este artículo integra por primera vez CNN, BiLSTM y mecanismo de atención de manera completa para la clasificación multiclase de la gravedad de la EP, logrando mejor desempeño en características de movimiento derivadas de video.

Conclusiones y Discusión

Conclusiones Principales

  1. Efectividad del Método: La arquitectura CNN-BiLSTM mejorada con atención puede detectar efectivamente la gravedad multiclase de la EP
  2. Importancia de Características: La combinación de características temporales, de frecuencia y amplitud es crucial para la clasificación de EP
  3. Valor Clínico: Proporciona una herramienta de evaluación de enfermedad objetiva y reproducible
  4. Ventaja Técnica: La integración de representación espacio-temporal y mecanismo de atención mejora significativamente el desempeño de la detección automática de la gravedad de la EP

Limitaciones

  1. Escala del Conjunto de Datos: 250 muestras son relativamente pequeñas, lo que puede afectar la capacidad de generalización del modelo
  2. Dependencia de Características: Depende de características extraídas manualmente, sin lograr procesamiento extremo a extremo de video sin procesar
  3. Modalidad Única: Basado únicamente en golpeteo de dedos, sin fusionar otras modalidades de movimiento
  4. Validación Entre Conjuntos de Datos: Falta validación en otros conjuntos de datos independientes

Direcciones Futuras

  1. Fusión Multimodal: Integrar datos de múltiples modalidades como marcha, voz y expresión facial
  2. Aprendizaje Extremo a Extremo: Aprender directamente representaciones de características de video sin procesar
  3. Validación a Gran Escala: Validar en conjuntos de datos más grandes y multicéntricos
  4. Aplicación en Tiempo Real: Desarrollar sistemas de monitoreo de EP en tiempo real
  5. Interpretabilidad: Mejorar la interpretabilidad y credibilidad clínica del modelo

Evaluación Profunda

Fortalezas

  1. Innovación de Arquitectura: Primera integración completa de CNN, BiLSTM y mecanismo de atención para clasificación de EP
  2. Desempeño Excelente: Precisión del 93% representa un nivel relativamente alto en este campo
  3. Valor Práctico: Proporciona una herramienta de evaluación de EP no invasiva y objetiva
  4. Completitud Técnica: Cadena técnica completa desde extracción de características hasta clasificación
  5. Relevancia Clínica: Basado en evaluación estándar MDS-UPDRS, con credibilidad clínica

Deficiencias

  1. Limitación de Escala de Datos: 250 muestras pueden ser insuficientes para entrenar completamente modelos profundos
  2. Dependencia de Ingeniería de Características: Aún requiere características diseñadas manualmente, sin lograr aprendizaje extremo a extremo
  3. Tarea Única: Se enfoca solo en golpeteo de dedos, sin considerar otros síntomas motores de la EP
  4. Falta de Estudios de Ablación: No analiza detalladamente la contribución específica de cada componente
  5. Verificación de Generalización: Falta validación entre conjuntos de datos y entre poblaciones

Impacto

  1. Contribución Académica: Proporciona una nueva ruta técnica para la detección automática de EP
  2. Aplicación Clínica: Tiene potencial para convertirse en una herramienta de diagnóstico asistido para médicos
  3. Promoción Tecnológica: La arquitectura híbrida mejorada con atención puede generalizarse a otras aplicaciones médicas
  4. Valor Social: Proporciona a los pacientes con EP un medio conveniente para automonitoreo

Escenarios de Aplicación

  1. Diagnóstico Asistido Clínico: Apoya a neurólogos en la evaluación de la gravedad de la EP
  2. Monitoreo en el Hogar: Los pacientes pueden realizar pruebas de automonitoreo periódicas en casa
  3. Evaluación de Eficacia de Medicamentos: Monitorea cambios en la condición durante el tratamiento
  4. Cribado a Gran Escala: Utilizado para cribado de EP en comunidades o centros de examen médico
  5. Telemedicina: Apoya necesidades de monitoreo de EP en medicina remota

Referencias

1 Md Saiful Islam et al. Using ai to measure parkinson's disease severity at home. NPJ digital medicine, 6(1):156, 2023.

27 Daniel Deng et al. Interpretable video-based tracking and quantification of parkinsonism clinical motor states. npj Parkinson's Disease, 10(1):122, 2024.

30 Umesh Kumar Lilhore et al. Hybrid cnn-lstm model with efficient hyperparameter tuning for prediction of parkinson's disease. Scientific Reports, 13(1):14605, 2023.


Evaluación General: Este es un artículo de investigación técnicamente sólido con valor de aplicación claro. Los autores proponen una arquitectura CNN-BiLSTM mejorada con atención que logra buenos resultados en la tarea de detección multiclase de EP, proporcionando una contribución técnica valiosa para este campo. Aunque existen limitaciones en la escala de datos y generalización, la calidad general de la investigación es alta, con buenas perspectivas de aplicación clínica.