2025-11-12T20:43:14.525720

Multi Class Parkinsons Disease Detection Based on Finger Tapping Using Attention-Enhanced CNN BiLSTM

Miah, Hassan, Hossain et al.
Effective clinical management and intervention development depend on accurate evaluation of Parkinsons disease (PD) severity. Many researchers have worked on developing gesture-based PD recognition systems; however, their performance accuracy is not satisfactory. In this study, we propose a multi-class Parkinson Disease detection system based on finger tapping using an attention-enhanced CNN BiLSTM. We collected finger tapping videos and derived temporal, frequency, and amplitude based features from wrist and hand movements. Then, we proposed a hybrid deep learning framework integrating CNN, BiLSTM, and attention mechanisms for multi-class PD severity classification from video-derived motion features. First, the input sequence is reshaped and passed through a Conv1D MaxPooling block to capture local spatial dependencies. The resulting feature maps are fed into a BiLSTM layer to model temporal dynamics. An attention mechanism focuses on the most informative temporal features, producing a context vector that is further processed by a second BiLSTM layer. CNN-derived features and attention-enhanced BiLSTM outputs are concatenated, followed by dense and dropout layers, before the final softmax classifier outputs the predicted PD severity level. The model demonstrated strong performance in distinguishing between the five severity classes, suggesting that integrating spatial temporal representations with attention mechanisms can improve automated PD severity detection, making it a promising non-invasive tool to support clinicians in PD monitoring and progression tracking.
academic

Détection Multi-Classe de la Maladie de Parkinson Basée sur le Tapotement des Doigts Utilisant un CNN-BiLSTM Amélioré par Attention

Informations Fondamentales

  • ID de l'article: 2510.10121
  • Titre: Multi-Class Parkinson's Disease Detection Based on Finger Tapping Using Attention-Enhanced CNN-BiLSTM
  • Auteurs: Abu Saleh Musa Miah, Md Maruf Al Hossain, Najmul Hassan, Yuichi Okuyama, Jungpil Shin
  • Classification: cs.CV (Vision par Ordinateur)
  • Date de Publication: 11 octobre 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2510.10121

Résumé

La gestion clinique efficace et le développement d'interventions pour la maladie de Parkinson (MP) dépendent d'une évaluation précise de la gravité de la maladie. Cette étude propose un système de détection multi-classe de la MP basé sur le tapotement des doigts, utilisant une architecture CNN-BiLSTM améliorée par attention. L'étude extrait des caractéristiques temporelles, fréquentielles et d'amplitude à partir de vidéos de tapotement des doigts, construisant un cadre d'apprentissage profond hybride intégrant CNN, BiLSTM et des mécanismes d'attention. Le modèle capture les dépendances spatiales locales via des blocs Conv1D-MaxPooling, modélise la dynamique temporelle par des couches BiLSTM, et concentre l'attention sur les caractéristiques temporelles les plus informatives. Il atteint une précision de classification de 93%, démontrant une excellente performance dans la distinction de cinq niveaux de gravité.

Contexte et Motivation de la Recherche

Définition du Problème

La maladie de Parkinson est une maladie neurodégénérative progressive affectant plus de 10 millions de personnes dans le monde, caractérisée principalement par des tremblements, une rigidité, une bradykinésie et une instabilité posturale. L'évaluation traditionnelle de la gravité de la MP repose principalement sur des échelles cliniques telles que l'UPDRS (Unified Parkinson's Disease Rating Scale) et la MDS-UPDRS.

Limitations des Méthodes Existantes

  1. Forte Subjectivité: L'évaluation clinique traditionnelle dépend du jugement subjectif du médecin, avec une variabilité inter-évaluateurs
  2. Consommation de Temps: Le processus d'évaluation clinique est complexe et consomme d'importantes ressources temporelles et humaines
  3. Manque de Cohérence: Absence de méthodes d'évaluation objectives et standardisées, affectant le suivi de la progression de la maladie
  4. Précision Insuffisante: Les systèmes existants de reconnaissance de la MP basés sur les gestes présentent une performance insuffisante

Motivation de la Recherche

Développer une méthode non-invasive, objective et accessible d'évaluation automatique de la gravité de la MP basée sur l'analyse vidéo, utilisant la vision par ordinateur et les techniques d'apprentissage automatique pour réaliser une classification précise de la maladie, fournissant aux cliniciens un outil de diagnostic auxiliaire fiable.

Contributions Principales

  1. Proposition d'une architecture hybride CNN-BiLSTM améliorée par attention, combinant efficacement l'extraction de caractéristiques spatiales et la modélisation de séries temporelles
  2. Réalisation d'une classification multi-classe de la gravité de la MP, capable de distinguer cinq niveaux de gravité différents
  3. Intégration d'un mécanisme d'attention, améliorant la capacité du modèle à se concentrer sur les caractéristiques temporelles critiques
  4. Atteinte d'une précision de classification de 93%, surpassant significativement les méthodes de base
  5. Fourniture d'un outil de surveillance non-invasive de la MP, soutenant le suivi de la progression de la maladie par les cliniciens

Détails de la Méthode

Définition de la Tâche

Entrée: Vecteur de caractéristiques de 57 dimensions dérivé de vidéos de tapotement des doigts, incluant des caractéristiques temporelles, fréquentielles et d'amplitude Sortie: Résultat de classification multi-classe de la gravité de la MP (Classes 0-4) Contraintes: Données annotées par des experts basées sur la norme MDS-UPDRS

Architecture du Modèle

Conception Globale

Le modèle adopte un processus de traitement multi-étapes:

  1. Remodelage d'Entrée: Remodelage du vecteur de 57 dimensions en format séquentiel
  2. Extraction de Caractéristiques CNN: Conv1D + MaxPooling1D pour capturer les motifs spatiaux locaux
  3. Modélisation Temporelle BiLSTM: LSTM bidirectionnel pour modéliser les relations temporelles
  4. Mécanisme d'Attention: Concentration sur les caractéristiques temporelles les plus importantes
  5. Fusion de Caractéristiques: Concaténation des caractéristiques CNN et BiLSTM améliorées par attention
  6. Sortie de Classification: Couche entièrement connectée + Softmax pour la classification en cinq classes

Formules Mathématiques

Représentation d'Entrée:

X = {x₁, x₂, ..., xₙ}, xᵢ ∈ R⁵⁷

Traitement Convolutif:

X_reshaped = Reshape(X) ∈ R^(N×57×1)
X_conv = Conv1D(X_reshaped)
X_pool = MaxPooling1D(X_conv)

Modélisation BiLSTM:

hₜ = BiLSTM(X_pool)

Mécanisme d'Attention:

score(i,j) = tanh(W₁hᵢ + W₂hⱼ)
αᵢⱼ = softmax(V(score(i,j)))
cⱼ = Σᵢ αᵢⱼhᵢ

Fusion de Caractéristiques et Sortie:

X_combined = [Flatten(X_conv), Flatten(h_final)]
ŷ = softmax(Dense(X_combined))

Points d'Innovation Technique

  1. Fusion Multi-Modale de Caractéristiques: Utilisation simultanée des caractéristiques spatiales extraites par CNN et des caractéristiques temporelles modélisées par BiLSTM
  2. Conception BiLSTM Bicouche: La première couche BiLSTM modélise les dépendances temporelles fondamentales, la deuxième traite les caractéristiques améliorées par attention
  3. Poids d'Attention Adaptatifs: Calcul dynamique des poids d'attention, concentration automatique sur les segments temporels clés
  4. Optimisation Bout-à-Bout: L'architecture entière peut être entraînée bout-à-bout, évitant l'ingénierie manuelle des caractéristiques

Configuration Expérimentale

Ensemble de Données

  • Source de Données: Ensemble de données public ParkTest
  • Échelle de Données: Vidéos de tapotement des doigts de 250 participants mondiaux
  • Collecte de Données: Principalement collectées au domicile des participants via webcam, 48 personnes complétées en clinique
  • Méthode d'Annotation: Annotation par des neurologues experts et des évaluateurs certifiés MDS-UPDRS
  • Dimension des Caractéristiques: 57 caractéristiques incluant la vitesse, l'accélération, la fréquence, la période, l'amplitude du tapotement des doigts et le déplacement du poignet

Métriques d'Évaluation

  • Précision (Accuracy): Précision globale de classification
  • Précision (Precision): Précision de prédiction par classe
  • Rappel (Recall): Taux de détection par classe
  • Score F1: Moyenne harmonique de la précision et du rappel
  • Moyenne Macro: Moyenne des métriques par classe

Méthodes de Comparaison

  • Méthode de Base: Méthode originale proposée par Islam et al. 1
  • Étude d'Ablation: Analyse de la contribution de chaque composant (CNN, BiLSTM, mécanisme d'attention)

Détails d'Implémentation

  • Optimiseur: Optimiseur Adam
  • Fonction de Perte: Entropie croisée de classification clairsemée
  • Nombre d'Epochs: 100 epochs
  • Taux de Dropout: 0.2
  • Couche Entièrement Connectée: 250 unités
  • Temps d'Entraînement: 31.82 secondes (100 epochs)

Résultats Expérimentaux

Résultats Principaux

ClassePrécisionRappelScore F1
095.00%95.00%95.00%
192.00%92.00%92.00%
290.00%97.00%93.00%
3100.00%83.00%91.00%
4100.00%100.00%100.00%
Moyenne Macro95.40%93.40%94.20%
Précision Globale93.00%

Découvertes Clés

  1. Performance Excellente Globale: La précision de 93% surpasse significativement la méthode de base
  2. Identification des Cas Graves: La Classe 4 (grave) atteint 100% de précision, rappel et score F1
  3. Performance Équilibrée par Classe: Bonne performance pour tous les niveaux de gravité
  4. Entraînement Efficace: Seulement 31.82 secondes pour 100 epochs
  5. Analyse de la Matrice de Confusion: Concentration élevée sur la diagonale, peu de mauvaises classifications

Analyse de la Performance du Modèle

  • Performance Classe 2: Rappel le plus élevé (97%), précision 90%, indiquant une sensibilité forte du modèle pour cette classe
  • Classes 3-4: Identification précise des cas graves, importance clinique majeure
  • Effet de l'Attention: Capture réussie des motifs temporels pertinents dans les caractéristiques de marche
  • Avantage de l'Architecture: La combinaison CNN et BiLSTM améliore efficacement la distinction entre les niveaux de gravité adjacents

Travaux Connexes

Méthodes d'Apprentissage Automatique Traditionnel

  • Ingénierie des Caractéristiques: Algorithmes SVM, arbres de décision, forêts aléatoires avec caractéristiques manuelles
  • Fusion Multi-Modale: Combinaison de données d'imagerie et cliniques pour améliorer la performance diagnostique
  • Interprétabilité: Méthodes EBM fournissant des explications globales et locales transparentes

Progrès de l'Apprentissage Profond

  • Application CNN: Architecture ResNet18 atteignant 98.66% de précision sur données IRM
  • Mécanisme d'Attention: AttentionLUNet intégrant LeNet et U-Net, précision 99.58%
  • Modélisation Temporelle: CNN-LSTM réalisant 93.51% de précision sur données vocales
  • Attention 3D: Réseau résiduel multi-têtes pour la reconnaissance des changements de mouvement

Avantages de cet Article

Comparé aux travaux existants, cet article intègre pour la première fois complètement CNN, BiLSTM et mécanisme d'attention pour la classification multi-classe de la gravité de la MP, atteignant une meilleure performance sur les caractéristiques de mouvement dérivées de vidéos.

Conclusion et Discussion

Conclusions Principales

  1. Efficacité de la Méthode: L'architecture CNN-BiLSTM améliorée par attention peut détecter efficacement la gravité multi-classe de la MP
  2. Importance des Caractéristiques: La combinaison de caractéristiques temporelles, fréquentielles et d'amplitude est cruciale pour la classification de la MP
  3. Valeur Clinique: Fournit un outil d'évaluation objective et reproductible de la maladie
  4. Avantage Technique: L'intégration de représentations spatio-temporelles et du mécanisme d'attention améliore significativement la performance de détection automatique de la gravité de la MP

Limitations

  1. Taille de l'Ensemble de Données: 250 échantillons sont relativement peu nombreux, pouvant affecter la capacité de généralisation du modèle
  2. Dépendance aux Caractéristiques: Dépend des caractéristiques pré-extraites manuelles, sans réaliser le traitement bout-à-bout de vidéos brutes
  3. Modalité Unique: Basé uniquement sur le tapotement des doigts, sans fusion d'autres modalités de mouvement
  4. Validation Inter-Ensembles: Manque de validation sur d'autres ensembles de données indépendants

Directions Futures

  1. Fusion Multi-Modale: Intégration de données de marche, voix, expression faciale et autres modalités
  2. Apprentissage Bout-à-Bout: Apprentissage direct à partir de vidéos brutes
  3. Validation à Grande Échelle: Validation sur des ensembles de données plus volumineux et multi-centriques
  4. Application Temps Réel: Développement de systèmes de surveillance de la MP en temps réel
  5. Interprétabilité: Amélioration de l'interprétabilité et de la crédibilité clinique du modèle

Évaluation Approfondie

Points Forts

  1. Innovation Architecturale: Première intégration complète de CNN, BiLSTM et mécanisme d'attention pour la classification de la MP
  2. Performance Excellente: La précision de 93% est relativement élevée dans ce domaine
  3. Valeur Pratique: Fournit un outil d'évaluation objective et non-invasive de la MP
  4. Chaîne Technique Complète: Chaîne technologique complète de l'extraction de caractéristiques à la classification
  5. Pertinence Clinique: Basé sur l'évaluation standard MDS-UPDRS, avec crédibilité clinique

Insuffisances

  1. Limitation de la Taille de l'Ensemble de Données: 250 échantillons peuvent être insuffisants pour entraîner complètement un modèle profond
  2. Dépendance à l'Ingénierie des Caractéristiques: Nécessite toujours des caractéristiques conçues manuellement, sans apprentissage bout-à-bout
  3. Tâche Unique: Concentré uniquement sur le tapotement des doigts, sans considérer d'autres symptômes moteurs de la MP
  4. Absence d'Études d'Ablation Détaillées: Analyse insuffisante de la contribution spécifique de chaque composant
  5. Vérification de la Généralisation: Manque de validation inter-ensembles et inter-populations

Impact

  1. Contribution Académique: Fournit une nouvelle voie technologique pour la détection automatique de la MP
  2. Application Clinique: Peut devenir un outil de diagnostic auxiliaire pour les médecins
  3. Promotion Technologique: L'architecture hybride améliorée par attention peut être étendue à d'autres applications médicales
  4. Valeur Sociale: Fournit aux patients atteints de MP un moyen pratique d'auto-surveillance

Scénarios d'Application

  1. Diagnostic Auxiliaire Clinique: Soutien aux neurologues pour l'évaluation de la gravité de la MP
  2. Surveillance à Domicile: Les patients peuvent effectuer des auto-tests réguliers à domicile
  3. Évaluation de l'Efficacité Thérapeutique: Surveillance des changements de maladie pendant le traitement
  4. Dépistage à Grande Échelle: Utilisation pour le dépistage de la MP dans les communautés ou centres de santé
  5. Télémédecine: Soutien aux besoins de surveillance de la MP en télémédecine

Références

1 Md Saiful Islam et al. Using ai to measure parkinson's disease severity at home. NPJ digital medicine, 6(1):156, 2023.

27 Daniel Deng et al. Interpretable video-based tracking and quantification of parkinsonism clinical motor states. npj Parkinson's Disease, 10(1):122, 2024.

30 Umesh Kumar Lilhore et al. Hybrid cnn-lstm model with efficient hyperparameter tuning for prediction of parkinson's disease. Scientific Reports, 13(1):14605, 2023.


Évaluation Globale: Cet article est une recherche techniquement solide avec une valeur d'application claire. L'architecture CNN-BiLSTM améliorée par attention proposée par les auteurs atteint de bons résultats sur la tâche de détection multi-classe de la MP, fournissant une contribution technologique précieuse à ce domaine. Bien que présentant des limitations en termes de taille d'ensemble de données et de généralisation, la qualité globale de la recherche est élevée avec de bonnes perspectives d'application clinique.