2025-11-12T20:43:14.525720

Multi Class Parkinsons Disease Detection Based on Finger Tapping Using Attention-Enhanced CNN BiLSTM

Miah, Hassan, Hossain et al.

Effective clinical management and intervention development depend on accurate evaluation of Parkinsons disease (PD) severity. Many researchers have worked on developing gesture-based PD recognition systems; however, their performance accuracy is not satisfactory. In this study, we propose a multi-class Parkinson Disease detection system based on finger tapping using an attention-enhanced CNN BiLSTM. We collected finger tapping videos and derived temporal, frequency, and amplitude based features from wrist and hand movements. Then, we proposed a hybrid deep learning framework integrating CNN, BiLSTM, and attention mechanisms for multi-class PD severity classification from video-derived motion features. First, the input sequence is reshaped and passed through a Conv1D MaxPooling block to capture local spatial dependencies. The resulting feature maps are fed into a BiLSTM layer to model temporal dynamics. An attention mechanism focuses on the most informative temporal features, producing a context vector that is further processed by a second BiLSTM layer. CNN-derived features and attention-enhanced BiLSTM outputs are concatenated, followed by dense and dropout layers, before the final softmax classifier outputs the predicted PD severity level. The model demonstrated strong performance in distinguishing between the five severity classes, suggesting that integrating spatial temporal representations with attention mechanisms can improve automated PD severity detection, making it a promising non-invasive tool to support clinicians in PD monitoring and progression tracking.

academic

Détection Multi-Classe de la Maladie de Parkinson Basée sur le Tapotement des Doigts Utilisant un CNN-BiLSTM Amélioré par Attention

Informations Fondamentales

ID de l'article: 2510.10121
Titre: Multi-Class Parkinson's Disease Detection Based on Finger Tapping Using Attention-Enhanced CNN-BiLSTM
Auteurs: Abu Saleh Musa Miah, Md Maruf Al Hossain, Najmul Hassan, Yuichi Okuyama, Jungpil Shin
Classification: cs.CV (Vision par Ordinateur)
Date de Publication: 11 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.10121

Résumé

La gestion clinique efficace et le développement d'interventions pour la maladie de Parkinson (MP) dépendent d'une évaluation précise de la gravité de la maladie. Cette étude propose un système de détection multi-classe de la MP basé sur le tapotement des doigts, utilisant une architecture CNN-BiLSTM améliorée par attention. L'étude extrait des caractéristiques temporelles, fréquentielles et d'amplitude à partir de vidéos de tapotement des doigts, construisant un cadre d'apprentissage profond hybride intégrant CNN, BiLSTM et des mécanismes d'attention. Le modèle capture les dépendances spatiales locales via des blocs Conv1D-MaxPooling, modélise la dynamique temporelle par des couches BiLSTM, et concentre l'attention sur les caractéristiques temporelles les plus informatives. Il atteint une précision de classification de 93%, démontrant une excellente performance dans la distinction de cinq niveaux de gravité.

Contexte et Motivation de la Recherche

Définition du Problème

La maladie de Parkinson est une maladie neurodégénérative progressive affectant plus de 10 millions de personnes dans le monde, caractérisée principalement par des tremblements, une rigidité, une bradykinésie et une instabilité posturale. L'évaluation traditionnelle de la gravité de la MP repose principalement sur des échelles cliniques telles que l'UPDRS (Unified Parkinson's Disease Rating Scale) et la MDS-UPDRS.

Limitations des Méthodes Existantes

Forte Subjectivité: L'évaluation clinique traditionnelle dépend du jugement subjectif du médecin, avec une variabilité inter-évaluateurs
Consommation de Temps: Le processus d'évaluation clinique est complexe et consomme d'importantes ressources temporelles et humaines
Manque de Cohérence: Absence de méthodes d'évaluation objectives et standardisées, affectant le suivi de la progression de la maladie
Précision Insuffisante: Les systèmes existants de reconnaissance de la MP basés sur les gestes présentent une performance insuffisante

Motivation de la Recherche

Développer une méthode non-invasive, objective et accessible d'évaluation automatique de la gravité de la MP basée sur l'analyse vidéo, utilisant la vision par ordinateur et les techniques d'apprentissage automatique pour réaliser une classification précise de la maladie, fournissant aux cliniciens un outil de diagnostic auxiliaire fiable.

Contributions Principales

Proposition d'une architecture hybride CNN-BiLSTM améliorée par attention, combinant efficacement l'extraction de caractéristiques spatiales et la modélisation de séries temporelles
Réalisation d'une classification multi-classe de la gravité de la MP, capable de distinguer cinq niveaux de gravité différents
Intégration d'un mécanisme d'attention, améliorant la capacité du modèle à se concentrer sur les caractéristiques temporelles critiques
Atteinte d'une précision de classification de 93%, surpassant significativement les méthodes de base
Fourniture d'un outil de surveillance non-invasive de la MP, soutenant le suivi de la progression de la maladie par les cliniciens

Détails de la Méthode

Définition de la Tâche

Entrée: Vecteur de caractéristiques de 57 dimensions dérivé de vidéos de tapotement des doigts, incluant des caractéristiques temporelles, fréquentielles et d'amplitude Sortie: Résultat de classification multi-classe de la gravité de la MP (Classes 0-4) Contraintes: Données annotées par des experts basées sur la norme MDS-UPDRS

Architecture du Modèle

Conception Globale

Le modèle adopte un processus de traitement multi-étapes:

Remodelage d'Entrée: Remodelage du vecteur de 57 dimensions en format séquentiel
Extraction de Caractéristiques CNN: Conv1D + MaxPooling1D pour capturer les motifs spatiaux locaux
Modélisation Temporelle BiLSTM: LSTM bidirectionnel pour modéliser les relations temporelles
Mécanisme d'Attention: Concentration sur les caractéristiques temporelles les plus importantes
Fusion de Caractéristiques: Concaténation des caractéristiques CNN et BiLSTM améliorées par attention
Sortie de Classification: Couche entièrement connectée + Softmax pour la classification en cinq classes

Formules Mathématiques

Représentation d'Entrée:

X = {x₁, x₂, ..., xₙ}, xᵢ ∈ R⁵⁷

Traitement Convolutif:

X_reshaped = Reshape(X) ∈ R^(N×57×1)
X_conv = Conv1D(X_reshaped)
X_pool = MaxPooling1D(X_conv)

Modélisation BiLSTM:

hₜ = BiLSTM(X_pool)

Mécanisme d'Attention:

score(i,j) = tanh(W₁hᵢ + W₂hⱼ)
αᵢⱼ = softmax(V(score(i,j)))
cⱼ = Σᵢ αᵢⱼhᵢ

Fusion de Caractéristiques et Sortie:

X_combined = [Flatten(X_conv), Flatten(h_final)]
ŷ = softmax(Dense(X_combined))

Points d'Innovation Technique

Fusion Multi-Modale de Caractéristiques: Utilisation simultanée des caractéristiques spatiales extraites par CNN et des caractéristiques temporelles modélisées par BiLSTM
Conception BiLSTM Bicouche: La première couche BiLSTM modélise les dépendances temporelles fondamentales, la deuxième traite les caractéristiques améliorées par attention
Poids d'Attention Adaptatifs: Calcul dynamique des poids d'attention, concentration automatique sur les segments temporels clés
Optimisation Bout-à-Bout: L'architecture entière peut être entraînée bout-à-bout, évitant l'ingénierie manuelle des caractéristiques

Configuration Expérimentale

Ensemble de Données

Source de Données: Ensemble de données public ParkTest
Échelle de Données: Vidéos de tapotement des doigts de 250 participants mondiaux
Collecte de Données: Principalement collectées au domicile des participants via webcam, 48 personnes complétées en clinique
Méthode d'Annotation: Annotation par des neurologues experts et des évaluateurs certifiés MDS-UPDRS
Dimension des Caractéristiques: 57 caractéristiques incluant la vitesse, l'accélération, la fréquence, la période, l'amplitude du tapotement des doigts et le déplacement du poignet

Métriques d'Évaluation

Précision (Accuracy): Précision globale de classification
Précision (Precision): Précision de prédiction par classe
Rappel (Recall): Taux de détection par classe
Score F1: Moyenne harmonique de la précision et du rappel
Moyenne Macro: Moyenne des métriques par classe

Méthodes de Comparaison

Méthode de Base: Méthode originale proposée par Islam et al. 1
Étude d'Ablation: Analyse de la contribution de chaque composant (CNN, BiLSTM, mécanisme d'attention)

Détails d'Implémentation

Optimiseur: Optimiseur Adam
Fonction de Perte: Entropie croisée de classification clairsemée
Nombre d'Epochs: 100 epochs
Taux de Dropout: 0.2
Couche Entièrement Connectée: 250 unités
Temps d'Entraînement: 31.82 secondes (100 epochs)

Résultats Expérimentaux

Résultats Principaux

Classe	Précision	Rappel	Score F1
0	95.00%	95.00%	95.00%
1	92.00%	92.00%	92.00%
2	90.00%	97.00%	93.00%
3	100.00%	83.00%	91.00%
4	100.00%	100.00%	100.00%
Moyenne Macro	95.40%	93.40%	94.20%
Précision Globale			93.00%

Découvertes Clés

Performance Excellente Globale: La précision de 93% surpasse significativement la méthode de base
Identification des Cas Graves: La Classe 4 (grave) atteint 100% de précision, rappel et score F1
Performance Équilibrée par Classe: Bonne performance pour tous les niveaux de gravité
Entraînement Efficace: Seulement 31.82 secondes pour 100 epochs
Analyse de la Matrice de Confusion: Concentration élevée sur la diagonale, peu de mauvaises classifications

Analyse de la Performance du Modèle

Performance Classe 2: Rappel le plus élevé (97%), précision 90%, indiquant une sensibilité forte du modèle pour cette classe
Classes 3-4: Identification précise des cas graves, importance clinique majeure
Effet de l'Attention: Capture réussie des motifs temporels pertinents dans les caractéristiques de marche
Avantage de l'Architecture: La combinaison CNN et BiLSTM améliore efficacement la distinction entre les niveaux de gravité adjacents

Travaux Connexes

Méthodes d'Apprentissage Automatique Traditionnel

Ingénierie des Caractéristiques: Algorithmes SVM, arbres de décision, forêts aléatoires avec caractéristiques manuelles
Fusion Multi-Modale: Combinaison de données d'imagerie et cliniques pour améliorer la performance diagnostique
Interprétabilité: Méthodes EBM fournissant des explications globales et locales transparentes

Progrès de l'Apprentissage Profond

Application CNN: Architecture ResNet18 atteignant 98.66% de précision sur données IRM
Mécanisme d'Attention: AttentionLUNet intégrant LeNet et U-Net, précision 99.58%
Modélisation Temporelle: CNN-LSTM réalisant 93.51% de précision sur données vocales
Attention 3D: Réseau résiduel multi-têtes pour la reconnaissance des changements de mouvement

Avantages de cet Article

Comparé aux travaux existants, cet article intègre pour la première fois complètement CNN, BiLSTM et mécanisme d'attention pour la classification multi-classe de la gravité de la MP, atteignant une meilleure performance sur les caractéristiques de mouvement dérivées de vidéos.

Conclusion et Discussion

Conclusions Principales

Efficacité de la Méthode: L'architecture CNN-BiLSTM améliorée par attention peut détecter efficacement la gravité multi-classe de la MP
Importance des Caractéristiques: La combinaison de caractéristiques temporelles, fréquentielles et d'amplitude est cruciale pour la classification de la MP
Valeur Clinique: Fournit un outil d'évaluation objective et reproductible de la maladie
Avantage Technique: L'intégration de représentations spatio-temporelles et du mécanisme d'attention améliore significativement la performance de détection automatique de la gravité de la MP

Limitations

Taille de l'Ensemble de Données: 250 échantillons sont relativement peu nombreux, pouvant affecter la capacité de généralisation du modèle
Dépendance aux Caractéristiques: Dépend des caractéristiques pré-extraites manuelles, sans réaliser le traitement bout-à-bout de vidéos brutes
Modalité Unique: Basé uniquement sur le tapotement des doigts, sans fusion d'autres modalités de mouvement
Validation Inter-Ensembles: Manque de validation sur d'autres ensembles de données indépendants

Directions Futures

Fusion Multi-Modale: Intégration de données de marche, voix, expression faciale et autres modalités
Apprentissage Bout-à-Bout: Apprentissage direct à partir de vidéos brutes
Validation à Grande Échelle: Validation sur des ensembles de données plus volumineux et multi-centriques
Application Temps Réel: Développement de systèmes de surveillance de la MP en temps réel
Interprétabilité: Amélioration de l'interprétabilité et de la crédibilité clinique du modèle

Évaluation Approfondie

Points Forts

Innovation Architecturale: Première intégration complète de CNN, BiLSTM et mécanisme d'attention pour la classification de la MP
Performance Excellente: La précision de 93% est relativement élevée dans ce domaine
Valeur Pratique: Fournit un outil d'évaluation objective et non-invasive de la MP
Chaîne Technique Complète: Chaîne technologique complète de l'extraction de caractéristiques à la classification
Pertinence Clinique: Basé sur l'évaluation standard MDS-UPDRS, avec crédibilité clinique

Insuffisances

Limitation de la Taille de l'Ensemble de Données: 250 échantillons peuvent être insuffisants pour entraîner complètement un modèle profond
Dépendance à l'Ingénierie des Caractéristiques: Nécessite toujours des caractéristiques conçues manuellement, sans apprentissage bout-à-bout
Tâche Unique: Concentré uniquement sur le tapotement des doigts, sans considérer d'autres symptômes moteurs de la MP
Absence d'Études d'Ablation Détaillées: Analyse insuffisante de la contribution spécifique de chaque composant
Vérification de la Généralisation: Manque de validation inter-ensembles et inter-populations

Impact

Contribution Académique: Fournit une nouvelle voie technologique pour la détection automatique de la MP
Application Clinique: Peut devenir un outil de diagnostic auxiliaire pour les médecins
Promotion Technologique: L'architecture hybride améliorée par attention peut être étendue à d'autres applications médicales
Valeur Sociale: Fournit aux patients atteints de MP un moyen pratique d'auto-surveillance

Scénarios d'Application

Diagnostic Auxiliaire Clinique: Soutien aux neurologues pour l'évaluation de la gravité de la MP
Surveillance à Domicile: Les patients peuvent effectuer des auto-tests réguliers à domicile
Évaluation de l'Efficacité Thérapeutique: Surveillance des changements de maladie pendant le traitement
Dépistage à Grande Échelle: Utilisation pour le dépistage de la MP dans les communautés ou centres de santé
Télémédecine: Soutien aux besoins de surveillance de la MP en télémédecine

Références

1 Md Saiful Islam et al. Using ai to measure parkinson's disease severity at home. NPJ digital medicine, 6(1):156, 2023.

27 Daniel Deng et al. Interpretable video-based tracking and quantification of parkinsonism clinical motor states. npj Parkinson's Disease, 10(1):122, 2024.

30 Umesh Kumar Lilhore et al. Hybrid cnn-lstm model with efficient hyperparameter tuning for prediction of parkinson's disease. Scientific Reports, 13(1):14605, 2023.

Évaluation Globale: Cet article est une recherche techniquement solide avec une valeur d'application claire. L'architecture CNN-BiLSTM améliorée par attention proposée par les auteurs atteint de bons résultats sur la tâche de détection multi-classe de la MP, fournissant une contribution technologique précieuse à ce domaine. Bien que présentant des limitations en termes de taille d'ensemble de données et de généralisation, la qualité globale de la recherche est élevée avec de bonnes perspectives d'application clinique.