2025-11-12T20:43:14.525720

Multi Class Parkinsons Disease Detection Based on Finger Tapping Using Attention-Enhanced CNN BiLSTM

Miah, Hassan, Hossain et al.

Effective clinical management and intervention development depend on accurate evaluation of Parkinsons disease (PD) severity. Many researchers have worked on developing gesture-based PD recognition systems; however, their performance accuracy is not satisfactory. In this study, we propose a multi-class Parkinson Disease detection system based on finger tapping using an attention-enhanced CNN BiLSTM. We collected finger tapping videos and derived temporal, frequency, and amplitude based features from wrist and hand movements. Then, we proposed a hybrid deep learning framework integrating CNN, BiLSTM, and attention mechanisms for multi-class PD severity classification from video-derived motion features. First, the input sequence is reshaped and passed through a Conv1D MaxPooling block to capture local spatial dependencies. The resulting feature maps are fed into a BiLSTM layer to model temporal dynamics. An attention mechanism focuses on the most informative temporal features, producing a context vector that is further processed by a second BiLSTM layer. CNN-derived features and attention-enhanced BiLSTM outputs are concatenated, followed by dense and dropout layers, before the final softmax classifier outputs the predicted PD severity level. The model demonstrated strong performance in distinguishing between the five severity classes, suggesting that integrating spatial temporal representations with attention mechanisms can improve automated PD severity detection, making it a promising non-invasive tool to support clinicians in PD monitoring and progression tracking.

academic

Многоклассовое обнаружение болезни Паркинсона на основе постукивания пальцами с использованием внимания-усиленной CNN-BiLSTM

Основная информация

ID статьи: 2510.10121
Название: Multi-Class Parkinson's Disease Detection Based on Finger Tapping Using Attention-Enhanced CNN-BiLSTM
Авторы: Abu Saleh Musa Miah, Md Maruf Al Hossain, Najmul Hassan, Yuichi Okuyama, Jungpil Shin
Категория: cs.CV (Компьютерное зрение)
Дата публикации: 11 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.10121

Аннотация

Эффективное клиническое управление болезнью Паркинсона (БП) и разработка методов вмешательства зависят от точной оценки тяжести заболевания. В данном исследовании предложена система многоклассового обнаружения болезни Паркинсона на основе постукивания пальцами с использованием архитектуры CNN-BiLSTM, усиленной механизмом внимания. Исследование извлекает временные, частотные и амплитудные характеристики из видео постукивания пальцами и строит гибридную структуру глубокого обучения, интегрирующую CNN, BiLSTM и механизм внимания. Модель захватывает локальные пространственные зависимости через блоки Conv1D-MaxPooling, слои BiLSTM моделируют временную динамику, а механизм внимания сосредоточивается на наиболее информативных временных характеристиках. В итоге достигнута точность классификации 93% с отличными результатами при различении пяти уровней тяжести.

Исследовательский контекст и мотивация

Определение проблемы

Болезнь Паркинсона — это прогрессирующее нейродегенеративное заболевание, поражающее более 10 миллионов человек во всем мире, характеризующееся главным образом двигательными симптомами, такими как тремор, ригидность, брадикинезия и постуральная нестабильность. Традиционная оценка тяжести БП в основном опирается на клинические шкалы, такие как UPDRS (Унифицированная шкала оценки болезни Паркинсона) и MDS-UPDRS.

Ограничения существующих методов

Высокая субъективность: Традиционная клиническая оценка зависит от субъективного суждения врача с межоценочной вариабельностью
Трудоемкость: Процесс клинической оценки сложен и требует значительных временных и людских ресурсов
Низкая согласованность: Отсутствие объективных, стандартизированных методов оценки влияет на отслеживание прогрессирования заболевания
Недостаточная точность: Существующие системы распознавания БП на основе жестов имеют неудовлетворительную точность

Исследовательская мотивация

Разработка неинвазивного, объективного и доступного метода автоматической оценки тяжести БП на основе анализа видео с использованием методов компьютерного зрения и машинного обучения для точной классификации заболевания, предоставляя клиницистам надежный инструмент вспомогательной диагностики.

Основные вклады

Предложена архитектура CNN-BiLSTM, усиленная механизмом внимания, эффективно сочетающая извлечение пространственных признаков и моделирование временных рядов
Реализована многоклассовая классификация тяжести БП, способная различать пять различных уровней тяжести
Интегрирован механизм внимания, повышающий способность модели сосредоточиваться на ключевых временных характеристиках
Достигнута точность классификации 93%, значительно превосходящая базовые методы
Предоставлен неинвазивный инструмент мониторинга БП, поддерживающий отслеживание прогрессирования заболевания клиницистами

Подробное описание методологии

Определение задачи

Входные данные: 57-мерный вектор признаков, полученный из видео постукивания пальцами, включающий временные, частотные и амплитудные характеристики Выходные данные: Результаты классификации пяти классов тяжести БП (класс 0-4) Ограничения: Данные, аннотированные экспертами на основе стандарта MDS-UPDRS

Архитектура модели

Общий дизайн

Модель использует многоэтапный процесс обработки:

Переформатирование входных данных: Преобразование 57-мерного признака в последовательный формат
Извлечение признаков CNN: Conv1D + MaxPooling1D для захвата локальных пространственных паттернов
Временное моделирование BiLSTM: Двусторонний LSTM для моделирования временных зависимостей
Механизм внимания: Сосредоточение на наиболее важных временных характеристиках
Слияние признаков: Объединение признаков CNN и усиленных вниманием BiLSTM
Выходная классификация: Полносвязный слой + Softmax для пятиклассовой классификации

Математические формулы

Представление входных данных:

X = {x₁, x₂, ..., xₙ}, xᵢ ∈ R⁵⁷

Свертывание:

X_reshaped = Reshape(X) ∈ R^(N×57×1)
X_conv = Conv1D(X_reshaped)
X_pool = MaxPooling1D(X_conv)

Моделирование BiLSTM:

hₜ = BiLSTM(X_pool)

Механизм внимания:

score(i,j) = tanh(W₁hᵢ + W₂hⱼ)
αᵢⱼ = softmax(V(score(i,j)))
cⱼ = Σᵢ αᵢⱼhᵢ

Слияние признаков и выход:

X_combined = [Flatten(X_conv), Flatten(h_final)]
ŷ = softmax(Dense(X_combined))

Технические инновации

Мультимодальное слияние признаков: Одновременное использование пространственных признаков, извлеченных CNN, и временных признаков, моделируемых BiLSTM
Двухслойный дизайн BiLSTM: Первый слой BiLSTM моделирует базовые временные зависимости, второй слой обрабатывает усиленные вниманием признаки
Адаптивные веса внимания: Динамическое вычисление весов внимания с автоматическим сосредоточением на ключевых временных интервалах
Сквозная оптимизация: Вся архитектура может быть обучена сквозным образом, избегая ручного проектирования признаков

Экспериментальная установка

Набор данных

Источник данных: Открытый набор данных ParkTest
Масштаб данных: Видео постукивания пальцами 250 глобальных участников
Сбор данных: Преимущественно собрано в домах участников через веб-камеры, 48 человек завершили процедуру в клинике
Способ аннотирования: Аннотирование экспертами-неврологами и сертифицированными оценивающими MDS-UPDRS
Размерность признаков: 57-мерные признаки, включающие скорость постукивания пальцами, ускорение, частоту, период, амплитуду и смещение запястья

Метрики оценки

Точность (Accuracy): Общая точность классификации
Точность (Precision): Точность предсказания для каждого класса
Полнота (Recall): Коэффициент обнаружения для каждого класса
F1-оценка: Гармоническое среднее точности и полноты
Макро-среднее: Среднее значение метрик для всех классов

Методы сравнения

Базовый метод: Исходный метод, предложенный Islam и соавторами 1
Абляционное исследование: Анализ вклада каждого компонента (CNN, BiLSTM, механизм внимания)

Детали реализации

Оптимизатор: Оптимизатор Adam
Функция потерь: Разреженная категориальная кросс-энтропия
Количество эпох: 100 эпох
Коэффициент Dropout: 0,2
Полносвязный слой: 250 единиц
Время обучения: 31,82 секунды (100 эпох)

Экспериментальные результаты

Основные результаты

Класс	Точность	Полнота	F1-оценка
0	95,00%	95,00%	95,00%
1	92,00%	92,00%	92,00%
2	90,00%	97,00%	93,00%
3	100,00%	83,00%	91,00%
4	100,00%	100,00%	100,00%
Макро-среднее	95,40%	93,40%	94,20%
Общая точность			93,00%

Ключевые выводы

Отличная общая производительность: Точность 93% значительно превосходит базовый метод
Распознавание тяжелых случаев: Класс 4 (тяжелая форма) достигает 100% точности, полноты и F1-оценки
Сбалансированная производительность по классам: Все уровни тяжести показывают хорошие результаты
Эффективное обучение: Требуется всего 31,82 секунды для завершения 100 эпох обучения
Анализ матрицы ошибок: Высокая концентрация на диагонали с минимальными ошибками классификации

Анализ производительности модели

Производительность класса 2: Наивысшая полнота (97%), точность 90%, указывающая на высокую чувствительность модели к этому классу
Классы 3-4: Точное распознавание тяжелых случаев с большой клинической значимостью
Эффект внимания: Успешное захватывание релевантных временных паттернов в характеристиках движения
Преимущество архитектуры: Комбинация CNN и BiLSTM эффективно улучшает различение между соседними уровнями тяжести

Связанные работы

Традиционные методы машинного обучения

Проектирование признаков: Алгоритмы SVM, деревья решений, случайные леса с ручными признаками
Мультимодальное слияние: Объединение изображений и клинических данных для повышения диагностической производительности
Интерпретируемость: Методы EBM, обеспечивающие прозрачные глобальные и локальные объяснения

Прогресс глубокого обучения

Применение CNN: Архитектура ResNet18 достигает 98,66% точности на данных МРТ
Механизм внимания: AttentionLUNet, интегрирующий LeNet и U-Net, достигает 99,58% точности
Временное моделирование: CNN-LSTM достигает 93,51% точности на речевых данных
3D внимание: Многоголовая сеть внимания с остатками для распознавания изменений движения

Преимущества данной работы

В отличие от существующих работ, данная статья впервые полностью интегрирует CNN, BiLSTM и механизм внимания для многоклассовой классификации тяжести БП, достигая лучшей производительности на признаках движения, полученных из видео.

Заключение и обсуждение

Основные выводы

Эффективность метода: Архитектура CNN-BiLSTM, усиленная механизмом внимания, эффективно обнаруживает многоклассовую тяжесть БП
Важность признаков: Комбинация временных, частотных и амплитудных характеристик критична для классификации БП
Клиническая ценность: Предоставляет объективный, воспроизводимый инструмент оценки заболевания
Технологическое преимущество: Интеграция пространственно-временного представления и механизма внимания значительно улучшает производительность автоматизированного обнаружения тяжести БП

Ограничения

Размер набора данных: 250 образцов относительно малы и могут влиять на обобщающую способность модели
Зависимость от признаков: Зависит от предварительно извлеченных ручных признаков, не реализует сквозную обработку исходного видео
Одномодальность: Основано только на постукивании пальцами без интеграции других модальностей движения
Кросс-датасетная валидация: Отсутствует валидация на других независимых наборах данных

Направления будущих исследований

Мультимодальное слияние: Интеграция данных походки, речи, мимики и других модальностей
Сквозное обучение: Прямое обучение на представлениях признаков из исходного видео
Крупномасштабная валидация: Валидация на больших многоцентровых наборах данных
Приложения реального времени: Разработка систем мониторинга БП в реальном времени
Интерпретируемость: Повышение интерпретируемости и клинической надежности модели

Глубокая оценка

Преимущества

Архитектурная инновация: Впервые полностью интегрирует CNN, BiLSTM и механизм внимания для классификации БП
Отличная производительность: Точность 93% находится на высоком уровне в этой области
Практическая ценность: Предоставляет неинвазивный, объективный инструмент оценки БП
Техническая полнота: Полная технологическая цепь от извлечения признаков до классификации
Клиническая релевантность: Основано на стандартной оценке MDS-UPDRS с клинической достоверностью

Недостатки

Ограничение размера данных: 250 образцов могут быть недостаточны для полного обучения глубокой модели
Зависимость от проектирования признаков: По-прежнему требует ручного проектирования признаков без сквозного обучения
Однозадачность: Сосредоточено только на постукивании пальцами без учета других двигательных симптомов БП
Отсутствие абляционных исследований: Недостаточно подробный анализ вклада каждого компонента
Проверка обобщаемости: Отсутствует валидация на кросс-датасетах и кросс-популяциях

Влияние

Научный вклад: Предоставляет новый технологический путь для автоматического обнаружения БП
Клиническое применение: Может стать инструментом вспомогательной диагностики для клиницистов
Распространение технологии: Архитектура CNN-BiLSTM, усиленная вниманием, может быть распространена на другие медицинские приложения
Социальная ценность: Предоставляет пациентам с БП удобные средства самомониторинга

Применимые сценарии

Клиническая вспомогательная диагностика: Поддержка неврологов в оценке тяжести БП
Домашний мониторинг: Пациенты могут проводить регулярное самотестирование дома
Оценка эффективности лекарств: Мониторинг изменений состояния во время лечения
Крупномасштабный скрининг: Использование для скрининга БП в сообществах или центрах медицинских осмотров
Телемедицина: Поддержка мониторинга БП в системах телемедицины

Список литературы

1 Md Saiful Islam et al. Using ai to measure parkinson's disease severity at home. NPJ digital medicine, 6(1):156, 2023.

27 Daniel Deng et al. Interpretable video-based tracking and quantification of parkinsonism clinical motor states. npj Parkinson's Disease, 10(1):122, 2024.

30 Umesh Kumar Lilhore et al. Hybrid cnn-lstm model with efficient hyperparameter tuning for prediction of parkinson's disease. Scientific Reports, 13(1):14605, 2023.

Общая оценка: Это технически обоснованная исследовательская работа с четкой прикладной ценностью. Авторы предложили архитектуру CNN-BiLSTM, усиленную механизмом внимания, которая достигла хороших результатов в задаче многоклассового обнаружения БП, предоставляя ценный технологический вклад в эту область. Несмотря на ограничения в размере данных и обобщаемости, исследование имеет высокое качество и хорошие перспективы клинического применения.