In this paper, we present a novel keypoint-based classification model designed to recognise British Sign Language (BSL) words within continuous signing sequences. Our model's performance is assessed using the BOBSL dataset, revealing that the keypoint-based approach surpasses its RGB-based counterpart in computational efficiency and memory usage. Furthermore, it offers expedited training times and demands fewer computational resources. To the best of our knowledge, this is the inaugural application of a keypoint-based model for BSL word classification, rendering direct comparisons with existing works unavailable.
- ID статьи: 2412.09475
- Название: New keypoint-based approach for recognising British Sign Language (BSL) from sequences
- Авторы: Oishi Deb, KR Prajwal, Andrew Zisserman (Visual Geometry Group, University of Oxford)
- Классификация: cs.CV cs.AI
- Время публикации/конференция: International Conference on Computer Vision (ICCV) - HANDS Workshop, 2023
- Ссылка на статью: https://arxiv.org/abs/2412.09475
В данной работе предлагается новая классификационная модель на основе ключевых точек для распознавания слов британского жестового языка (BSL) в непрерывных последовательностях жестов. Модель оценивается на наборе данных BOBSL, результаты показывают, что подход на основе ключевых точек превосходит методы на основе RGB по вычислительной эффективности и использованию памяти, обеспечивая более быстрое обучение и требуя меньше вычислительных ресурсов. По знаниям авторов, это первое применение моделей на основе ключевых точек к классификации слов BSL, поэтому прямое сравнение с существующими работами невозможно.
Распознавание жестового языка — это важная задача компьютерного зрения, направленная на автоматическое распознавание слов или фраз жестового языка из видеопоследовательностей. Традиционные методы в основном полагаются на видео RGB, но имеют проблемы с высокой вычислительной сложностью и чувствительностью к факторам окружающей среды.
- Социальное значение: повышение доступности для глухого сообщества, содействие инклюзивному общению
- Технические вызовы: явление коартикуляции в непрерывном жестовом языке делает задачу распознавания чрезвычайно сложной
- Требования реального времени: практические приложения требуют эффективных моделей, способных обрабатывать данные в реальном времени
- RGB-методы: высокая вычислительная сложность, большое потребление памяти, длительное время обучения
- Чувствительность к окружающей среде: подверженность влиянию освещения, одежды и других внешних факторов
- Плохая производительность в реальном времени: сложность удовлетворения требованиям приложений реального времени
Авторы предлагают использовать представление 2D ключевых точек для решения указанных проблем, основываясь на трех причинах:
- Управляемость: возможность гибкого выбора подмножеств ключевых точек для контроля вычислительных затрат
- Компактность: исключение помех от освещения, одежды и других факторов, обеспечение более компактного представления
- Производительность в реальном времени: ключевые точки могут вычисляться в реальном времени, поддерживая выполнение моделей в реальном времени
- Первое применение: первое применение методов на основе ключевых точек к задаче классификации слов BSL
- Эффективная архитектура: предложена архитектура обработки последовательностей ключевых точек на основе Transformer
- Вычислительная эффективность: значительное снижение вычислительных затрат, использования памяти и времени обучения по сравнению с RGB-методами
- Практическая ценность: предоставление более эффективного и практичного решения для распознавания жестового языка
- Входные данные: представление 2D ключевых точек непрерывной видеопоследовательности BSL
- Выходные данные: результаты классификации для 8162 классов слов BSL
- Ограничения: обработка явления коартикуляции, поддержка обработки в реальном времени
Использование библиотеки MediaPipe для извлечения ключевых точек:
- Ключевые точки позы: 33
- Ключевые точки рук: по 21 для левой и правой руки
- Ключевые точки лица: 468 (сокращено до 128 в модели 203kp)
- Итого: 543 ключевые точки (или упрощенная версия с 203 ключевыми точками)
- Извлечение последовательности ключевых точек из 16 последовательных кадров (на основе исследований, показывающих, что коартикуляция длится 13-20 кадров)
- Формирование трехмерного вектора 16 × K × 2, где K — количество ключевых точек в каждом кадре
- Токенизатор: токенизация входных данных
- Позиционное кодирование: добавление информации о позиции для различения порядка в последовательности
- Кодировщик: 6 слоев кодировщика, каждый содержит:
- Механизм многоголовного самовнимания (8 голов внимания)
- Позиционная сеть прямого распространения
- Нормализация слоя
- Генератор: преобразование изученного представления в выходные данные классификации
- Frame-wise Attention: модель внимания на уровне кадров
- Trajectory-wise Attention: модель внимания на уровне траектории
- Использование масштабированного механизма внимания с точечным произведением
- Прямой ввод ключевых точек: в отличие от методов на основе графовых нейронных сетей, прямой ввод ключевых точек в Transformer
- Временное моделирование: использование механизма самовнимания Transformer для захвата долгосрочных зависимостей
- Многомасштабные ключевые точки: исследование различных конфигураций количества ключевых точек для баланса производительности и эффективности
- Увеличение данных: стратегии увеличения, разработанные для ключевых точек (сдвиг, масштабирование, поворот, отражение)
Набор данных BOBSL:
- Масштаб: 1,467 часов программ BBC
- Разрешение: 444×444 пикселей, 25 кадров/сек
- Словарь: 8,162 слова жестового языка
- Подписывающие: 39 переводчиков жестового языка
- Обучающий набор: 8,162 уникальных слова, 3,555,141 кадр
- Набор валидации: 3,348 слов, 53,768 кадров
- Стратегия разделения: разделение по подписывающим, обеспечивающее отсутствие перекрытия подписывающих между обучающим, валидационным и тестовым наборами
- Оптимизатор: оптимизатор Adam, скорость обучения 1e-4
- Размер пакета: 128
- Стратегия ранней остановки: остановка при отсутствии улучшения потерь валидации в течение 3 последовательных эпох
- Размерность модели: 512-мерное встраивание
- Количество параметров: 23,9 миллиона параметров (против 34,5 миллиона в RGB-модели)
- Точность: точность Top-5 достигает 60%
- Эффективность параметров: снижение на 30,7% количества параметров по сравнению с RGB-методом (23,9M против 34,5M)
- Вычислительная эффективность: значительное снижение вычислительных затрат, использования памяти и времени обучения
- Модель с 543 ключевыми точками: использование 468 ключевых точек лица
- Модель с 203 ключевыми точками: использование 128 ключевых точек лица
- Вывод: увеличение количества ключевых точек лица повышает производительность
Тестирование различных методов увеличения:
- Увеличение сдвига: обеспечивает максимальное повышение производительности
- Увеличение масштаба: масштабирование в диапазоне 90-110%
- Увеличение поворота: поворот на малые углы
- Горизонтальное отражение: зеркальное отражение
Каждый метод увеличения отдельно повышает производительность модели, при этом увеличение сдвига показывает наилучший результат.
- Ключевые точки лица критически важны для распознавания BSL
- Методы на основе ключевых точек значительно снижают вычислительные затраты при сохранении разумной точности
- Методы увеличения данных одинаково эффективны для моделей на основе ключевых точек
- Предыдущие работы в основном использовали видео RGB для распознавания BSL
- Акцент на коартикуляцию и распознавание паттернов губ
- Данная работа — первый чистый метод на основе ключевых точек
- Эволюция от инженерии признаков вручную к методам глубокого обучения (CNN)
- Применение графовых нейронных сетей (GNN) в распознавании действий и жестов
- Успешное применение архитектуры Transformer в компьютерном зрении
В данной работе используется метод прямого ввода ключевых точек в Transformer, отличающийся от традиционного подхода построения графовых нейронных сетей.
- Методы на основе ключевых точек имеют значительные вычислительные преимущества при распознавании BSL
- Архитектура Transformer эффективно обрабатывает последовательности ключевых точек
- Ключевые точки лица критически важны для производительности распознавания BSL
- Надлежащее увеличение данных может дополнительно повысить производительность модели
- Точность: точность 60% имеет потенциал для улучшения
- Отсутствие сравнения: как первый метод на основе ключевых точек, отсутствуют прямые сравнительные ориентиры
- Ограничения набора данных: проверка только на наборе данных BOBSL
- Проверка производительности в реальном времени: отсутствие тестирования фактической производительности в реальном времени
- Мультимодальное слияние: объединение ключевых точек и RGB-изображений для повышения точности
- 3D-оценка позы: исследование методов оценки 3D-позы на уровне последовательности
- Скелетные изображения: попытка представления на основе черно-белых скелетных изображений из ключевых точек
- Проверка в большем масштабе: проверка эффективности метода на дополнительных наборах данных жестового языка
- Сильная инновационность: первое применение чистого метода на основе ключевых точек к распознаванию BSL
- Высокая практическая ценность: значительное снижение вычислительных затрат, подходит для сред с ограниченными ресурсами
- Обоснованная методология: четкая техническая линия, полные детали реализации
- Достаточные эксперименты: включены сравнительные эксперименты с различными конфигурациями и стратегиями увеличения
- Ограниченная производительность: точность 60% относительно низкая
- Отсутствие сравнения: невозможно прямое сравнение с другими методами
- Недостаточный анализ: отсутствует глубокий анализ случаев отказа
- Неизвестная обобщаемость: проверка только на одном наборе данных
- Пионерский характер: предоставление нового технического пути для распознавания жестового языка
- Практичность: эффективный метод способствует развертыванию практических приложений
- Масштабируемость: предоставление хорошей основы для последующих исследований
- Социальная ценность: содействие повышению технологической доступности для глухого населения
- Среды с ограниченными ресурсами: мобильные устройства, сценарии граничных вычислений
- Приложения реального времени: интерактивные системы, требующие быстрого отклика
- Крупномасштабное развертывание: сценарии обработки больших объемов видеоданных
- Исследовательские прототипы: базовый компонент для более сложных систем
Статья цитирует несколько важных связанных работ, включая:
- Статьи, связанные с набором данных BOBSL 3
- Фреймворк извлечения ключевых точек MediaPipe 13
- Оригинальная статья об архитектуре Transformer 18
- Исследования распознавания жестового языка 1,2,6
- Применение графовых нейронных сетей в распознавании действий 21
Общая оценка: Это пионерская статья, первая применившая методы на основе ключевых точек к задаче распознавания BSL. Хотя в отношении точности есть потенциал для улучшения, значительные преимущества в вычислительной эффективности придают ей важную практическую ценность. Данная работа предоставляет новое направление исследований в области распознавания жестового языка, особенно значимое в сценариях с ограниченными ресурсами и приложениях реального времени.