2025-11-15T00:16:11.455248

New keypoint-based approach for recognising British Sign Language (BSL) from sequences

Deb, Prajwal, Zisserman

In this paper, we present a novel keypoint-based classification model designed to recognise British Sign Language (BSL) words within continuous signing sequences. Our model's performance is assessed using the BOBSL dataset, revealing that the keypoint-based approach surpasses its RGB-based counterpart in computational efficiency and memory usage. Furthermore, it offers expedited training times and demands fewer computational resources. To the best of our knowledge, this is the inaugural application of a keypoint-based model for BSL word classification, rendering direct comparisons with existing works unavailable.

academic

Новый подход на основе ключевых точек для распознавания британского жестового языка (BSL) из последовательностей

Основная информация

ID статьи: 2412.09475
Название: New keypoint-based approach for recognising British Sign Language (BSL) from sequences
Авторы: Oishi Deb, KR Prajwal, Andrew Zisserman (Visual Geometry Group, University of Oxford)
Классификация: cs.CV cs.AI
Время публикации/конференция: International Conference on Computer Vision (ICCV) - HANDS Workshop, 2023
Ссылка на статью: https://arxiv.org/abs/2412.09475

Аннотация

В данной работе предлагается новая классификационная модель на основе ключевых точек для распознавания слов британского жестового языка (BSL) в непрерывных последовательностях жестов. Модель оценивается на наборе данных BOBSL, результаты показывают, что подход на основе ключевых точек превосходит методы на основе RGB по вычислительной эффективности и использованию памяти, обеспечивая более быстрое обучение и требуя меньше вычислительных ресурсов. По знаниям авторов, это первое применение моделей на основе ключевых точек к классификации слов BSL, поэтому прямое сравнение с существующими работами невозможно.

Исследовательский контекст и мотивация

Определение проблемы

Распознавание жестового языка — это важная задача компьютерного зрения, направленная на автоматическое распознавание слов или фраз жестового языка из видеопоследовательностей. Традиционные методы в основном полагаются на видео RGB, но имеют проблемы с высокой вычислительной сложностью и чувствительностью к факторам окружающей среды.

Значимость

Социальное значение: повышение доступности для глухого сообщества, содействие инклюзивному общению
Технические вызовы: явление коартикуляции в непрерывном жестовом языке делает задачу распознавания чрезвычайно сложной
Требования реального времени: практические приложения требуют эффективных моделей, способных обрабатывать данные в реальном времени

Ограничения существующих методов

RGB-методы: высокая вычислительная сложность, большое потребление памяти, длительное время обучения
Чувствительность к окружающей среде: подверженность влиянию освещения, одежды и других внешних факторов
Плохая производительность в реальном времени: сложность удовлетворения требованиям приложений реального времени

Исследовательская мотивация

Авторы предлагают использовать представление 2D ключевых точек для решения указанных проблем, основываясь на трех причинах:

Управляемость: возможность гибкого выбора подмножеств ключевых точек для контроля вычислительных затрат
Компактность: исключение помех от освещения, одежды и других факторов, обеспечение более компактного представления
Производительность в реальном времени: ключевые точки могут вычисляться в реальном времени, поддерживая выполнение моделей в реальном времени

Основные вклады

Первое применение: первое применение методов на основе ключевых точек к задаче классификации слов BSL
Эффективная архитектура: предложена архитектура обработки последовательностей ключевых точек на основе Transformer
Вычислительная эффективность: значительное снижение вычислительных затрат, использования памяти и времени обучения по сравнению с RGB-методами
Практическая ценность: предоставление более эффективного и практичного решения для распознавания жестового языка

Подробное описание методологии

Определение задачи

Входные данные: представление 2D ключевых точек непрерывной видеопоследовательности BSL
Выходные данные: результаты классификации для 8162 классов слов BSL
Ограничения: обработка явления коартикуляции, поддержка обработки в реальном времени

Извлечение ключевых точек

Использование библиотеки MediaPipe для извлечения ключевых точек:

Ключевые точки позы: 33
Ключевые точки рук: по 21 для левой и правой руки
Ключевые точки лица: 468 (сокращено до 128 в модели 203kp)
Итого: 543 ключевые точки (или упрощенная версия с 203 ключевыми точками)

Архитектура модели

Представление входных данных

Извлечение последовательности ключевых точек из 16 последовательных кадров (на основе исследований, показывающих, что коартикуляция длится 13-20 кадров)
Формирование трехмерного вектора 16 × K × 2, где K — количество ключевых точек в каждом кадре

Архитектура Transformer

Токенизатор: токенизация входных данных
Позиционное кодирование: добавление информации о позиции для различения порядка в последовательности
Кодировщик: 6 слоев кодировщика, каждый содержит:
- Механизм многоголовного самовнимания (8 голов внимания)
- Позиционная сеть прямого распространения
- Нормализация слоя
Генератор: преобразование изученного представления в выходные данные классификации

Механизм внимания

Frame-wise Attention: модель внимания на уровне кадров
Trajectory-wise Attention: модель внимания на уровне траектории
Использование масштабированного механизма внимания с точечным произведением

Технические инновации

Прямой ввод ключевых точек: в отличие от методов на основе графовых нейронных сетей, прямой ввод ключевых точек в Transformer
Временное моделирование: использование механизма самовнимания Transformer для захвата долгосрочных зависимостей
Многомасштабные ключевые точки: исследование различных конфигураций количества ключевых точек для баланса производительности и эффективности
Увеличение данных: стратегии увеличения, разработанные для ключевых точек (сдвиг, масштабирование, поворот, отражение)

Экспериментальная установка

Набор данных

Набор данных BOBSL:

Масштаб: 1,467 часов программ BBC
Разрешение: 444×444 пикселей, 25 кадров/сек
Словарь: 8,162 слова жестового языка
Подписывающие: 39 переводчиков жестового языка
Обучающий набор: 8,162 уникальных слова, 3,555,141 кадр
Набор валидации: 3,348 слов, 53,768 кадров
Стратегия разделения: разделение по подписывающим, обеспечивающее отсутствие перекрытия подписывающих между обучающим, валидационным и тестовым наборами

Метрики оценки

Точность Top-5

Детали реализации

Оптимизатор: оптимизатор Adam, скорость обучения 1e-4
Размер пакета: 128
Стратегия ранней остановки: остановка при отсутствии улучшения потерь валидации в течение 3 последовательных эпох
Размерность модели: 512-мерное встраивание
Количество параметров: 23,9 миллиона параметров (против 34,5 миллиона в RGB-модели)

Результаты экспериментов

Основные результаты

Точность: точность Top-5 достигает 60%
Эффективность параметров: снижение на 30,7% количества параметров по сравнению с RGB-методом (23,9M против 34,5M)
Вычислительная эффективность: значительное снижение вычислительных затрат, использования памяти и времени обучения

Сравнение количества ключевых точек

Модель с 543 ключевыми точками: использование 468 ключевых точек лица
Модель с 203 ключевыми точками: использование 128 ключевых точек лица
Вывод: увеличение количества ключевых точек лица повышает производительность

Эффект увеличения данных

Тестирование различных методов увеличения:

Увеличение сдвига: обеспечивает максимальное повышение производительности
Увеличение масштаба: масштабирование в диапазоне 90-110%
Увеличение поворота: поворот на малые углы
Горизонтальное отражение: зеркальное отражение

Каждый метод увеличения отдельно повышает производительность модели, при этом увеличение сдвига показывает наилучший результат.

Экспериментальные выводы

Ключевые точки лица критически важны для распознавания BSL
Методы на основе ключевых точек значительно снижают вычислительные затраты при сохранении разумной точности
Методы увеличения данных одинаково эффективны для моделей на основе ключевых точек

Связанные работы

Исследования распознавания BSL

Предыдущие работы в основном использовали видео RGB для распознавания BSL
Акцент на коартикуляцию и распознавание паттернов губ
Данная работа — первый чистый метод на основе ключевых точек

Исследования представления ключевых точек

Эволюция от инженерии признаков вручную к методам глубокого обучения (CNN)
Применение графовых нейронных сетей (GNN) в распознавании действий и жестов
Успешное применение архитектуры Transformer в компьютерном зрении

Техническое сравнение

В данной работе используется метод прямого ввода ключевых точек в Transformer, отличающийся от традиционного подхода построения графовых нейронных сетей.

Заключение и обсуждение

Основные выводы

Методы на основе ключевых точек имеют значительные вычислительные преимущества при распознавании BSL
Архитектура Transformer эффективно обрабатывает последовательности ключевых точек
Ключевые точки лица критически важны для производительности распознавания BSL
Надлежащее увеличение данных может дополнительно повысить производительность модели

Ограничения

Точность: точность 60% имеет потенциал для улучшения
Отсутствие сравнения: как первый метод на основе ключевых точек, отсутствуют прямые сравнительные ориентиры
Ограничения набора данных: проверка только на наборе данных BOBSL
Проверка производительности в реальном времени: отсутствие тестирования фактической производительности в реальном времени

Будущие направления

Мультимодальное слияние: объединение ключевых точек и RGB-изображений для повышения точности
3D-оценка позы: исследование методов оценки 3D-позы на уровне последовательности
Скелетные изображения: попытка представления на основе черно-белых скелетных изображений из ключевых точек
Проверка в большем масштабе: проверка эффективности метода на дополнительных наборах данных жестового языка

Глубокая оценка

Преимущества

Сильная инновационность: первое применение чистого метода на основе ключевых точек к распознаванию BSL
Высокая практическая ценность: значительное снижение вычислительных затрат, подходит для сред с ограниченными ресурсами
Обоснованная методология: четкая техническая линия, полные детали реализации
Достаточные эксперименты: включены сравнительные эксперименты с различными конфигурациями и стратегиями увеличения

Недостатки

Ограниченная производительность: точность 60% относительно низкая
Отсутствие сравнения: невозможно прямое сравнение с другими методами
Недостаточный анализ: отсутствует глубокий анализ случаев отказа
Неизвестная обобщаемость: проверка только на одном наборе данных

Влияние

Пионерский характер: предоставление нового технического пути для распознавания жестового языка
Практичность: эффективный метод способствует развертыванию практических приложений
Масштабируемость: предоставление хорошей основы для последующих исследований
Социальная ценность: содействие повышению технологической доступности для глухого населения

Применимые сценарии

Среды с ограниченными ресурсами: мобильные устройства, сценарии граничных вычислений
Приложения реального времени: интерактивные системы, требующие быстрого отклика
Крупномасштабное развертывание: сценарии обработки больших объемов видеоданных
Исследовательские прототипы: базовый компонент для более сложных систем

Ссылки

Статья цитирует несколько важных связанных работ, включая:

Статьи, связанные с набором данных BOBSL 3
Фреймворк извлечения ключевых точек MediaPipe 13
Оригинальная статья об архитектуре Transformer 18
Исследования распознавания жестового языка 1,2,6
Применение графовых нейронных сетей в распознавании действий 21

Общая оценка: Это пионерская статья, первая применившая методы на основе ключевых точек к задаче распознавания BSL. Хотя в отношении точности есть потенциал для улучшения, значительные преимущества в вычислительной эффективности придают ей важную практическую ценность. Данная работа предоставляет новое направление исследований в области распознавания жестового языка, особенно значимое в сценариях с ограниченными ресурсами и приложениях реального времени.