2025-11-15T00:16:11.455248

New keypoint-based approach for recognising British Sign Language (BSL) from sequences

Deb, Prajwal, Zisserman

In this paper, we present a novel keypoint-based classification model designed to recognise British Sign Language (BSL) words within continuous signing sequences. Our model's performance is assessed using the BOBSL dataset, revealing that the keypoint-based approach surpasses its RGB-based counterpart in computational efficiency and memory usage. Furthermore, it offers expedited training times and demands fewer computational resources. To the best of our knowledge, this is the inaugural application of a keypoint-based model for BSL word classification, rendering direct comparisons with existing works unavailable.

academic

Nuevo enfoque basado en puntos clave para el reconocimiento de la Lengua de Signos Británica (BSL) a partir de secuencias

Información Básica

ID del Artículo: 2412.09475
Título: New keypoint-based approach for recognising British Sign Language (BSL) from sequences
Autores: Oishi Deb, KR Prajwal, Andrew Zisserman (Visual Geometry Group, University of Oxford)
Clasificación: cs.CV cs.AI
Fecha de Publicación/Conferencia: International Conference on Computer Vision (ICCV) - HANDS Workshop, 2023
Enlace del Artículo: https://arxiv.org/abs/2412.09475

Resumen

Este artículo propone un modelo de clasificación novedoso basado en puntos clave para reconocer palabras de la Lengua de Signos Británica (BSL) en secuencias de lenguaje de signos continuo. El modelo se evalúa en el conjunto de datos BOBSL, demostrando que el enfoque basado en puntos clave supera a los métodos basados en RGB en términos de eficiencia computacional y uso de memoria, proporcionando tiempos de entrenamiento más rápidos y requiriendo menos recursos computacionales. Según el conocimiento de los autores, esta es la primera aplicación de modelos basados en puntos clave a la clasificación de palabras BSL, por lo que no es posible realizar comparaciones directas con trabajos existentes.

Antecedentes de Investigación y Motivación

Definición del Problema

El reconocimiento de lenguaje de signos es una tarea importante de visión por computadora que tiene como objetivo identificar automáticamente palabras o frases de lenguaje de signos a partir de secuencias de video. Los métodos tradicionales se basan principalmente en video RGB, pero presentan problemas como alta complejidad computacional y sensibilidad a factores ambientales.

Importancia

Significado Social: Mejorar la accesibilidad para la comunidad sorda y promover la comunicación inclusiva
Desafíos Técnicos: El fenómeno de coarticulación en el lenguaje de signos continuo hace que la tarea de reconocimiento sea extremadamente desafiante
Requisitos en Tiempo Real: Las aplicaciones prácticas requieren modelos eficientes capaces de procesar en tiempo real

Limitaciones de Métodos Existentes

Métodos RGB: Alta complejidad computacional, gran consumo de memoria, tiempos de entrenamiento prolongados
Sensibilidad Ambiental: Fácilmente afectados por factores externos como iluminación y ropa
Baja Capacidad en Tiempo Real: Difícil de satisfacer requisitos de aplicaciones en tiempo real

Motivación de la Investigación

Los autores proponen utilizar representaciones de puntos clave 2D para abordar los problemas anteriores, basándose en tres razones principales:

Controlabilidad: Capacidad de seleccionar flexiblemente subconjuntos de puntos clave para controlar costos computacionales
Compacidad: Elimina factores de interferencia como iluminación y ropa, proporcionando una representación más compacta
Capacidad en Tiempo Real: Los puntos clave pueden calcularse en tiempo real, permitiendo ejecución de modelos en tiempo real

Contribuciones Principales

Aplicación Pionera: Primera aplicación de métodos basados en puntos clave a la tarea de clasificación de palabras BSL
Arquitectura Eficiente: Propone una arquitectura de procesamiento de secuencias de puntos clave basada en Transformer
Eficiencia Computacional: Reduce significativamente los costos computacionales, el uso de memoria y los tiempos de entrenamiento en comparación con métodos RGB
Valor Práctico: Proporciona una solución más eficiente y práctica para el reconocimiento de lenguaje de signos

Explicación Detallada del Método

Definición de la Tarea

Entrada: Representación de puntos clave 2D de secuencias de video BSL continuo
Salida: Resultados de clasificación para 8,162 categorías de palabras BSL
Restricciones: Manejo del fenómeno de coarticulación, soporte para procesamiento en tiempo real

Extracción de Puntos Clave

Se utiliza la biblioteca MediaPipe para extraer puntos clave:

Puntos clave de postura: 33
Puntos clave de manos: 21 en cada mano (izquierda y derecha)
Puntos clave faciales: 468 (reducidos a 128 en el modelo de 203kp)
Total: 543 puntos clave (o versión simplificada de 203 puntos clave)

Arquitectura del Modelo

Representación de Entrada

Extrae secuencias de puntos clave de 16 fotogramas consecutivos (basado en hallazgos de que la coarticulación persiste 13-20 fotogramas)
Forma un vector tridimensional 16 × K × 2, donde K es el número de puntos clave por fotograma

Arquitectura Transformer

Tokenizador: Realiza tokenización de los datos de entrada
Codificación Posicional: Añade información de posición para distinguir el orden en la secuencia
Codificador: 6 capas de codificador, cada capa contiene:
- Mecanismo de autoatención multicabeza (8 cabezas de atención)
- Red neuronal de retroalimentación posicional
- Normalización de capas
Generador: Convierte la representación aprendida en salida de clasificación

Mecanismo de Atención

Atención a Nivel de Fotograma: Modelo de atención a nivel de fotograma
Atención a Nivel de Trayectoria: Modelo de atención a nivel de trayectoria
Utiliza mecanismo de atención de producto punto escalado

Puntos de Innovación Técnica

Entrada Directa de Puntos Clave: A diferencia de métodos basados en redes neuronales de grafos, introduce puntos clave directamente como entrada de Transformer
Modelado Temporal: Utiliza el mecanismo de autoatención de Transformer para capturar dependencias a largo plazo
Puntos Clave Multiescala: Explora diferentes configuraciones de cantidad de puntos clave para equilibrar rendimiento y eficiencia
Aumento de Datos: Estrategias de aumento diseñadas para puntos clave (traslación, escalado, rotación, volteo)

Configuración Experimental

Conjunto de Datos

Conjunto de Datos BOBSL:

Escala: 1,467 horas de programas de la BBC
Resolución: 444×444 píxeles, 25fps
Vocabulario: 8,162 palabras de lenguaje de signos
Intérpretes: 39 intérpretes de lenguaje de signos
Conjunto de Entrenamiento: 8,162 palabras únicas, 3,555,141 fotogramas
Conjunto de Validación: 3,348 palabras, 53,768 fotogramas
Estrategia de División: Dividido por intérprete, asegurando que no haya solapamiento de intérpretes entre conjuntos de entrenamiento, validación y prueba

Métricas de Evaluación

Precisión Top-5

Detalles de Implementación

Optimizador: Optimizador Adam, tasa de aprendizaje 1e-4
Tamaño de Lote: 128
Estrategia de Parada Temprana: Se detiene cuando la pérdida de validación no mejora durante 3 épocas consecutivas
Dimensión del Modelo: Incrustación de 512 dimensiones
Cantidad de Parámetros: 23.9 millones de parámetros (vs 34.5 millones del modelo RGB)

Resultados Experimentales

Resultados Principales

Precisión: Precisión Top-5 alcanza el 60%
Eficiencia de Parámetros: Reduce el 30.7% de parámetros en comparación con métodos RGB (23.9M vs 34.5M)
Eficiencia Computacional: Reduce significativamente los costos computacionales, el uso de memoria y los tiempos de entrenamiento

Comparación de Cantidad de Puntos Clave

Modelo de 543 Puntos Clave: Utiliza 468 puntos clave faciales
Modelo de 203 Puntos Clave: Utiliza 128 puntos clave faciales
Hallazgo: Aumentar la cantidad de puntos clave faciales mejora el rendimiento

Efectos del Aumento de Datos

Se probaron múltiples técnicas de aumento:

Aumento de Traslación: Proporciona la mayor mejora de rendimiento
Aumento de Escalado: Escalado en rango 90-110%
Aumento de Rotación: Rotación de pequeños ángulos
Volteo Horizontal: Volteo especular

Cada método de aumento puede mejorar el rendimiento del modelo de forma independiente, siendo el aumento de traslación el más efectivo.

Hallazgos Experimentales

Los puntos clave faciales son cruciales para el reconocimiento de BSL
El método basado en puntos clave reduce significativamente los costos computacionales mientras mantiene una precisión razonable
Las técnicas de aumento de datos son igualmente efectivas para modelos basados en puntos clave

Trabajo Relacionado

Investigación en Reconocimiento de BSL

Los trabajos anteriores utilizaban principalmente video RGB para el reconocimiento de BSL
Se enfocaban en coarticulación y reconocimiento de patrones de labios
Este artículo es el primero en utilizar un método puramente basado en puntos clave

Investigación en Representación de Puntos Clave

Evolución desde ingeniería de características manuales a métodos de aprendizaje profundo (CNNs)
Aplicación de redes neuronales de grafos (GNNs) en reconocimiento de acciones y gestos
Aplicaciones exitosas de arquitectura Transformer en visión por computadora

Comparación Técnica

Este artículo adopta el método de introducir puntos clave directamente en Transformer, diferenciándose del enfoque tradicional de construir redes neuronales de grafos.

Conclusiones y Discusión

Conclusiones Principales

El método basado en puntos clave presenta ventajas computacionales significativas en el reconocimiento de BSL
La arquitectura Transformer puede procesar efectivamente secuencias de puntos clave
Los puntos clave faciales son cruciales para el rendimiento del reconocimiento de BSL
El aumento de datos apropiado puede mejorar aún más el rendimiento del modelo

Limitaciones

Precisión: La precisión del 60% aún tiene espacio para mejora
Comparación Faltante: Como primer método basado en puntos clave, carece de puntos de referencia de comparación directa
Limitación del Conjunto de Datos: Solo validado en el conjunto de datos BOBSL
Verificación en Tiempo Real: Carece de pruebas de rendimiento en tiempo real actual

Direcciones Futuras

Fusión Multimodal: Combinar puntos clave e imágenes RGB para mejorar la precisión
Estimación de Postura 3D: Explorar técnicas de estimación de postura 3D a nivel de secuencia
Imágenes de Esqueleto: Probar representaciones de imágenes de esqueleto en blanco y negro basadas en puntos clave
Validación a Mayor Escala: Validar la efectividad del método en más conjuntos de datos de lenguaje de signos

Evaluación Profunda

Ventajas

Fuerte Innovación: Primera aplicación de método puramente basado en puntos clave al reconocimiento de BSL
Alto Valor Práctico: Reduce significativamente los costos computacionales, adecuado para entornos con recursos limitados
Metodología Razonable: Línea técnica clara, detalles de implementación completos
Experimentación Suficiente: Incluye experimentos comparativos de múltiples configuraciones y estrategias de aumento

Insuficiencias

Rendimiento Limitado: La precisión del 60% es relativamente baja
Falta de Comparación: No es posible comparar directamente con otros métodos
Análisis Insuficiente: Carece de análisis profundo de casos de fallo
Generalización Desconocida: Solo validado en un único conjunto de datos

Impacto

Carácter Pionero: Proporciona una nueva ruta tecnológica para el reconocimiento de lenguaje de signos
Practicidad: El método eficiente facilita el despliegue de aplicaciones prácticas
Escalabilidad: Proporciona una base sólida para investigaciones posteriores
Valor Social: Contribuye a mejorar la accesibilidad tecnológica para la población sorda

Escenarios Aplicables

Entornos con Recursos Limitados: Dispositivos móviles, escenarios de computación de borde
Aplicaciones en Tiempo Real: Sistemas interactivos que requieren respuesta rápida
Despliegue a Gran Escala: Escenarios que requieren procesar grandes volúmenes de datos de video
Prototipos de Investigación: Como componente base de sistemas más complejos

Referencias

El artículo cita múltiples trabajos relacionados importantes, incluyendo:

Artículos relacionados con el conjunto de datos BOBSL 3
Marco de extracción de puntos clave MediaPipe 13
Artículo original de arquitectura Transformer 18
Investigación relacionada con reconocimiento de lenguaje de signos 1,2,6
Aplicaciones de redes neuronales de grafos en reconocimiento de acciones 21

Evaluación General: Este es un artículo de importancia pionera que aplica por primera vez el método basado en puntos clave a la tarea de reconocimiento de BSL. Aunque aún hay espacio para mejorar en términos de precisión, sus ventajas significativas en eficiencia computacional le confieren un valor práctico importante. Este trabajo proporciona una nueva dirección de investigación para el campo del reconocimiento de lenguaje de signos, siendo particularmente significativo en escenarios de recursos limitados y aplicaciones en tiempo real.