In this paper, we present a novel keypoint-based classification model designed to recognise British Sign Language (BSL) words within continuous signing sequences. Our model's performance is assessed using the BOBSL dataset, revealing that the keypoint-based approach surpasses its RGB-based counterpart in computational efficiency and memory usage. Furthermore, it offers expedited training times and demands fewer computational resources. To the best of our knowledge, this is the inaugural application of a keypoint-based model for BSL word classification, rendering direct comparisons with existing works unavailable.
- ID del Artículo: 2412.09475
- Título: New keypoint-based approach for recognising British Sign Language (BSL) from sequences
- Autores: Oishi Deb, KR Prajwal, Andrew Zisserman (Visual Geometry Group, University of Oxford)
- Clasificación: cs.CV cs.AI
- Fecha de Publicación/Conferencia: International Conference on Computer Vision (ICCV) - HANDS Workshop, 2023
- Enlace del Artículo: https://arxiv.org/abs/2412.09475
Este artículo propone un modelo de clasificación novedoso basado en puntos clave para reconocer palabras de la Lengua de Signos Británica (BSL) en secuencias de lenguaje de signos continuo. El modelo se evalúa en el conjunto de datos BOBSL, demostrando que el enfoque basado en puntos clave supera a los métodos basados en RGB en términos de eficiencia computacional y uso de memoria, proporcionando tiempos de entrenamiento más rápidos y requiriendo menos recursos computacionales. Según el conocimiento de los autores, esta es la primera aplicación de modelos basados en puntos clave a la clasificación de palabras BSL, por lo que no es posible realizar comparaciones directas con trabajos existentes.
El reconocimiento de lenguaje de signos es una tarea importante de visión por computadora que tiene como objetivo identificar automáticamente palabras o frases de lenguaje de signos a partir de secuencias de video. Los métodos tradicionales se basan principalmente en video RGB, pero presentan problemas como alta complejidad computacional y sensibilidad a factores ambientales.
- Significado Social: Mejorar la accesibilidad para la comunidad sorda y promover la comunicación inclusiva
- Desafíos Técnicos: El fenómeno de coarticulación en el lenguaje de signos continuo hace que la tarea de reconocimiento sea extremadamente desafiante
- Requisitos en Tiempo Real: Las aplicaciones prácticas requieren modelos eficientes capaces de procesar en tiempo real
- Métodos RGB: Alta complejidad computacional, gran consumo de memoria, tiempos de entrenamiento prolongados
- Sensibilidad Ambiental: Fácilmente afectados por factores externos como iluminación y ropa
- Baja Capacidad en Tiempo Real: Difícil de satisfacer requisitos de aplicaciones en tiempo real
Los autores proponen utilizar representaciones de puntos clave 2D para abordar los problemas anteriores, basándose en tres razones principales:
- Controlabilidad: Capacidad de seleccionar flexiblemente subconjuntos de puntos clave para controlar costos computacionales
- Compacidad: Elimina factores de interferencia como iluminación y ropa, proporcionando una representación más compacta
- Capacidad en Tiempo Real: Los puntos clave pueden calcularse en tiempo real, permitiendo ejecución de modelos en tiempo real
- Aplicación Pionera: Primera aplicación de métodos basados en puntos clave a la tarea de clasificación de palabras BSL
- Arquitectura Eficiente: Propone una arquitectura de procesamiento de secuencias de puntos clave basada en Transformer
- Eficiencia Computacional: Reduce significativamente los costos computacionales, el uso de memoria y los tiempos de entrenamiento en comparación con métodos RGB
- Valor Práctico: Proporciona una solución más eficiente y práctica para el reconocimiento de lenguaje de signos
- Entrada: Representación de puntos clave 2D de secuencias de video BSL continuo
- Salida: Resultados de clasificación para 8,162 categorías de palabras BSL
- Restricciones: Manejo del fenómeno de coarticulación, soporte para procesamiento en tiempo real
Se utiliza la biblioteca MediaPipe para extraer puntos clave:
- Puntos clave de postura: 33
- Puntos clave de manos: 21 en cada mano (izquierda y derecha)
- Puntos clave faciales: 468 (reducidos a 128 en el modelo de 203kp)
- Total: 543 puntos clave (o versión simplificada de 203 puntos clave)
- Extrae secuencias de puntos clave de 16 fotogramas consecutivos (basado en hallazgos de que la coarticulación persiste 13-20 fotogramas)
- Forma un vector tridimensional 16 × K × 2, donde K es el número de puntos clave por fotograma
- Tokenizador: Realiza tokenización de los datos de entrada
- Codificación Posicional: Añade información de posición para distinguir el orden en la secuencia
- Codificador: 6 capas de codificador, cada capa contiene:
- Mecanismo de autoatención multicabeza (8 cabezas de atención)
- Red neuronal de retroalimentación posicional
- Normalización de capas
- Generador: Convierte la representación aprendida en salida de clasificación
- Atención a Nivel de Fotograma: Modelo de atención a nivel de fotograma
- Atención a Nivel de Trayectoria: Modelo de atención a nivel de trayectoria
- Utiliza mecanismo de atención de producto punto escalado
- Entrada Directa de Puntos Clave: A diferencia de métodos basados en redes neuronales de grafos, introduce puntos clave directamente como entrada de Transformer
- Modelado Temporal: Utiliza el mecanismo de autoatención de Transformer para capturar dependencias a largo plazo
- Puntos Clave Multiescala: Explora diferentes configuraciones de cantidad de puntos clave para equilibrar rendimiento y eficiencia
- Aumento de Datos: Estrategias de aumento diseñadas para puntos clave (traslación, escalado, rotación, volteo)
Conjunto de Datos BOBSL:
- Escala: 1,467 horas de programas de la BBC
- Resolución: 444×444 píxeles, 25fps
- Vocabulario: 8,162 palabras de lenguaje de signos
- Intérpretes: 39 intérpretes de lenguaje de signos
- Conjunto de Entrenamiento: 8,162 palabras únicas, 3,555,141 fotogramas
- Conjunto de Validación: 3,348 palabras, 53,768 fotogramas
- Estrategia de División: Dividido por intérprete, asegurando que no haya solapamiento de intérpretes entre conjuntos de entrenamiento, validación y prueba
- Optimizador: Optimizador Adam, tasa de aprendizaje 1e-4
- Tamaño de Lote: 128
- Estrategia de Parada Temprana: Se detiene cuando la pérdida de validación no mejora durante 3 épocas consecutivas
- Dimensión del Modelo: Incrustación de 512 dimensiones
- Cantidad de Parámetros: 23.9 millones de parámetros (vs 34.5 millones del modelo RGB)
- Precisión: Precisión Top-5 alcanza el 60%
- Eficiencia de Parámetros: Reduce el 30.7% de parámetros en comparación con métodos RGB (23.9M vs 34.5M)
- Eficiencia Computacional: Reduce significativamente los costos computacionales, el uso de memoria y los tiempos de entrenamiento
- Modelo de 543 Puntos Clave: Utiliza 468 puntos clave faciales
- Modelo de 203 Puntos Clave: Utiliza 128 puntos clave faciales
- Hallazgo: Aumentar la cantidad de puntos clave faciales mejora el rendimiento
Se probaron múltiples técnicas de aumento:
- Aumento de Traslación: Proporciona la mayor mejora de rendimiento
- Aumento de Escalado: Escalado en rango 90-110%
- Aumento de Rotación: Rotación de pequeños ángulos
- Volteo Horizontal: Volteo especular
Cada método de aumento puede mejorar el rendimiento del modelo de forma independiente, siendo el aumento de traslación el más efectivo.
- Los puntos clave faciales son cruciales para el reconocimiento de BSL
- El método basado en puntos clave reduce significativamente los costos computacionales mientras mantiene una precisión razonable
- Las técnicas de aumento de datos son igualmente efectivas para modelos basados en puntos clave
- Los trabajos anteriores utilizaban principalmente video RGB para el reconocimiento de BSL
- Se enfocaban en coarticulación y reconocimiento de patrones de labios
- Este artículo es el primero en utilizar un método puramente basado en puntos clave
- Evolución desde ingeniería de características manuales a métodos de aprendizaje profundo (CNNs)
- Aplicación de redes neuronales de grafos (GNNs) en reconocimiento de acciones y gestos
- Aplicaciones exitosas de arquitectura Transformer en visión por computadora
Este artículo adopta el método de introducir puntos clave directamente en Transformer, diferenciándose del enfoque tradicional de construir redes neuronales de grafos.
- El método basado en puntos clave presenta ventajas computacionales significativas en el reconocimiento de BSL
- La arquitectura Transformer puede procesar efectivamente secuencias de puntos clave
- Los puntos clave faciales son cruciales para el rendimiento del reconocimiento de BSL
- El aumento de datos apropiado puede mejorar aún más el rendimiento del modelo
- Precisión: La precisión del 60% aún tiene espacio para mejora
- Comparación Faltante: Como primer método basado en puntos clave, carece de puntos de referencia de comparación directa
- Limitación del Conjunto de Datos: Solo validado en el conjunto de datos BOBSL
- Verificación en Tiempo Real: Carece de pruebas de rendimiento en tiempo real actual
- Fusión Multimodal: Combinar puntos clave e imágenes RGB para mejorar la precisión
- Estimación de Postura 3D: Explorar técnicas de estimación de postura 3D a nivel de secuencia
- Imágenes de Esqueleto: Probar representaciones de imágenes de esqueleto en blanco y negro basadas en puntos clave
- Validación a Mayor Escala: Validar la efectividad del método en más conjuntos de datos de lenguaje de signos
- Fuerte Innovación: Primera aplicación de método puramente basado en puntos clave al reconocimiento de BSL
- Alto Valor Práctico: Reduce significativamente los costos computacionales, adecuado para entornos con recursos limitados
- Metodología Razonable: Línea técnica clara, detalles de implementación completos
- Experimentación Suficiente: Incluye experimentos comparativos de múltiples configuraciones y estrategias de aumento
- Rendimiento Limitado: La precisión del 60% es relativamente baja
- Falta de Comparación: No es posible comparar directamente con otros métodos
- Análisis Insuficiente: Carece de análisis profundo de casos de fallo
- Generalización Desconocida: Solo validado en un único conjunto de datos
- Carácter Pionero: Proporciona una nueva ruta tecnológica para el reconocimiento de lenguaje de signos
- Practicidad: El método eficiente facilita el despliegue de aplicaciones prácticas
- Escalabilidad: Proporciona una base sólida para investigaciones posteriores
- Valor Social: Contribuye a mejorar la accesibilidad tecnológica para la población sorda
- Entornos con Recursos Limitados: Dispositivos móviles, escenarios de computación de borde
- Aplicaciones en Tiempo Real: Sistemas interactivos que requieren respuesta rápida
- Despliegue a Gran Escala: Escenarios que requieren procesar grandes volúmenes de datos de video
- Prototipos de Investigación: Como componente base de sistemas más complejos
El artículo cita múltiples trabajos relacionados importantes, incluyendo:
- Artículos relacionados con el conjunto de datos BOBSL 3
- Marco de extracción de puntos clave MediaPipe 13
- Artículo original de arquitectura Transformer 18
- Investigación relacionada con reconocimiento de lenguaje de signos 1,2,6
- Aplicaciones de redes neuronales de grafos en reconocimiento de acciones 21
Evaluación General: Este es un artículo de importancia pionera que aplica por primera vez el método basado en puntos clave a la tarea de reconocimiento de BSL. Aunque aún hay espacio para mejorar en términos de precisión, sus ventajas significativas en eficiencia computacional le confieren un valor práctico importante. Este trabajo proporciona una nueva dirección de investigación para el campo del reconocimiento de lenguaje de signos, siendo particularmente significativo en escenarios de recursos limitados y aplicaciones en tiempo real.