In this paper, we present a novel keypoint-based classification model designed to recognise British Sign Language (BSL) words within continuous signing sequences. Our model's performance is assessed using the BOBSL dataset, revealing that the keypoint-based approach surpasses its RGB-based counterpart in computational efficiency and memory usage. Furthermore, it offers expedited training times and demands fewer computational resources. To the best of our knowledge, this is the inaugural application of a keypoint-based model for BSL word classification, rendering direct comparisons with existing works unavailable.
- ID de l'article: 2412.09475
- Titre: New keypoint-based approach for recognising British Sign Language (BSL) from sequences
- Auteurs: Oishi Deb, KR Prajwal, Andrew Zisserman (Visual Geometry Group, Université d'Oxford)
- Classification: cs.CV cs.AI
- Date de publication/Conférence: International Conference on Computer Vision (ICCV) - HANDS Workshop, 2023
- Lien de l'article: https://arxiv.org/abs/2412.09475
Cet article propose un modèle de classification novateur basé sur les points clés pour reconnaître les mots de la langue des signes britannique (BSL) dans des séquences de langage gestuel continu. Le modèle est évalué sur l'ensemble de données BOBSL, et les résultats montrent que l'approche basée sur les points clés surpasse les méthodes correspondantes basées sur RGB en termes d'efficacité computationnelle et d'utilisation de la mémoire, tout en offrant un temps d'entraînement plus rapide et nécessitant moins de ressources de calcul. À la connaissance des auteurs, c'est la première fois qu'un modèle basé sur les points clés est appliqué à la classification de mots BSL, ce qui rend impossible une comparaison directe avec les travaux existants.
La reconnaissance de la langue des signes est une tâche importante de vision par ordinateur visant à reconnaître automatiquement les mots ou phrases de la langue des signes à partir de séquences vidéo. Les méthodes traditionnelles s'appuient principalement sur des vidéos RGB, mais présentent des problèmes tels qu'une complexité computationnelle élevée et une sensibilité aux facteurs environnementaux.
- Signification sociale: Améliorer l'accessibilité pour la communauté sourde et promouvoir la communication inclusive
- Défis techniques: Le phénomène de co-articulation dans la langue des signes continue rend la tâche de reconnaissance extrêmement difficile
- Exigences en temps réel: Les applications pratiques nécessitent des modèles efficaces capables de traiter en temps réel
- Méthodes RGB: Complexité computationnelle élevée, consommation mémoire importante, temps d'entraînement long
- Sensibilité environnementale: Facilement affectée par des facteurs externes tels que l'éclairage et les vêtements
- Faible performance en temps réel: Difficile de satisfaire les exigences des applications en temps réel
Les auteurs proposent d'utiliser une représentation par points clés 2D pour résoudre les problèmes mentionnés ci-dessus, basée sur trois raisons principales:
- Contrôlabilité: Capacité à sélectionner flexiblement des sous-ensembles de points clés et à contrôler les coûts computationnels
- Compacité: Élimination des facteurs de perturbation tels que l'éclairage et les vêtements, fournissant une représentation plus compacte
- Performance en temps réel: Les points clés peuvent être calculés en temps réel, supportant l'exécution de modèles en temps réel
- Application pionnière: Première application de la méthode basée sur les points clés à la tâche de classification de mots BSL
- Architecture efficace: Proposition d'une architecture de traitement de séquences de points clés basée sur Transformer
- Efficacité computationnelle: Réduction significative des coûts de calcul, de l'utilisation mémoire et du temps d'entraînement par rapport aux méthodes RGB
- Valeur pratique: Fournit une solution plus efficace et pratique pour la reconnaissance de la langue des signes
- Entrée: Représentation par points clés 2D de séquences vidéo BSL continues
- Sortie: Résultats de classification pour 8162 catégories de mots BSL
- Contraintes: Traitement du phénomène de co-articulation, support du traitement en temps réel
Utilisation de la bibliothèque MediaPipe pour extraire les points clés:
- Points clés de posture: 33
- Points clés des mains: 21 pour chaque main (gauche et droite)
- Points clés du visage: 468 (réduits à 128 dans le modèle 203kp)
- Total: 543 points clés (ou version simplifiée de 203 points clés)
- Extraction de séquences de points clés sur 16 images consécutives (basée sur la découverte que la co-articulation dure 13-20 images)
- Formation d'un vecteur tridimensionnel 16 × K × 2, où K est le nombre de points clés par image
- Tokenizer: Tokenisation des données d'entrée
- Codage positionnel: Ajout d'informations de position pour distinguer l'ordre dans la séquence
- Encodeur: 6 couches d'encodeur, chaque couche contenant:
- Mécanisme d'auto-attention multi-têtes (8 têtes d'attention)
- Réseau de neurones avant position
- Normalisation de couche
- Générateur: Conversion de la représentation apprise en sortie de classification
- Attention au niveau des images: Modèle d'attention au niveau des images
- Attention au niveau des trajectoires: Modèle d'attention au niveau des trajectoires
- Utilisation du mécanisme d'attention par produit scalaire mis à l'échelle
- Entrée directe de points clés: Contrairement aux méthodes basées sur les réseaux de neurones graphiques, les points clés sont directement utilisés comme entrée du Transformer
- Modélisation temporelle: Utilisation du mécanisme d'auto-attention du Transformer pour capturer les dépendances à long terme
- Points clés multi-échelles: Exploration de différentes configurations du nombre de points clés pour équilibrer performance et efficacité
- Augmentation de données: Stratégies d'augmentation conçues pour les points clés (translation, mise à l'échelle, rotation, retournement)
Ensemble de données BOBSL:
- Échelle: 1 467 heures de programmes BBC
- Résolution: 444×444 pixels, 25fps
- Vocabulaire: 8 162 mots de langue des signes
- Signataires: 39 interprètes en langue des signes
- Ensemble d'entraînement: 8 162 mots uniques, 3 555 141 images
- Ensemble de validation: 3 348 mots, 53 768 images
- Stratégie de division: Division par signataire, garantissant aucun chevauchement de signataires entre les ensembles d'entraînement, de validation et de test
- Optimiseur: Optimiseur Adam, taux d'apprentissage 1e-4
- Taille de lot: 128
- Stratégie d'arrêt anticipé: Arrêt lorsque la perte de validation ne s'améliore pas pendant 3 epochs consécutifs
- Dimension du modèle: Plongement 512-dimensionnel
- Nombre de paramètres: 23,9 millions de paramètres (vs 34,5 millions pour le modèle RGB)
- Précision: Précision Top-5 atteignant 60%
- Efficacité des paramètres: Réduction de 30,7% du nombre de paramètres par rapport à la méthode RGB (23,9M vs 34,5M)
- Efficacité computationnelle: Réduction significative des coûts de calcul, de l'utilisation mémoire et du temps d'entraînement
- Modèle 543 points clés: Utilisation de 468 points clés du visage
- Modèle 203 points clés: Utilisation de 128 points clés du visage
- Découverte: L'augmentation du nombre de points clés du visage améliore les performances
Test de plusieurs techniques d'augmentation:
- Augmentation par translation: Fournit l'amélioration de performance la plus importante
- Augmentation par mise à l'échelle: Mise à l'échelle dans la plage 90-110%
- Augmentation par rotation: Rotation de petits angles
- Retournement horizontal: Retournement en miroir
Chaque méthode d'augmentation améliore les performances du modèle individuellement, l'augmentation par translation étant la plus efficace.
- Les points clés du visage sont essentiels pour la reconnaissance BSL
- La méthode basée sur les points clés réduit considérablement les coûts computationnels tout en maintenant une précision raisonnable
- Les techniques d'augmentation de données sont tout aussi efficaces pour les modèles basés sur les points clés
- Les travaux antérieurs utilisaient principalement des vidéos RGB pour la reconnaissance BSL
- Accent mis sur la co-articulation et la reconnaissance des motifs labiaux
- Cet article est le premier à utiliser une méthode purement basée sur les points clés
- Évolution de l'ingénierie manuelle des caractéristiques aux méthodes d'apprentissage profond (CNN)
- Application des réseaux de neurones graphiques (GNN) à la reconnaissance d'actions et de gestes
- Succès de l'architecture Transformer en vision par ordinateur
Cet article adopte une approche d'entrée directe des points clés dans le Transformer, se distinguant de l'approche traditionnelle de construction de réseaux de neurones graphiques.
- La méthode basée sur les points clés présente des avantages computationnels significatifs dans la reconnaissance BSL
- L'architecture Transformer peut traiter efficacement les séquences de points clés
- Les points clés du visage sont essentiels pour la performance de reconnaissance BSL
- L'augmentation de données appropriée peut améliorer davantage les performances du modèle
- Précision: La précision de 60% laisse place à l'amélioration
- Comparaisons manquantes: En tant que première méthode basée sur les points clés, il manque des références de comparaison directe
- Limitations des données: Validation uniquement sur l'ensemble de données BOBSL
- Vérification en temps réel: Manque de tests de performance en temps réel réels
- Fusion multimodale: Combinaison de points clés et d'images RGB pour améliorer la précision
- Estimation de posture 3D: Exploration des techniques d'estimation de posture 3D au niveau des séquences
- Images squelettiques: Essai de représentation d'images squelettiques en noir et blanc basées sur les points clés
- Validation à plus grande échelle: Vérification de l'efficacité de la méthode sur plus d'ensembles de données de langue des signes
- Forte innovativité: Première application d'une méthode purement basée sur les points clés à la reconnaissance BSL
- Haute valeur pratique: Réduction significative des coûts computationnels, adaptée aux environnements aux ressources limitées
- Méthodologie raisonnable: Ligne technique claire, détails d'implémentation complets
- Expériences complètes: Expériences comparatives incluant plusieurs configurations et stratégies d'augmentation
- Performance limitée: La précision de 60% est relativement faible
- Manque de comparaisons: Impossible de comparer directement avec d'autres méthodes
- Analyse insuffisante: Manque d'analyse approfondie des cas d'échec
- Généralisation inconnue: Validation uniquement sur un seul ensemble de données
- Caractère pionnnier: Fournit une nouvelle voie technologique pour la reconnaissance de la langue des signes
- Praticité: La méthode efficace facilite le déploiement des applications pratiques
- Extensibilité: Fournit une bonne base pour les recherches ultérieures
- Valeur sociale: Contribue à améliorer l'accessibilité technologique pour la communauté sourde
- Environnements aux ressources limitées: Appareils mobiles, scénarios d'informatique en périphérie
- Applications en temps réel: Systèmes interactifs nécessitant une réponse rapide
- Déploiement à grande échelle: Scénarios nécessitant le traitement de grandes quantités de données vidéo
- Prototypes de recherche: Composant de base pour des systèmes plus complexes
L'article cite plusieurs travaux connexes importants, notamment:
- Articles relatifs à l'ensemble de données BOBSL 3
- Cadre d'extraction de points clés MediaPipe 13
- Article original de l'architecture Transformer 18
- Recherches connexes sur la reconnaissance de la langue des signes 1,2,6
- Application des réseaux de neurones graphiques à la reconnaissance d'actions 21
Évaluation globale: Cet article est d'une importance pionnière, appliquant pour la première fois la méthode basée sur les points clés à la tâche de reconnaissance BSL. Bien qu'il y ait place à l'amélioration en termes de précision, ses avantages significatifs en efficacité computationnelle lui confèrent une valeur pratique importante. Ce travail fournit une nouvelle direction de recherche pour le domaine de la reconnaissance de la langue des signes, particulièrement significative dans les scénarios aux ressources limitées et les applications en temps réel.