2025-11-15T00:16:11.455248

New keypoint-based approach for recognising British Sign Language (BSL) from sequences

Deb, Prajwal, Zisserman

In this paper, we present a novel keypoint-based classification model designed to recognise British Sign Language (BSL) words within continuous signing sequences. Our model's performance is assessed using the BOBSL dataset, revealing that the keypoint-based approach surpasses its RGB-based counterpart in computational efficiency and memory usage. Furthermore, it offers expedited training times and demands fewer computational resources. To the best of our knowledge, this is the inaugural application of a keypoint-based model for BSL word classification, rendering direct comparisons with existing works unavailable.

academic

Nouvelle approche basée sur les points clés pour la reconnaissance de la langue des signes britannique (BSL) à partir de séquences

Informations de base

ID de l'article: 2412.09475
Titre: New keypoint-based approach for recognising British Sign Language (BSL) from sequences
Auteurs: Oishi Deb, KR Prajwal, Andrew Zisserman (Visual Geometry Group, Université d'Oxford)
Classification: cs.CV cs.AI
Date de publication/Conférence: International Conference on Computer Vision (ICCV) - HANDS Workshop, 2023
Lien de l'article: https://arxiv.org/abs/2412.09475

Résumé

Cet article propose un modèle de classification novateur basé sur les points clés pour reconnaître les mots de la langue des signes britannique (BSL) dans des séquences de langage gestuel continu. Le modèle est évalué sur l'ensemble de données BOBSL, et les résultats montrent que l'approche basée sur les points clés surpasse les méthodes correspondantes basées sur RGB en termes d'efficacité computationnelle et d'utilisation de la mémoire, tout en offrant un temps d'entraînement plus rapide et nécessitant moins de ressources de calcul. À la connaissance des auteurs, c'est la première fois qu'un modèle basé sur les points clés est appliqué à la classification de mots BSL, ce qui rend impossible une comparaison directe avec les travaux existants.

Contexte de recherche et motivation

Définition du problème

La reconnaissance de la langue des signes est une tâche importante de vision par ordinateur visant à reconnaître automatiquement les mots ou phrases de la langue des signes à partir de séquences vidéo. Les méthodes traditionnelles s'appuient principalement sur des vidéos RGB, mais présentent des problèmes tels qu'une complexité computationnelle élevée et une sensibilité aux facteurs environnementaux.

Importance

Signification sociale: Améliorer l'accessibilité pour la communauté sourde et promouvoir la communication inclusive
Défis techniques: Le phénomène de co-articulation dans la langue des signes continue rend la tâche de reconnaissance extrêmement difficile
Exigences en temps réel: Les applications pratiques nécessitent des modèles efficaces capables de traiter en temps réel

Limitations des approches existantes

Méthodes RGB: Complexité computationnelle élevée, consommation mémoire importante, temps d'entraînement long
Sensibilité environnementale: Facilement affectée par des facteurs externes tels que l'éclairage et les vêtements
Faible performance en temps réel: Difficile de satisfaire les exigences des applications en temps réel

Motivation de la recherche

Les auteurs proposent d'utiliser une représentation par points clés 2D pour résoudre les problèmes mentionnés ci-dessus, basée sur trois raisons principales:

Contrôlabilité: Capacité à sélectionner flexiblement des sous-ensembles de points clés et à contrôler les coûts computationnels
Compacité: Élimination des facteurs de perturbation tels que l'éclairage et les vêtements, fournissant une représentation plus compacte
Performance en temps réel: Les points clés peuvent être calculés en temps réel, supportant l'exécution de modèles en temps réel

Contributions principales

Application pionnière: Première application de la méthode basée sur les points clés à la tâche de classification de mots BSL
Architecture efficace: Proposition d'une architecture de traitement de séquences de points clés basée sur Transformer
Efficacité computationnelle: Réduction significative des coûts de calcul, de l'utilisation mémoire et du temps d'entraînement par rapport aux méthodes RGB
Valeur pratique: Fournit une solution plus efficace et pratique pour la reconnaissance de la langue des signes

Explication détaillée de la méthode

Définition de la tâche

Entrée: Représentation par points clés 2D de séquences vidéo BSL continues
Sortie: Résultats de classification pour 8162 catégories de mots BSL
Contraintes: Traitement du phénomène de co-articulation, support du traitement en temps réel

Extraction des points clés

Utilisation de la bibliothèque MediaPipe pour extraire les points clés:

Points clés de posture: 33
Points clés des mains: 21 pour chaque main (gauche et droite)
Points clés du visage: 468 (réduits à 128 dans le modèle 203kp)
Total: 543 points clés (ou version simplifiée de 203 points clés)

Architecture du modèle

Représentation d'entrée

Extraction de séquences de points clés sur 16 images consécutives (basée sur la découverte que la co-articulation dure 13-20 images)
Formation d'un vecteur tridimensionnel 16 × K × 2, où K est le nombre de points clés par image

Architecture Transformer

Tokenizer: Tokenisation des données d'entrée
Codage positionnel: Ajout d'informations de position pour distinguer l'ordre dans la séquence
Encodeur: 6 couches d'encodeur, chaque couche contenant:
- Mécanisme d'auto-attention multi-têtes (8 têtes d'attention)
- Réseau de neurones avant position
- Normalisation de couche
Générateur: Conversion de la représentation apprise en sortie de classification

Mécanisme d'attention

Attention au niveau des images: Modèle d'attention au niveau des images
Attention au niveau des trajectoires: Modèle d'attention au niveau des trajectoires
Utilisation du mécanisme d'attention par produit scalaire mis à l'échelle

Points d'innovation technique

Entrée directe de points clés: Contrairement aux méthodes basées sur les réseaux de neurones graphiques, les points clés sont directement utilisés comme entrée du Transformer
Modélisation temporelle: Utilisation du mécanisme d'auto-attention du Transformer pour capturer les dépendances à long terme
Points clés multi-échelles: Exploration de différentes configurations du nombre de points clés pour équilibrer performance et efficacité
Augmentation de données: Stratégies d'augmentation conçues pour les points clés (translation, mise à l'échelle, rotation, retournement)

Configuration expérimentale

Ensemble de données

Ensemble de données BOBSL:

Échelle: 1 467 heures de programmes BBC
Résolution: 444×444 pixels, 25fps
Vocabulaire: 8 162 mots de langue des signes
Signataires: 39 interprètes en langue des signes
Ensemble d'entraînement: 8 162 mots uniques, 3 555 141 images
Ensemble de validation: 3 348 mots, 53 768 images
Stratégie de division: Division par signataire, garantissant aucun chevauchement de signataires entre les ensembles d'entraînement, de validation et de test

Métriques d'évaluation

Précision Top-5

Détails d'implémentation

Optimiseur: Optimiseur Adam, taux d'apprentissage 1e-4
Taille de lot: 128
Stratégie d'arrêt anticipé: Arrêt lorsque la perte de validation ne s'améliore pas pendant 3 epochs consécutifs
Dimension du modèle: Plongement 512-dimensionnel
Nombre de paramètres: 23,9 millions de paramètres (vs 34,5 millions pour le modèle RGB)

Résultats expérimentaux

Résultats principaux

Précision: Précision Top-5 atteignant 60%
Efficacité des paramètres: Réduction de 30,7% du nombre de paramètres par rapport à la méthode RGB (23,9M vs 34,5M)
Efficacité computationnelle: Réduction significative des coûts de calcul, de l'utilisation mémoire et du temps d'entraînement

Comparaison du nombre de points clés

Modèle 543 points clés: Utilisation de 468 points clés du visage
Modèle 203 points clés: Utilisation de 128 points clés du visage
Découverte: L'augmentation du nombre de points clés du visage améliore les performances

Effets de l'augmentation de données

Test de plusieurs techniques d'augmentation:

Augmentation par translation: Fournit l'amélioration de performance la plus importante
Augmentation par mise à l'échelle: Mise à l'échelle dans la plage 90-110%
Augmentation par rotation: Rotation de petits angles
Retournement horizontal: Retournement en miroir

Chaque méthode d'augmentation améliore les performances du modèle individuellement, l'augmentation par translation étant la plus efficace.

Découvertes expérimentales

Les points clés du visage sont essentiels pour la reconnaissance BSL
La méthode basée sur les points clés réduit considérablement les coûts computationnels tout en maintenant une précision raisonnable
Les techniques d'augmentation de données sont tout aussi efficaces pour les modèles basés sur les points clés

Travaux connexes

Recherche sur la reconnaissance BSL

Les travaux antérieurs utilisaient principalement des vidéos RGB pour la reconnaissance BSL
Accent mis sur la co-articulation et la reconnaissance des motifs labiaux
Cet article est le premier à utiliser une méthode purement basée sur les points clés

Recherche sur la représentation par points clés

Évolution de l'ingénierie manuelle des caractéristiques aux méthodes d'apprentissage profond (CNN)
Application des réseaux de neurones graphiques (GNN) à la reconnaissance d'actions et de gestes
Succès de l'architecture Transformer en vision par ordinateur

Comparaison technique

Cet article adopte une approche d'entrée directe des points clés dans le Transformer, se distinguant de l'approche traditionnelle de construction de réseaux de neurones graphiques.

Conclusion et discussion

Conclusions principales

La méthode basée sur les points clés présente des avantages computationnels significatifs dans la reconnaissance BSL
L'architecture Transformer peut traiter efficacement les séquences de points clés
Les points clés du visage sont essentiels pour la performance de reconnaissance BSL
L'augmentation de données appropriée peut améliorer davantage les performances du modèle

Limitations

Précision: La précision de 60% laisse place à l'amélioration
Comparaisons manquantes: En tant que première méthode basée sur les points clés, il manque des références de comparaison directe
Limitations des données: Validation uniquement sur l'ensemble de données BOBSL
Vérification en temps réel: Manque de tests de performance en temps réel réels

Directions futures

Fusion multimodale: Combinaison de points clés et d'images RGB pour améliorer la précision
Estimation de posture 3D: Exploration des techniques d'estimation de posture 3D au niveau des séquences
Images squelettiques: Essai de représentation d'images squelettiques en noir et blanc basées sur les points clés
Validation à plus grande échelle: Vérification de l'efficacité de la méthode sur plus d'ensembles de données de langue des signes

Évaluation approfondie

Points forts

Forte innovativité: Première application d'une méthode purement basée sur les points clés à la reconnaissance BSL
Haute valeur pratique: Réduction significative des coûts computationnels, adaptée aux environnements aux ressources limitées
Méthodologie raisonnable: Ligne technique claire, détails d'implémentation complets
Expériences complètes: Expériences comparatives incluant plusieurs configurations et stratégies d'augmentation

Insuffisances

Performance limitée: La précision de 60% est relativement faible
Manque de comparaisons: Impossible de comparer directement avec d'autres méthodes
Analyse insuffisante: Manque d'analyse approfondie des cas d'échec
Généralisation inconnue: Validation uniquement sur un seul ensemble de données

Impact

Caractère pionnnier: Fournit une nouvelle voie technologique pour la reconnaissance de la langue des signes
Praticité: La méthode efficace facilite le déploiement des applications pratiques
Extensibilité: Fournit une bonne base pour les recherches ultérieures
Valeur sociale: Contribue à améliorer l'accessibilité technologique pour la communauté sourde

Scénarios d'application

Environnements aux ressources limitées: Appareils mobiles, scénarios d'informatique en périphérie
Applications en temps réel: Systèmes interactifs nécessitant une réponse rapide
Déploiement à grande échelle: Scénarios nécessitant le traitement de grandes quantités de données vidéo
Prototypes de recherche: Composant de base pour des systèmes plus complexes

Références

L'article cite plusieurs travaux connexes importants, notamment:

Articles relatifs à l'ensemble de données BOBSL 3
Cadre d'extraction de points clés MediaPipe 13
Article original de l'architecture Transformer 18
Recherches connexes sur la reconnaissance de la langue des signes 1,2,6
Application des réseaux de neurones graphiques à la reconnaissance d'actions 21

Évaluation globale: Cet article est d'une importance pionnière, appliquant pour la première fois la méthode basée sur les points clés à la tâche de reconnaissance BSL. Bien qu'il y ait place à l'amélioration en termes de précision, ses avantages significatifs en efficacité computationnelle lui confèrent une valeur pratique importante. Ce travail fournit une nouvelle direction de recherche pour le domaine de la reconnaissance de la langue des signes, particulièrement significative dans les scénarios aux ressources limitées et les applications en temps réel.