2025-11-15T00:16:11.455248

New keypoint-based approach for recognising British Sign Language (BSL) from sequences

Deb, Prajwal, Zisserman
In this paper, we present a novel keypoint-based classification model designed to recognise British Sign Language (BSL) words within continuous signing sequences. Our model's performance is assessed using the BOBSL dataset, revealing that the keypoint-based approach surpasses its RGB-based counterpart in computational efficiency and memory usage. Furthermore, it offers expedited training times and demands fewer computational resources. To the best of our knowledge, this is the inaugural application of a keypoint-based model for BSL word classification, rendering direct comparisons with existing works unavailable.
academic

Nouvelle approche basée sur les points clés pour la reconnaissance de la langue des signes britannique (BSL) à partir de séquences

Informations de base

  • ID de l'article: 2412.09475
  • Titre: New keypoint-based approach for recognising British Sign Language (BSL) from sequences
  • Auteurs: Oishi Deb, KR Prajwal, Andrew Zisserman (Visual Geometry Group, Université d'Oxford)
  • Classification: cs.CV cs.AI
  • Date de publication/Conférence: International Conference on Computer Vision (ICCV) - HANDS Workshop, 2023
  • Lien de l'article: https://arxiv.org/abs/2412.09475

Résumé

Cet article propose un modèle de classification novateur basé sur les points clés pour reconnaître les mots de la langue des signes britannique (BSL) dans des séquences de langage gestuel continu. Le modèle est évalué sur l'ensemble de données BOBSL, et les résultats montrent que l'approche basée sur les points clés surpasse les méthodes correspondantes basées sur RGB en termes d'efficacité computationnelle et d'utilisation de la mémoire, tout en offrant un temps d'entraînement plus rapide et nécessitant moins de ressources de calcul. À la connaissance des auteurs, c'est la première fois qu'un modèle basé sur les points clés est appliqué à la classification de mots BSL, ce qui rend impossible une comparaison directe avec les travaux existants.

Contexte de recherche et motivation

Définition du problème

La reconnaissance de la langue des signes est une tâche importante de vision par ordinateur visant à reconnaître automatiquement les mots ou phrases de la langue des signes à partir de séquences vidéo. Les méthodes traditionnelles s'appuient principalement sur des vidéos RGB, mais présentent des problèmes tels qu'une complexité computationnelle élevée et une sensibilité aux facteurs environnementaux.

Importance

  1. Signification sociale: Améliorer l'accessibilité pour la communauté sourde et promouvoir la communication inclusive
  2. Défis techniques: Le phénomène de co-articulation dans la langue des signes continue rend la tâche de reconnaissance extrêmement difficile
  3. Exigences en temps réel: Les applications pratiques nécessitent des modèles efficaces capables de traiter en temps réel

Limitations des approches existantes

  1. Méthodes RGB: Complexité computationnelle élevée, consommation mémoire importante, temps d'entraînement long
  2. Sensibilité environnementale: Facilement affectée par des facteurs externes tels que l'éclairage et les vêtements
  3. Faible performance en temps réel: Difficile de satisfaire les exigences des applications en temps réel

Motivation de la recherche

Les auteurs proposent d'utiliser une représentation par points clés 2D pour résoudre les problèmes mentionnés ci-dessus, basée sur trois raisons principales:

  1. Contrôlabilité: Capacité à sélectionner flexiblement des sous-ensembles de points clés et à contrôler les coûts computationnels
  2. Compacité: Élimination des facteurs de perturbation tels que l'éclairage et les vêtements, fournissant une représentation plus compacte
  3. Performance en temps réel: Les points clés peuvent être calculés en temps réel, supportant l'exécution de modèles en temps réel

Contributions principales

  1. Application pionnière: Première application de la méthode basée sur les points clés à la tâche de classification de mots BSL
  2. Architecture efficace: Proposition d'une architecture de traitement de séquences de points clés basée sur Transformer
  3. Efficacité computationnelle: Réduction significative des coûts de calcul, de l'utilisation mémoire et du temps d'entraînement par rapport aux méthodes RGB
  4. Valeur pratique: Fournit une solution plus efficace et pratique pour la reconnaissance de la langue des signes

Explication détaillée de la méthode

Définition de la tâche

  • Entrée: Représentation par points clés 2D de séquences vidéo BSL continues
  • Sortie: Résultats de classification pour 8162 catégories de mots BSL
  • Contraintes: Traitement du phénomène de co-articulation, support du traitement en temps réel

Extraction des points clés

Utilisation de la bibliothèque MediaPipe pour extraire les points clés:

  • Points clés de posture: 33
  • Points clés des mains: 21 pour chaque main (gauche et droite)
  • Points clés du visage: 468 (réduits à 128 dans le modèle 203kp)
  • Total: 543 points clés (ou version simplifiée de 203 points clés)

Architecture du modèle

Représentation d'entrée

  • Extraction de séquences de points clés sur 16 images consécutives (basée sur la découverte que la co-articulation dure 13-20 images)
  • Formation d'un vecteur tridimensionnel 16 × K × 2, où K est le nombre de points clés par image

Architecture Transformer

  1. Tokenizer: Tokenisation des données d'entrée
  2. Codage positionnel: Ajout d'informations de position pour distinguer l'ordre dans la séquence
  3. Encodeur: 6 couches d'encodeur, chaque couche contenant:
    • Mécanisme d'auto-attention multi-têtes (8 têtes d'attention)
    • Réseau de neurones avant position
    • Normalisation de couche
  4. Générateur: Conversion de la représentation apprise en sortie de classification

Mécanisme d'attention

  • Attention au niveau des images: Modèle d'attention au niveau des images
  • Attention au niveau des trajectoires: Modèle d'attention au niveau des trajectoires
  • Utilisation du mécanisme d'attention par produit scalaire mis à l'échelle

Points d'innovation technique

  1. Entrée directe de points clés: Contrairement aux méthodes basées sur les réseaux de neurones graphiques, les points clés sont directement utilisés comme entrée du Transformer
  2. Modélisation temporelle: Utilisation du mécanisme d'auto-attention du Transformer pour capturer les dépendances à long terme
  3. Points clés multi-échelles: Exploration de différentes configurations du nombre de points clés pour équilibrer performance et efficacité
  4. Augmentation de données: Stratégies d'augmentation conçues pour les points clés (translation, mise à l'échelle, rotation, retournement)

Configuration expérimentale

Ensemble de données

Ensemble de données BOBSL:

  • Échelle: 1 467 heures de programmes BBC
  • Résolution: 444×444 pixels, 25fps
  • Vocabulaire: 8 162 mots de langue des signes
  • Signataires: 39 interprètes en langue des signes
  • Ensemble d'entraînement: 8 162 mots uniques, 3 555 141 images
  • Ensemble de validation: 3 348 mots, 53 768 images
  • Stratégie de division: Division par signataire, garantissant aucun chevauchement de signataires entre les ensembles d'entraînement, de validation et de test

Métriques d'évaluation

  • Précision Top-5

Détails d'implémentation

  • Optimiseur: Optimiseur Adam, taux d'apprentissage 1e-4
  • Taille de lot: 128
  • Stratégie d'arrêt anticipé: Arrêt lorsque la perte de validation ne s'améliore pas pendant 3 epochs consécutifs
  • Dimension du modèle: Plongement 512-dimensionnel
  • Nombre de paramètres: 23,9 millions de paramètres (vs 34,5 millions pour le modèle RGB)

Résultats expérimentaux

Résultats principaux

  • Précision: Précision Top-5 atteignant 60%
  • Efficacité des paramètres: Réduction de 30,7% du nombre de paramètres par rapport à la méthode RGB (23,9M vs 34,5M)
  • Efficacité computationnelle: Réduction significative des coûts de calcul, de l'utilisation mémoire et du temps d'entraînement

Comparaison du nombre de points clés

  • Modèle 543 points clés: Utilisation de 468 points clés du visage
  • Modèle 203 points clés: Utilisation de 128 points clés du visage
  • Découverte: L'augmentation du nombre de points clés du visage améliore les performances

Effets de l'augmentation de données

Test de plusieurs techniques d'augmentation:

  1. Augmentation par translation: Fournit l'amélioration de performance la plus importante
  2. Augmentation par mise à l'échelle: Mise à l'échelle dans la plage 90-110%
  3. Augmentation par rotation: Rotation de petits angles
  4. Retournement horizontal: Retournement en miroir

Chaque méthode d'augmentation améliore les performances du modèle individuellement, l'augmentation par translation étant la plus efficace.

Découvertes expérimentales

  1. Les points clés du visage sont essentiels pour la reconnaissance BSL
  2. La méthode basée sur les points clés réduit considérablement les coûts computationnels tout en maintenant une précision raisonnable
  3. Les techniques d'augmentation de données sont tout aussi efficaces pour les modèles basés sur les points clés

Travaux connexes

Recherche sur la reconnaissance BSL

  • Les travaux antérieurs utilisaient principalement des vidéos RGB pour la reconnaissance BSL
  • Accent mis sur la co-articulation et la reconnaissance des motifs labiaux
  • Cet article est le premier à utiliser une méthode purement basée sur les points clés

Recherche sur la représentation par points clés

  • Évolution de l'ingénierie manuelle des caractéristiques aux méthodes d'apprentissage profond (CNN)
  • Application des réseaux de neurones graphiques (GNN) à la reconnaissance d'actions et de gestes
  • Succès de l'architecture Transformer en vision par ordinateur

Comparaison technique

Cet article adopte une approche d'entrée directe des points clés dans le Transformer, se distinguant de l'approche traditionnelle de construction de réseaux de neurones graphiques.

Conclusion et discussion

Conclusions principales

  1. La méthode basée sur les points clés présente des avantages computationnels significatifs dans la reconnaissance BSL
  2. L'architecture Transformer peut traiter efficacement les séquences de points clés
  3. Les points clés du visage sont essentiels pour la performance de reconnaissance BSL
  4. L'augmentation de données appropriée peut améliorer davantage les performances du modèle

Limitations

  1. Précision: La précision de 60% laisse place à l'amélioration
  2. Comparaisons manquantes: En tant que première méthode basée sur les points clés, il manque des références de comparaison directe
  3. Limitations des données: Validation uniquement sur l'ensemble de données BOBSL
  4. Vérification en temps réel: Manque de tests de performance en temps réel réels

Directions futures

  1. Fusion multimodale: Combinaison de points clés et d'images RGB pour améliorer la précision
  2. Estimation de posture 3D: Exploration des techniques d'estimation de posture 3D au niveau des séquences
  3. Images squelettiques: Essai de représentation d'images squelettiques en noir et blanc basées sur les points clés
  4. Validation à plus grande échelle: Vérification de l'efficacité de la méthode sur plus d'ensembles de données de langue des signes

Évaluation approfondie

Points forts

  1. Forte innovativité: Première application d'une méthode purement basée sur les points clés à la reconnaissance BSL
  2. Haute valeur pratique: Réduction significative des coûts computationnels, adaptée aux environnements aux ressources limitées
  3. Méthodologie raisonnable: Ligne technique claire, détails d'implémentation complets
  4. Expériences complètes: Expériences comparatives incluant plusieurs configurations et stratégies d'augmentation

Insuffisances

  1. Performance limitée: La précision de 60% est relativement faible
  2. Manque de comparaisons: Impossible de comparer directement avec d'autres méthodes
  3. Analyse insuffisante: Manque d'analyse approfondie des cas d'échec
  4. Généralisation inconnue: Validation uniquement sur un seul ensemble de données

Impact

  1. Caractère pionnnier: Fournit une nouvelle voie technologique pour la reconnaissance de la langue des signes
  2. Praticité: La méthode efficace facilite le déploiement des applications pratiques
  3. Extensibilité: Fournit une bonne base pour les recherches ultérieures
  4. Valeur sociale: Contribue à améliorer l'accessibilité technologique pour la communauté sourde

Scénarios d'application

  1. Environnements aux ressources limitées: Appareils mobiles, scénarios d'informatique en périphérie
  2. Applications en temps réel: Systèmes interactifs nécessitant une réponse rapide
  3. Déploiement à grande échelle: Scénarios nécessitant le traitement de grandes quantités de données vidéo
  4. Prototypes de recherche: Composant de base pour des systèmes plus complexes

Références

L'article cite plusieurs travaux connexes importants, notamment:

  • Articles relatifs à l'ensemble de données BOBSL 3
  • Cadre d'extraction de points clés MediaPipe 13
  • Article original de l'architecture Transformer 18
  • Recherches connexes sur la reconnaissance de la langue des signes 1,2,6
  • Application des réseaux de neurones graphiques à la reconnaissance d'actions 21

Évaluation globale: Cet article est d'une importance pionnière, appliquant pour la première fois la méthode basée sur les points clés à la tâche de reconnaissance BSL. Bien qu'il y ait place à l'amélioration en termes de précision, ses avantages significatifs en efficacité computationnelle lui confèrent une valeur pratique importante. Ce travail fournit une nouvelle direction de recherche pour le domaine de la reconnaissance de la langue des signes, particulièrement significative dans les scénarios aux ressources limitées et les applications en temps réel.