2025-11-15T00:16:11.455248

New keypoint-based approach for recognising British Sign Language (BSL) from sequences

Deb, Prajwal, Zisserman
In this paper, we present a novel keypoint-based classification model designed to recognise British Sign Language (BSL) words within continuous signing sequences. Our model's performance is assessed using the BOBSL dataset, revealing that the keypoint-based approach surpasses its RGB-based counterpart in computational efficiency and memory usage. Furthermore, it offers expedited training times and demands fewer computational resources. To the best of our knowledge, this is the inaugural application of a keypoint-based model for BSL word classification, rendering direct comparisons with existing works unavailable.
academic

Neuer schlüsselpunktbasierter Ansatz zur Erkennung der Britischen Gebärdensprache (BSL) aus Sequenzen

Grundlegende Informationen

  • Papier-ID: 2412.09475
  • Titel: New keypoint-based approach for recognising British Sign Language (BSL) from sequences
  • Autoren: Oishi Deb, KR Prajwal, Andrew Zisserman (Visual Geometry Group, Universität Oxford)
  • Klassifizierung: cs.CV cs.AI
  • Veröffentlichungszeit/Konferenz: International Conference on Computer Vision (ICCV) - HANDS Workshop, 2023
  • Papierlink: https://arxiv.org/abs/2412.09475

Zusammenfassung

In diesem Papier wird ein neuartiges schlüsselpunktbasiertes Klassifizierungsmodell zur Erkennung von Wörtern der Britischen Gebärdensprache (BSL) in kontinuierlichen Gebärdensequenzen vorgestellt. Das Modell wird auf dem BOBSL-Datensatz evaluiert und zeigt, dass der schlüsselpunktbasierte Ansatz die RGB-basierten Entsprechungen in Bezug auf Recheneffizienz und Speichernutzung übertrifft, während gleichzeitig schnellere Trainingszeiten und geringere Rechenressourcen erforderlich sind. Nach Angaben der Autoren ist dies die erste Anwendung eines schlüsselpunktbasierten Modells auf die BSL-Wortklassifizierung, weshalb ein direkter Vergleich mit bestehenden Arbeiten nicht möglich ist.

Forschungshintergrund und Motivation

Problemdefinition

Die Erkennung von Gebärdensprache ist eine wichtige Aufgabe der Computervision, die darauf abzielt, Gebärdensprachenwörter oder -phrasen automatisch aus Videosequenzen zu erkennen. Traditionelle Methoden stützen sich hauptsächlich auf RGB-Videos, weisen aber Probleme wie hohe Rechenkomplexität und Empfindlichkeit gegenüber Umweltfaktoren auf.

Bedeutung

  1. Gesellschaftliche Bedeutung: Verbesserung der Barrierefreiheit für die Gehörlosengemeinschaft und Förderung inklusiver Kommunikation
  2. Technische Herausforderungen: Das Phänomen der Koartikulation in kontinuierlicher Gebärdensprache macht die Erkennungsaufgabe äußerst anspruchsvoll
  3. Echtzeitanforderungen: Praktische Anwendungen erfordern effiziente Modelle, die in Echtzeit verarbeitet werden können

Einschränkungen bestehender Methoden

  1. RGB-Methoden: Hohe Rechenkomplexität, großer Speicherverbrauch, lange Trainingszeiten
  2. Umweltempfindlichkeit: Anfälligkeit gegenüber Lichtverhältnissen, Kleidung und anderen externen Faktoren
  3. Schlechte Echtzeitfähigkeit: Schwierigkeiten bei der Erfüllung von Echtzeitanforderungen

Forschungsmotivation

Die Autoren schlagen die Verwendung von 2D-Schlüsselpunktdarstellungen vor, um die oben genannten Probleme zu lösen, basierend auf drei Hauptgründen:

  1. Kontrollierbarkeit: Flexible Auswahl von Schlüsselpunktuntermengen zur Kontrolle der Rechenkosten
  2. Kompaktheit: Beseitigung von Störfaktoren wie Beleuchtung und Kleidung mit kompakterer Darstellung
  3. Echtzeitfähigkeit: Schlüsselpunkte können in Echtzeit berechnet werden und unterstützen die Echtzeitausführung von Modellen

Kernbeiträge

  1. Erstmalige Anwendung: Erste Anwendung der schlüsselpunktbasierten Methode auf die BSL-Wortklassifizierungsaufgabe
  2. Effiziente Architektur: Vorschlag einer Transformer-basierten Architektur zur Verarbeitung von Schlüsselpunktsequenzen
  3. Recheneffizienz: Signifikante Reduzierung der Rechenkosten, Speichernutzung und Trainingszeit im Vergleich zu RGB-Methoden
  4. Praktischer Wert: Bereitstellung einer effizienteren und praktischeren Lösung für die Gebärdensprachenerkennung

Methodische Details

Aufgabendefinition

  • Eingabe: 2D-Schlüsselpunktdarstellung kontinuierlicher BSL-Gebärdenvideosequenzen
  • Ausgabe: Klassifizierungsergebnisse für 8.162 BSL-Wortklassen
  • Einschränkungen: Behandlung von Koartikulationsphänomenen, Unterstützung der Echtzeitverarbeitung

Schlüsselpunktextraktion

Verwendung der MediaPipe-Bibliothek zur Schlüsselpunktextraktion:

  • Haltungsschlüsselpunkte: 33
  • Handschlüsselpunkte: Je 21 für linke und rechte Hand
  • Gesichtsschlüsselpunkte: 468 (im 203kp-Modell auf 128 reduziert)
  • Gesamt: 543 Schlüsselpunkte (oder vereinfachte Version mit 203 Schlüsselpunkten)

Modellarchitektur

Eingabedarstellung

  • Extraktion von Schlüsselpunktsequenzen aus kontinuierlichen 16 Bildern (basierend auf Forschungsergebnissen, dass Koartikulation 13-20 Bilder andauert)
  • Bildung eines dreidimensionalen Vektors 16 × K × 2, wobei K die Anzahl der Schlüsselpunkte pro Bild ist

Transformer-Architektur

  1. Tokenizer: Tokenisierung der Eingabedaten
  2. Positionskodierung: Hinzufügen von Positionsinformationen zur Unterscheidung der Reihenfolge in der Sequenz
  3. Encoder: 6-schichtiger Encoder mit jeweils:
    • Multi-Head-Selbstaufmerksamkeitsmechanismus (8 Aufmerksamkeitsköpfe)
    • Positionsbezogenes Feedforward-Netzwerk
    • Schichtnormalisierung
  4. Generator: Umwandlung der gelernten Darstellung in Klassifizierungsausgabe

Aufmerksamkeitsmechanismus

  • Frame-wise Attention: Bildebenen-Aufmerksamkeitsmodell
  • Trajectory-wise Attention: Trajektorie-Aufmerksamkeitsmodell
  • Verwendung des skalierten Punkt-Produkt-Aufmerksamkeitsmechanismus

Technische Innovationen

  1. Direkte Schlüsselpunkteneingabe: Im Gegensatz zu graphenneuronalen Netzwerk-basierten Methoden direkte Eingabe von Schlüsselpunkten in den Transformer
  2. Zeitliche Modellierung: Nutzung des Selbstaufmerksamkeitsmechanismus des Transformers zur Erfassung von Fernabhängigkeiten
  3. Mehrskalige Schlüsselpunkte: Erkundung verschiedener Schlüsselpunktkonfigurationen zum Ausgleich von Leistung und Effizienz
  4. Datenerweiterung: Für Schlüsselpunkte konzipierte Erweiterungsstrategien (Translation, Skalierung, Rotation, Spiegelung)

Experimentelle Einrichtung

Datensatz

BOBSL-Datensatz:

  • Umfang: 1.467 Stunden BBC-Sendungen
  • Auflösung: 444×444 Pixel, 25fps
  • Wortschatz: 8.162 Gebärdensprachenwörter
  • Unterzeichner: 39 Gebärdensprachdolmetscher
  • Trainingssatz: 8.162 eindeutige Wörter, 3.555.141 Bilder
  • Validierungssatz: 3.348 Wörter, 53.768 Bilder
  • Aufteilungsstrategie: Nach Unterzeichner aufgeteilt, um Überschneidungen zwischen Trainings-, Validierungs- und Testsätzen zu vermeiden

Bewertungsmetriken

  • Top-5-Genauigkeit

Implementierungsdetails

  • Optimierer: Adam-Optimierer, Lernrate 1e-4
  • Batch-Größe: 128
  • Early-Stopping-Strategie: Stopp, wenn sich der Validierungsverlust über 3 aufeinanderfolgende Epochen nicht verbessert
  • Modellabmessungen: 512-dimensionale Einbettung
  • Parameterzahl: 23,9 Millionen Parameter (vs. 34,5 Millionen des RGB-Modells)

Experimentelle Ergebnisse

Hauptergebnisse

  • Genauigkeit: Top-5-Genauigkeit von 60%
  • Parametereffizienz: 30,7% weniger Parameter im Vergleich zur RGB-Methode (23,9M vs. 34,5M)
  • Recheneffizienz: Signifikante Reduzierung von Rechenkosten, Speichernutzung und Trainingszeit

Vergleich der Schlüsselpunktanzahl

  • 543-Schlüsselpunkte-Modell: Verwendung von 468 Gesichtsschlüsselpunkten
  • 203-Schlüsselpunkte-Modell: Verwendung von 128 Gesichtsschlüsselpunkten
  • Erkenntnis: Erhöhung der Anzahl der Gesichtsschlüsselpunkte verbessert die Leistung

Effekt der Datenerweiterung

Getestete Erweiterungstechniken:

  1. Translationserweiterung: Größte Leistungssteigerung
  2. Skalierungserweiterung: Skalierung im Bereich von 90-110%
  3. Rotationserweiterung: Kleine Winkelrotation
  4. Horizontale Spiegelung: Spiegelverkehrte Spiegelung

Jede Erweiterungsmethode verbessert die Modellleistung einzeln, wobei die Translationserweiterung die beste Wirkung zeigt.

Experimentelle Erkenntnisse

  1. Gesichtsschlüsselpunkte sind für die BSL-Erkennung entscheidend
  2. Die schlüsselpunktbasierte Methode reduziert die Rechenkosten erheblich, während eine angemessene Genauigkeit beibehalten wird
  3. Datenerweiterungstechniken sind auch für schlüsselpunktbasierte Modelle wirksam

Verwandte Arbeiten

BSL-Erkennungsforschung

  • Frühere Arbeiten verwendeten hauptsächlich RGB-Videos für die BSL-Erkennung
  • Fokus auf Koartikulation und Lippenmustererkennung
  • Dieses Papier ist die erste reine Schlüsselpunktmethode

Schlüsselpunktdarstellungsforschung

  • Entwicklung von handwerklich konstruierten Merkmalen zu Deep-Learning-Methoden (CNNs)
  • Anwendung von Graphenneuronalen Netzwerken (GNNs) in Aktionserkennung und Gestenerkennung
  • Erfolgreiche Anwendung der Transformer-Architektur in der Computervision

Technischer Vergleich

Dieses Papier verwendet die Methode der direkten Eingabe von Schlüsselpunkten in den Transformer, unterscheidet sich aber von der traditionellen Methode der Konstruktion von Graphenneuronalen Netzwerken.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Die schlüsselpunktbasierte Methode bietet signifikante Rechenvorteile bei der BSL-Erkennung
  2. Die Transformer-Architektur kann Schlüsselpunktsequenzen effektiv verarbeiten
  3. Gesichtsschlüsselpunkte sind entscheidend für die BSL-Erkennungsleistung
  4. Angemessene Datenerweiterung kann die Modellleistung weiter verbessern

Einschränkungen

  1. Genauigkeit: Die Genauigkeit von 60% hat noch Verbesserungspotenzial
  2. Fehlende Vergleiche: Als erste Schlüsselpunktmethode fehlen direkte Vergleichsmaßstäbe
  3. Datensatzbeschränkungen: Validierung nur auf dem BOBSL-Datensatz
  4. Echtzeitvalidierung: Fehlende Tests der tatsächlichen Echtzeitleistung

Zukünftige Richtungen

  1. Multimodale Fusion: Kombination von Schlüsselpunkten und RGB-Bildern zur Verbesserung der Genauigkeit
  2. 3D-Posenschätzung: Erkundung von Techniken zur Posenschätzung auf Sequenzebene
  3. Skelettbilder: Versuch von Schwarz-Weiß-Skelettbilddarstellungen basierend auf Schlüsselpunkten
  4. Umfangreichere Validierung: Validierung der Methode auf mehr Gebärdensprachendatensätzen

Tiefgreifende Bewertung

Stärken

  1. Starke Innovation: Erste Anwendung einer reinen Schlüsselpunktmethode auf die BSL-Erkennung
  2. Hoher praktischer Wert: Signifikante Reduzierung der Rechenkosten, geeignet für ressourcenbegrenzte Umgebungen
  3. Vernünftige Methodik: Klare technische Route und vollständige Implementierungsdetails
  4. Umfangreiche Experimente: Vergleichende Experimente mit mehreren Konfigurationen und Erweiterungsstrategien

Mängel

  1. Begrenzte Leistung: Die Genauigkeit von 60% ist relativ niedrig
  2. Fehlende Vergleiche: Keine direkten Vergleiche mit anderen Methoden möglich
  3. Unzureichende Analyse: Mangelnde tiefgreifende Analyse von Fehlerfällen
  4. Unbekannte Generalisierbarkeit: Validierung nur auf einem einzelnen Datensatz

Auswirkungen

  1. Bahnbrechend: Bietet einen neuen technischen Weg für die Gebärdensprachenerkennung
  2. Praktisch: Effiziente Methoden fördern die praktische Anwendungsbereitstellung
  3. Erweiterbar: Bietet eine gute Grundlage für nachfolgende Forschung
  4. Gesellschaftlicher Wert: Trägt zur Verbesserung der technologischen Barrierefreiheit für Gehörlose bei

Anwendungsszenarien

  1. Ressourcenbegrenzte Umgebungen: Mobilgeräte, Edge-Computing-Szenarien
  2. Echtzeitanwendungen: Interaktive Systeme, die schnelle Reaktionen erfordern
  3. Großflächige Bereitstellung: Szenarien, die große Mengen an Videodaten verarbeiten müssen
  4. Forschungsprototypen: Als Basiskomponente für komplexere Systeme

Literaturverzeichnis

Das Papier zitiert mehrere wichtige verwandte Arbeiten, darunter:

  • BOBSL-Datensatz-bezogene Papiere 3
  • MediaPipe-Schlüsselpunkt-Extraktionsframework 13
  • Originales Transformer-Architektur-Papier 18
  • Gebärdensprachenerkennung-bezogene Forschung 1,2,6
  • Anwendung von Graphenneuronalen Netzwerken in der Aktionserkennung 21

Gesamtbewertung: Dies ist ein bahnbrechendes Papier, das zum ersten Mal eine schlüsselpunktbasierte Methode auf die BSL-Erkennungsaufgabe anwendet. Obwohl noch Verbesserungspotenzial bei der Genauigkeit besteht, bietet der signifikante Vorteil in der Recheneffizienz einen wichtigen praktischen Wert. Diese Arbeit bietet eine neue Forschungsrichtung für das Gebiet der Gebärdensprachenerkennung, besonders bedeutsam in ressourcenbegrenzten und Echtzeitanwendungsszenarien.