2025-11-15T00:16:11.455248

New keypoint-based approach for recognising British Sign Language (BSL) from sequences

Deb, Prajwal, Zisserman

In this paper, we present a novel keypoint-based classification model designed to recognise British Sign Language (BSL) words within continuous signing sequences. Our model's performance is assessed using the BOBSL dataset, revealing that the keypoint-based approach surpasses its RGB-based counterpart in computational efficiency and memory usage. Furthermore, it offers expedited training times and demands fewer computational resources. To the best of our knowledge, this is the inaugural application of a keypoint-based model for BSL word classification, rendering direct comparisons with existing works unavailable.

academic

Neuer schlüsselpunktbasierter Ansatz zur Erkennung der Britischen Gebärdensprache (BSL) aus Sequenzen

Grundlegende Informationen

Papier-ID: 2412.09475
Titel: New keypoint-based approach for recognising British Sign Language (BSL) from sequences
Autoren: Oishi Deb, KR Prajwal, Andrew Zisserman (Visual Geometry Group, Universität Oxford)
Klassifizierung: cs.CV cs.AI
Veröffentlichungszeit/Konferenz: International Conference on Computer Vision (ICCV) - HANDS Workshop, 2023
Papierlink: https://arxiv.org/abs/2412.09475

Zusammenfassung

In diesem Papier wird ein neuartiges schlüsselpunktbasiertes Klassifizierungsmodell zur Erkennung von Wörtern der Britischen Gebärdensprache (BSL) in kontinuierlichen Gebärdensequenzen vorgestellt. Das Modell wird auf dem BOBSL-Datensatz evaluiert und zeigt, dass der schlüsselpunktbasierte Ansatz die RGB-basierten Entsprechungen in Bezug auf Recheneffizienz und Speichernutzung übertrifft, während gleichzeitig schnellere Trainingszeiten und geringere Rechenressourcen erforderlich sind. Nach Angaben der Autoren ist dies die erste Anwendung eines schlüsselpunktbasierten Modells auf die BSL-Wortklassifizierung, weshalb ein direkter Vergleich mit bestehenden Arbeiten nicht möglich ist.

Forschungshintergrund und Motivation

Problemdefinition

Die Erkennung von Gebärdensprache ist eine wichtige Aufgabe der Computervision, die darauf abzielt, Gebärdensprachenwörter oder -phrasen automatisch aus Videosequenzen zu erkennen. Traditionelle Methoden stützen sich hauptsächlich auf RGB-Videos, weisen aber Probleme wie hohe Rechenkomplexität und Empfindlichkeit gegenüber Umweltfaktoren auf.

Bedeutung

Gesellschaftliche Bedeutung: Verbesserung der Barrierefreiheit für die Gehörlosengemeinschaft und Förderung inklusiver Kommunikation
Technische Herausforderungen: Das Phänomen der Koartikulation in kontinuierlicher Gebärdensprache macht die Erkennungsaufgabe äußerst anspruchsvoll
Echtzeitanforderungen: Praktische Anwendungen erfordern effiziente Modelle, die in Echtzeit verarbeitet werden können

Einschränkungen bestehender Methoden

RGB-Methoden: Hohe Rechenkomplexität, großer Speicherverbrauch, lange Trainingszeiten
Umweltempfindlichkeit: Anfälligkeit gegenüber Lichtverhältnissen, Kleidung und anderen externen Faktoren
Schlechte Echtzeitfähigkeit: Schwierigkeiten bei der Erfüllung von Echtzeitanforderungen

Forschungsmotivation

Die Autoren schlagen die Verwendung von 2D-Schlüsselpunktdarstellungen vor, um die oben genannten Probleme zu lösen, basierend auf drei Hauptgründen:

Kontrollierbarkeit: Flexible Auswahl von Schlüsselpunktuntermengen zur Kontrolle der Rechenkosten
Kompaktheit: Beseitigung von Störfaktoren wie Beleuchtung und Kleidung mit kompakterer Darstellung
Echtzeitfähigkeit: Schlüsselpunkte können in Echtzeit berechnet werden und unterstützen die Echtzeitausführung von Modellen

Kernbeiträge

Erstmalige Anwendung: Erste Anwendung der schlüsselpunktbasierten Methode auf die BSL-Wortklassifizierungsaufgabe
Effiziente Architektur: Vorschlag einer Transformer-basierten Architektur zur Verarbeitung von Schlüsselpunktsequenzen
Recheneffizienz: Signifikante Reduzierung der Rechenkosten, Speichernutzung und Trainingszeit im Vergleich zu RGB-Methoden
Praktischer Wert: Bereitstellung einer effizienteren und praktischeren Lösung für die Gebärdensprachenerkennung

Methodische Details

Aufgabendefinition

Eingabe: 2D-Schlüsselpunktdarstellung kontinuierlicher BSL-Gebärdenvideosequenzen
Ausgabe: Klassifizierungsergebnisse für 8.162 BSL-Wortklassen
Einschränkungen: Behandlung von Koartikulationsphänomenen, Unterstützung der Echtzeitverarbeitung

Schlüsselpunktextraktion

Verwendung der MediaPipe-Bibliothek zur Schlüsselpunktextraktion:

Haltungsschlüsselpunkte: 33
Handschlüsselpunkte: Je 21 für linke und rechte Hand
Gesichtsschlüsselpunkte: 468 (im 203kp-Modell auf 128 reduziert)
Gesamt: 543 Schlüsselpunkte (oder vereinfachte Version mit 203 Schlüsselpunkten)

Modellarchitektur

Eingabedarstellung

Extraktion von Schlüsselpunktsequenzen aus kontinuierlichen 16 Bildern (basierend auf Forschungsergebnissen, dass Koartikulation 13-20 Bilder andauert)
Bildung eines dreidimensionalen Vektors 16 × K × 2, wobei K die Anzahl der Schlüsselpunkte pro Bild ist

Transformer-Architektur

Tokenizer: Tokenisierung der Eingabedaten
Positionskodierung: Hinzufügen von Positionsinformationen zur Unterscheidung der Reihenfolge in der Sequenz
Encoder: 6-schichtiger Encoder mit jeweils:
- Multi-Head-Selbstaufmerksamkeitsmechanismus (8 Aufmerksamkeitsköpfe)
- Positionsbezogenes Feedforward-Netzwerk
- Schichtnormalisierung
Generator: Umwandlung der gelernten Darstellung in Klassifizierungsausgabe

Aufmerksamkeitsmechanismus

Frame-wise Attention: Bildebenen-Aufmerksamkeitsmodell
Trajectory-wise Attention: Trajektorie-Aufmerksamkeitsmodell
Verwendung des skalierten Punkt-Produkt-Aufmerksamkeitsmechanismus

Technische Innovationen

Direkte Schlüsselpunkteneingabe: Im Gegensatz zu graphenneuronalen Netzwerk-basierten Methoden direkte Eingabe von Schlüsselpunkten in den Transformer
Zeitliche Modellierung: Nutzung des Selbstaufmerksamkeitsmechanismus des Transformers zur Erfassung von Fernabhängigkeiten
Mehrskalige Schlüsselpunkte: Erkundung verschiedener Schlüsselpunktkonfigurationen zum Ausgleich von Leistung und Effizienz
Datenerweiterung: Für Schlüsselpunkte konzipierte Erweiterungsstrategien (Translation, Skalierung, Rotation, Spiegelung)

Experimentelle Einrichtung

Datensatz

BOBSL-Datensatz:

Umfang: 1.467 Stunden BBC-Sendungen
Auflösung: 444×444 Pixel, 25fps
Wortschatz: 8.162 Gebärdensprachenwörter
Unterzeichner: 39 Gebärdensprachdolmetscher
Trainingssatz: 8.162 eindeutige Wörter, 3.555.141 Bilder
Validierungssatz: 3.348 Wörter, 53.768 Bilder
Aufteilungsstrategie: Nach Unterzeichner aufgeteilt, um Überschneidungen zwischen Trainings-, Validierungs- und Testsätzen zu vermeiden

Bewertungsmetriken

Top-5-Genauigkeit

Implementierungsdetails

Optimierer: Adam-Optimierer, Lernrate 1e-4
Batch-Größe: 128
Early-Stopping-Strategie: Stopp, wenn sich der Validierungsverlust über 3 aufeinanderfolgende Epochen nicht verbessert
Modellabmessungen: 512-dimensionale Einbettung
Parameterzahl: 23,9 Millionen Parameter (vs. 34,5 Millionen des RGB-Modells)

Experimentelle Ergebnisse

Hauptergebnisse

Genauigkeit: Top-5-Genauigkeit von 60%
Parametereffizienz: 30,7% weniger Parameter im Vergleich zur RGB-Methode (23,9M vs. 34,5M)
Recheneffizienz: Signifikante Reduzierung von Rechenkosten, Speichernutzung und Trainingszeit

Vergleich der Schlüsselpunktanzahl

543-Schlüsselpunkte-Modell: Verwendung von 468 Gesichtsschlüsselpunkten
203-Schlüsselpunkte-Modell: Verwendung von 128 Gesichtsschlüsselpunkten
Erkenntnis: Erhöhung der Anzahl der Gesichtsschlüsselpunkte verbessert die Leistung

Effekt der Datenerweiterung

Getestete Erweiterungstechniken:

Translationserweiterung: Größte Leistungssteigerung
Skalierungserweiterung: Skalierung im Bereich von 90-110%
Rotationserweiterung: Kleine Winkelrotation
Horizontale Spiegelung: Spiegelverkehrte Spiegelung

Jede Erweiterungsmethode verbessert die Modellleistung einzeln, wobei die Translationserweiterung die beste Wirkung zeigt.

Experimentelle Erkenntnisse

Gesichtsschlüsselpunkte sind für die BSL-Erkennung entscheidend
Die schlüsselpunktbasierte Methode reduziert die Rechenkosten erheblich, während eine angemessene Genauigkeit beibehalten wird
Datenerweiterungstechniken sind auch für schlüsselpunktbasierte Modelle wirksam

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Die schlüsselpunktbasierte Methode bietet signifikante Rechenvorteile bei der BSL-Erkennung
Die Transformer-Architektur kann Schlüsselpunktsequenzen effektiv verarbeiten
Gesichtsschlüsselpunkte sind entscheidend für die BSL-Erkennungsleistung
Angemessene Datenerweiterung kann die Modellleistung weiter verbessern

Einschränkungen

Genauigkeit: Die Genauigkeit von 60% hat noch Verbesserungspotenzial
Fehlende Vergleiche: Als erste Schlüsselpunktmethode fehlen direkte Vergleichsmaßstäbe
Datensatzbeschränkungen: Validierung nur auf dem BOBSL-Datensatz
Echtzeitvalidierung: Fehlende Tests der tatsächlichen Echtzeitleistung

Zukünftige Richtungen

Multimodale Fusion: Kombination von Schlüsselpunkten und RGB-Bildern zur Verbesserung der Genauigkeit
3D-Posenschätzung: Erkundung von Techniken zur Posenschätzung auf Sequenzebene
Skelettbilder: Versuch von Schwarz-Weiß-Skelettbilddarstellungen basierend auf Schlüsselpunkten
Umfangreichere Validierung: Validierung der Methode auf mehr Gebärdensprachendatensätzen

Tiefgreifende Bewertung

Stärken

Starke Innovation: Erste Anwendung einer reinen Schlüsselpunktmethode auf die BSL-Erkennung
Hoher praktischer Wert: Signifikante Reduzierung der Rechenkosten, geeignet für ressourcenbegrenzte Umgebungen
Vernünftige Methodik: Klare technische Route und vollständige Implementierungsdetails
Umfangreiche Experimente: Vergleichende Experimente mit mehreren Konfigurationen und Erweiterungsstrategien

Mängel

Begrenzte Leistung: Die Genauigkeit von 60% ist relativ niedrig
Fehlende Vergleiche: Keine direkten Vergleiche mit anderen Methoden möglich
Unzureichende Analyse: Mangelnde tiefgreifende Analyse von Fehlerfällen
Unbekannte Generalisierbarkeit: Validierung nur auf einem einzelnen Datensatz

Auswirkungen

Bahnbrechend: Bietet einen neuen technischen Weg für die Gebärdensprachenerkennung
Praktisch: Effiziente Methoden fördern die praktische Anwendungsbereitstellung
Erweiterbar: Bietet eine gute Grundlage für nachfolgende Forschung
Gesellschaftlicher Wert: Trägt zur Verbesserung der technologischen Barrierefreiheit für Gehörlose bei

Anwendungsszenarien

Ressourcenbegrenzte Umgebungen: Mobilgeräte, Edge-Computing-Szenarien
Echtzeitanwendungen: Interaktive Systeme, die schnelle Reaktionen erfordern
Großflächige Bereitstellung: Szenarien, die große Mengen an Videodaten verarbeiten müssen
Forschungsprototypen: Als Basiskomponente für komplexere Systeme

Literaturverzeichnis

Das Papier zitiert mehrere wichtige verwandte Arbeiten, darunter:

BOBSL-Datensatz-bezogene Papiere 3
MediaPipe-Schlüsselpunkt-Extraktionsframework 13
Originales Transformer-Architektur-Papier 18
Gebärdensprachenerkennung-bezogene Forschung 1,2,6
Anwendung von Graphenneuronalen Netzwerken in der Aktionserkennung 21

Gesamtbewertung: Dies ist ein bahnbrechendes Papier, das zum ersten Mal eine schlüsselpunktbasierte Methode auf die BSL-Erkennungsaufgabe anwendet. Obwohl noch Verbesserungspotenzial bei der Genauigkeit besteht, bietet der signifikante Vorteil in der Recheneffizienz einen wichtigen praktischen Wert. Diese Arbeit bietet eine neue Forschungsrichtung für das Gebiet der Gebärdensprachenerkennung, besonders bedeutsam in ressourcenbegrenzten und Echtzeitanwendungsszenarien.