In this paper, we present a novel keypoint-based classification model designed to recognise British Sign Language (BSL) words within continuous signing sequences. Our model's performance is assessed using the BOBSL dataset, revealing that the keypoint-based approach surpasses its RGB-based counterpart in computational efficiency and memory usage. Furthermore, it offers expedited training times and demands fewer computational resources. To the best of our knowledge, this is the inaugural application of a keypoint-based model for BSL word classification, rendering direct comparisons with existing works unavailable.
- Papier-ID: 2412.09475
- Titel: New keypoint-based approach for recognising British Sign Language (BSL) from sequences
- Autoren: Oishi Deb, KR Prajwal, Andrew Zisserman (Visual Geometry Group, Universität Oxford)
- Klassifizierung: cs.CV cs.AI
- Veröffentlichungszeit/Konferenz: International Conference on Computer Vision (ICCV) - HANDS Workshop, 2023
- Papierlink: https://arxiv.org/abs/2412.09475
In diesem Papier wird ein neuartiges schlüsselpunktbasiertes Klassifizierungsmodell zur Erkennung von Wörtern der Britischen Gebärdensprache (BSL) in kontinuierlichen Gebärdensequenzen vorgestellt. Das Modell wird auf dem BOBSL-Datensatz evaluiert und zeigt, dass der schlüsselpunktbasierte Ansatz die RGB-basierten Entsprechungen in Bezug auf Recheneffizienz und Speichernutzung übertrifft, während gleichzeitig schnellere Trainingszeiten und geringere Rechenressourcen erforderlich sind. Nach Angaben der Autoren ist dies die erste Anwendung eines schlüsselpunktbasierten Modells auf die BSL-Wortklassifizierung, weshalb ein direkter Vergleich mit bestehenden Arbeiten nicht möglich ist.
Die Erkennung von Gebärdensprache ist eine wichtige Aufgabe der Computervision, die darauf abzielt, Gebärdensprachenwörter oder -phrasen automatisch aus Videosequenzen zu erkennen. Traditionelle Methoden stützen sich hauptsächlich auf RGB-Videos, weisen aber Probleme wie hohe Rechenkomplexität und Empfindlichkeit gegenüber Umweltfaktoren auf.
- Gesellschaftliche Bedeutung: Verbesserung der Barrierefreiheit für die Gehörlosengemeinschaft und Förderung inklusiver Kommunikation
- Technische Herausforderungen: Das Phänomen der Koartikulation in kontinuierlicher Gebärdensprache macht die Erkennungsaufgabe äußerst anspruchsvoll
- Echtzeitanforderungen: Praktische Anwendungen erfordern effiziente Modelle, die in Echtzeit verarbeitet werden können
- RGB-Methoden: Hohe Rechenkomplexität, großer Speicherverbrauch, lange Trainingszeiten
- Umweltempfindlichkeit: Anfälligkeit gegenüber Lichtverhältnissen, Kleidung und anderen externen Faktoren
- Schlechte Echtzeitfähigkeit: Schwierigkeiten bei der Erfüllung von Echtzeitanforderungen
Die Autoren schlagen die Verwendung von 2D-Schlüsselpunktdarstellungen vor, um die oben genannten Probleme zu lösen, basierend auf drei Hauptgründen:
- Kontrollierbarkeit: Flexible Auswahl von Schlüsselpunktuntermengen zur Kontrolle der Rechenkosten
- Kompaktheit: Beseitigung von Störfaktoren wie Beleuchtung und Kleidung mit kompakterer Darstellung
- Echtzeitfähigkeit: Schlüsselpunkte können in Echtzeit berechnet werden und unterstützen die Echtzeitausführung von Modellen
- Erstmalige Anwendung: Erste Anwendung der schlüsselpunktbasierten Methode auf die BSL-Wortklassifizierungsaufgabe
- Effiziente Architektur: Vorschlag einer Transformer-basierten Architektur zur Verarbeitung von Schlüsselpunktsequenzen
- Recheneffizienz: Signifikante Reduzierung der Rechenkosten, Speichernutzung und Trainingszeit im Vergleich zu RGB-Methoden
- Praktischer Wert: Bereitstellung einer effizienteren und praktischeren Lösung für die Gebärdensprachenerkennung
- Eingabe: 2D-Schlüsselpunktdarstellung kontinuierlicher BSL-Gebärdenvideosequenzen
- Ausgabe: Klassifizierungsergebnisse für 8.162 BSL-Wortklassen
- Einschränkungen: Behandlung von Koartikulationsphänomenen, Unterstützung der Echtzeitverarbeitung
Verwendung der MediaPipe-Bibliothek zur Schlüsselpunktextraktion:
- Haltungsschlüsselpunkte: 33
- Handschlüsselpunkte: Je 21 für linke und rechte Hand
- Gesichtsschlüsselpunkte: 468 (im 203kp-Modell auf 128 reduziert)
- Gesamt: 543 Schlüsselpunkte (oder vereinfachte Version mit 203 Schlüsselpunkten)
- Extraktion von Schlüsselpunktsequenzen aus kontinuierlichen 16 Bildern (basierend auf Forschungsergebnissen, dass Koartikulation 13-20 Bilder andauert)
- Bildung eines dreidimensionalen Vektors 16 × K × 2, wobei K die Anzahl der Schlüsselpunkte pro Bild ist
- Tokenizer: Tokenisierung der Eingabedaten
- Positionskodierung: Hinzufügen von Positionsinformationen zur Unterscheidung der Reihenfolge in der Sequenz
- Encoder: 6-schichtiger Encoder mit jeweils:
- Multi-Head-Selbstaufmerksamkeitsmechanismus (8 Aufmerksamkeitsköpfe)
- Positionsbezogenes Feedforward-Netzwerk
- Schichtnormalisierung
- Generator: Umwandlung der gelernten Darstellung in Klassifizierungsausgabe
- Frame-wise Attention: Bildebenen-Aufmerksamkeitsmodell
- Trajectory-wise Attention: Trajektorie-Aufmerksamkeitsmodell
- Verwendung des skalierten Punkt-Produkt-Aufmerksamkeitsmechanismus
- Direkte Schlüsselpunkteneingabe: Im Gegensatz zu graphenneuronalen Netzwerk-basierten Methoden direkte Eingabe von Schlüsselpunkten in den Transformer
- Zeitliche Modellierung: Nutzung des Selbstaufmerksamkeitsmechanismus des Transformers zur Erfassung von Fernabhängigkeiten
- Mehrskalige Schlüsselpunkte: Erkundung verschiedener Schlüsselpunktkonfigurationen zum Ausgleich von Leistung und Effizienz
- Datenerweiterung: Für Schlüsselpunkte konzipierte Erweiterungsstrategien (Translation, Skalierung, Rotation, Spiegelung)
BOBSL-Datensatz:
- Umfang: 1.467 Stunden BBC-Sendungen
- Auflösung: 444×444 Pixel, 25fps
- Wortschatz: 8.162 Gebärdensprachenwörter
- Unterzeichner: 39 Gebärdensprachdolmetscher
- Trainingssatz: 8.162 eindeutige Wörter, 3.555.141 Bilder
- Validierungssatz: 3.348 Wörter, 53.768 Bilder
- Aufteilungsstrategie: Nach Unterzeichner aufgeteilt, um Überschneidungen zwischen Trainings-, Validierungs- und Testsätzen zu vermeiden
- Optimierer: Adam-Optimierer, Lernrate 1e-4
- Batch-Größe: 128
- Early-Stopping-Strategie: Stopp, wenn sich der Validierungsverlust über 3 aufeinanderfolgende Epochen nicht verbessert
- Modellabmessungen: 512-dimensionale Einbettung
- Parameterzahl: 23,9 Millionen Parameter (vs. 34,5 Millionen des RGB-Modells)
- Genauigkeit: Top-5-Genauigkeit von 60%
- Parametereffizienz: 30,7% weniger Parameter im Vergleich zur RGB-Methode (23,9M vs. 34,5M)
- Recheneffizienz: Signifikante Reduzierung von Rechenkosten, Speichernutzung und Trainingszeit
- 543-Schlüsselpunkte-Modell: Verwendung von 468 Gesichtsschlüsselpunkten
- 203-Schlüsselpunkte-Modell: Verwendung von 128 Gesichtsschlüsselpunkten
- Erkenntnis: Erhöhung der Anzahl der Gesichtsschlüsselpunkte verbessert die Leistung
Getestete Erweiterungstechniken:
- Translationserweiterung: Größte Leistungssteigerung
- Skalierungserweiterung: Skalierung im Bereich von 90-110%
- Rotationserweiterung: Kleine Winkelrotation
- Horizontale Spiegelung: Spiegelverkehrte Spiegelung
Jede Erweiterungsmethode verbessert die Modellleistung einzeln, wobei die Translationserweiterung die beste Wirkung zeigt.
- Gesichtsschlüsselpunkte sind für die BSL-Erkennung entscheidend
- Die schlüsselpunktbasierte Methode reduziert die Rechenkosten erheblich, während eine angemessene Genauigkeit beibehalten wird
- Datenerweiterungstechniken sind auch für schlüsselpunktbasierte Modelle wirksam
- Frühere Arbeiten verwendeten hauptsächlich RGB-Videos für die BSL-Erkennung
- Fokus auf Koartikulation und Lippenmustererkennung
- Dieses Papier ist die erste reine Schlüsselpunktmethode
- Entwicklung von handwerklich konstruierten Merkmalen zu Deep-Learning-Methoden (CNNs)
- Anwendung von Graphenneuronalen Netzwerken (GNNs) in Aktionserkennung und Gestenerkennung
- Erfolgreiche Anwendung der Transformer-Architektur in der Computervision
Dieses Papier verwendet die Methode der direkten Eingabe von Schlüsselpunkten in den Transformer, unterscheidet sich aber von der traditionellen Methode der Konstruktion von Graphenneuronalen Netzwerken.
- Die schlüsselpunktbasierte Methode bietet signifikante Rechenvorteile bei der BSL-Erkennung
- Die Transformer-Architektur kann Schlüsselpunktsequenzen effektiv verarbeiten
- Gesichtsschlüsselpunkte sind entscheidend für die BSL-Erkennungsleistung
- Angemessene Datenerweiterung kann die Modellleistung weiter verbessern
- Genauigkeit: Die Genauigkeit von 60% hat noch Verbesserungspotenzial
- Fehlende Vergleiche: Als erste Schlüsselpunktmethode fehlen direkte Vergleichsmaßstäbe
- Datensatzbeschränkungen: Validierung nur auf dem BOBSL-Datensatz
- Echtzeitvalidierung: Fehlende Tests der tatsächlichen Echtzeitleistung
- Multimodale Fusion: Kombination von Schlüsselpunkten und RGB-Bildern zur Verbesserung der Genauigkeit
- 3D-Posenschätzung: Erkundung von Techniken zur Posenschätzung auf Sequenzebene
- Skelettbilder: Versuch von Schwarz-Weiß-Skelettbilddarstellungen basierend auf Schlüsselpunkten
- Umfangreichere Validierung: Validierung der Methode auf mehr Gebärdensprachendatensätzen
- Starke Innovation: Erste Anwendung einer reinen Schlüsselpunktmethode auf die BSL-Erkennung
- Hoher praktischer Wert: Signifikante Reduzierung der Rechenkosten, geeignet für ressourcenbegrenzte Umgebungen
- Vernünftige Methodik: Klare technische Route und vollständige Implementierungsdetails
- Umfangreiche Experimente: Vergleichende Experimente mit mehreren Konfigurationen und Erweiterungsstrategien
- Begrenzte Leistung: Die Genauigkeit von 60% ist relativ niedrig
- Fehlende Vergleiche: Keine direkten Vergleiche mit anderen Methoden möglich
- Unzureichende Analyse: Mangelnde tiefgreifende Analyse von Fehlerfällen
- Unbekannte Generalisierbarkeit: Validierung nur auf einem einzelnen Datensatz
- Bahnbrechend: Bietet einen neuen technischen Weg für die Gebärdensprachenerkennung
- Praktisch: Effiziente Methoden fördern die praktische Anwendungsbereitstellung
- Erweiterbar: Bietet eine gute Grundlage für nachfolgende Forschung
- Gesellschaftlicher Wert: Trägt zur Verbesserung der technologischen Barrierefreiheit für Gehörlose bei
- Ressourcenbegrenzte Umgebungen: Mobilgeräte, Edge-Computing-Szenarien
- Echtzeitanwendungen: Interaktive Systeme, die schnelle Reaktionen erfordern
- Großflächige Bereitstellung: Szenarien, die große Mengen an Videodaten verarbeiten müssen
- Forschungsprototypen: Als Basiskomponente für komplexere Systeme
Das Papier zitiert mehrere wichtige verwandte Arbeiten, darunter:
- BOBSL-Datensatz-bezogene Papiere 3
- MediaPipe-Schlüsselpunkt-Extraktionsframework 13
- Originales Transformer-Architektur-Papier 18
- Gebärdensprachenerkennung-bezogene Forschung 1,2,6
- Anwendung von Graphenneuronalen Netzwerken in der Aktionserkennung 21
Gesamtbewertung: Dies ist ein bahnbrechendes Papier, das zum ersten Mal eine schlüsselpunktbasierte Methode auf die BSL-Erkennungsaufgabe anwendet. Obwohl noch Verbesserungspotenzial bei der Genauigkeit besteht, bietet der signifikante Vorteil in der Recheneffizienz einen wichtigen praktischen Wert. Diese Arbeit bietet eine neue Forschungsrichtung für das Gebiet der Gebärdensprachenerkennung, besonders bedeutsam in ressourcenbegrenzten und Echtzeitanwendungsszenarien.