2025-11-15T00:16:11.455248

New keypoint-based approach for recognising British Sign Language (BSL) from sequences

Deb, Prajwal, Zisserman

In this paper, we present a novel keypoint-based classification model designed to recognise British Sign Language (BSL) words within continuous signing sequences. Our model's performance is assessed using the BOBSL dataset, revealing that the keypoint-based approach surpasses its RGB-based counterpart in computational efficiency and memory usage. Furthermore, it offers expedited training times and demands fewer computational resources. To the best of our knowledge, this is the inaugural application of a keypoint-based model for BSL word classification, rendering direct comparisons with existing works unavailable.

academic

Nuovo approccio basato su punti chiave per il riconoscimento della Lingua dei Segni Britannica (BSL) da sequenze

Informazioni Fondamentali

ID Articolo: 2412.09475
Titolo: New keypoint-based approach for recognising British Sign Language (BSL) from sequences
Autori: Oishi Deb, KR Prajwal, Andrew Zisserman (Visual Geometry Group, University of Oxford)
Classificazione: cs.CV cs.AI
Data di Pubblicazione/Conferenza: International Conference on Computer Vision (ICCV) - HANDS Workshop, 2023
Link Articolo: https://arxiv.org/abs/2412.09475

Riassunto

Questo articolo propone un innovativo modello di classificazione basato su punti chiave per il riconoscimento di parole della Lingua dei Segni Britannica (BSL) da sequenze di linguaggio dei segni continuo. Il modello è stato valutato sul dataset BOBSL, dimostrando che l'approccio basato su punti chiave supera i metodi basati su RGB in termini di efficienza computazionale e utilizzo della memoria, fornendo tempi di addestramento più rapidi e richiedendo meno risorse di calcolo. A conoscenza degli autori, questa è la prima applicazione di modelli basati su punti chiave alla classificazione di parole BSL, pertanto non è possibile un confronto diretto con lavori esistenti.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il riconoscimento della lingua dei segni è un importante compito di visione artificiale che mira a identificare automaticamente parole o frasi della lingua dei segni da sequenze video. I metodi tradizionali si basano principalmente su video RGB, ma presentano problemi di elevata complessità computazionale e sensibilità ai fattori ambientali.

Importanza

Significato Sociale: Migliorare l'accessibilità per la comunità sorda, promuovere la comunicazione inclusiva
Sfide Tecniche: Il fenomeno della coarticolazione nella lingua dei segni continua rende l'attività di riconoscimento estremamente impegnativa
Requisiti in Tempo Reale: Le applicazioni pratiche richiedono modelli efficienti in grado di elaborare in tempo reale

Limitazioni dei Metodi Esistenti

Metodi RGB: Elevata complessità computazionale, grande occupazione di memoria, tempi di addestramento lunghi
Sensibilità Ambientale: Facilmente influenzati da fattori esterni come illuminazione e abbigliamento
Scarsa Reattività: Difficile soddisfare i requisiti delle applicazioni in tempo reale

Motivazione della Ricerca

Gli autori propongono l'utilizzo di rappresentazioni basate su punti chiave 2D per affrontare i problemi sopra menzionati, basandosi su tre ragioni principali:

Controllabilità: Capacità di selezionare flessibilmente sottoinsiemi di punti chiave, controllando i costi computazionali
Compattezza: Eliminazione di fattori di disturbo come illuminazione e abbigliamento, fornendo una rappresentazione più compatta
Reattività in Tempo Reale: I punti chiave possono essere calcolati in tempo reale, supportando l'esecuzione di modelli in tempo reale

Contributi Principali

Applicazione Innovativa: Prima applicazione di metodi basati su punti chiave al compito di classificazione di parole BSL
Architettura Efficiente: Propone un'architettura di elaborazione di sequenze di punti chiave basata su Transformer
Efficienza Computazionale: Riduzione significativa dei costi computazionali, dell'utilizzo della memoria e dei tempi di addestramento rispetto ai metodi RGB
Valore Pratico: Fornisce una soluzione più efficiente e pratica per il riconoscimento della lingua dei segni

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Rappresentazione 2D di punti chiave di sequenze video BSL continuo
Output: Risultati di classificazione per 8.162 categorie di parole BSL
Vincoli: Gestione del fenomeno di coarticolazione, supporto dell'elaborazione in tempo reale

Estrazione dei Punti Chiave

Utilizzo della libreria MediaPipe per l'estrazione dei punti chiave:

Punti Chiave di Posa: 33
Punti Chiave delle Mani: 21 per mano sinistra e destra
Punti Chiave del Viso: 468 (ridotti a 128 nel modello 203kp)
Totale: 543 punti chiave (o versione semplificata di 203 punti chiave)

Architettura del Modello

Rappresentazione dell'Input

Estrazione di sequenze di punti chiave da 16 frame consecutivi (basato su ricerche che mostrano che la coarticolazione dura 13-20 frame)
Formazione di un vettore tridimensionale 16 × K × 2, dove K è il numero di punti chiave per frame

Architettura Transformer

Tokenizer: Tokenizzazione dei dati di input
Codifica Posizionale: Aggiunta di informazioni posizionali per distinguere l'ordine nella sequenza
Encoder: 6 strati di encoder, ciascuno contenente:
- Meccanismo di autoattenzione multi-testa (8 teste di attenzione)
- Rete neurale feed-forward posizionale
- Normalizzazione di strato
Generatore: Conversione della rappresentazione appresa in output di classificazione

Meccanismo di Attenzione

Attenzione Frame-wise: Modello di attenzione a livello di frame
Attenzione Trajectory-wise: Modello di attenzione a livello di traiettoria
Utilizzo del meccanismo di attenzione a prodotto scalare ridimensionato

Punti di Innovazione Tecnica

Input Diretto di Punti Chiave: Diversamente dai metodi basati su reti neurali grafiche, inserimento diretto dei punti chiave come input di Transformer
Modellazione Temporale: Utilizzo del meccanismo di autoattenzione di Transformer per catturare dipendenze a lungo raggio
Punti Chiave Multi-scala: Esplorazione di diverse configurazioni di numero di punti chiave per bilanciare prestazioni ed efficienza
Aumento dei Dati: Strategie di aumento progettate per punti chiave (traslazione, ridimensionamento, rotazione, capovolgimento)

Configurazione Sperimentale

Dataset

Dataset BOBSL:

Scala: 1.467 ore di programmi BBC
Risoluzione: 444×444 pixel, 25fps
Vocabolario: 8.162 parole della lingua dei segni
Interpreti: 39 interpreti della lingua dei segni
Set di Addestramento: 8.162 parole uniche, 3.555.141 frame
Set di Validazione: 3.348 parole, 53.768 frame
Strategia di Divisione: Divisione per interprete, garantendo nessuna sovrapposizione di interpreti tra set di addestramento, validazione e test

Metriche di Valutazione

Accuratezza Top-5

Dettagli di Implementazione

Ottimizzatore: Ottimizzatore Adam, tasso di apprendimento 1e-4
Dimensione del Batch: 128
Strategia di Early Stopping: Arresto quando la perdita di validazione non migliora per 3 epoch consecutivi
Dimensione del Modello: Embedding di 512 dimensioni
Numero di Parametri: 23,9 milioni di parametri (vs 34,5 milioni del modello RGB)

Risultati Sperimentali

Risultati Principali

Accuratezza: Accuratezza Top-5 raggiunta del 60%
Efficienza dei Parametri: Riduzione del 30,7% dei parametri rispetto al metodo RGB (23,9M vs 34,5M)
Efficienza Computazionale: Riduzione significativa dei costi computazionali, dell'utilizzo della memoria e dei tempi di addestramento

Confronto del Numero di Punti Chiave

Modello con 543 Punti Chiave: Utilizzo di 468 punti chiave del viso
Modello con 203 Punti Chiave: Utilizzo di 128 punti chiave del viso
Scoperta: L'aumento del numero di punti chiave del viso migliora le prestazioni

Effetti dell'Aumento dei Dati

Test di molteplici tecniche di aumento:

Aumento di Traslazione: Fornisce il massimo miglioramento delle prestazioni
Aumento di Ridimensionamento: Ridimensionamento nell'intervallo 90-110%
Aumento di Rotazione: Rotazione di piccoli angoli
Capovolgimento Orizzontale: Capovolgimento speculare

Ogni metodo di aumento migliora singolarmente le prestazioni del modello, con l'aumento di traslazione che produce i migliori risultati.

Scoperte Sperimentali

I punti chiave del viso sono cruciali per il riconoscimento BSL
Il metodo basato su punti chiave riduce significativamente i costi computazionali mantenendo un'accuratezza ragionevole
Le tecniche di aumento dei dati sono ugualmente efficaci per i modelli basati su punti chiave

Lavori Correlati

Ricerca sul Riconoscimento BSL

I lavori precedenti si basavano principalmente su video RGB per il riconoscimento BSL
Focalizzati su coarticolazione e riconoscimento dei modelli labiali
Questo articolo è il primo metodo puramente basato su punti chiave

Ricerca sulla Rappresentazione di Punti Chiave

Evoluzione dall'ingegneria manuale delle caratteristiche ai metodi di apprendimento profondo (CNN)
Applicazione di reti neurali grafiche (GNN) nel riconoscimento di azioni e gesti
Applicazioni di successo dell'architettura Transformer nella visione artificiale

Confronto Tecnico

Questo articolo adotta il metodo di inserimento diretto dei punti chiave in Transformer, differenziandosi dall'approccio tradizionale di costruzione di reti neurali grafiche.

Conclusioni e Discussione

Conclusioni Principali

Il metodo basato su punti chiave presenta vantaggi computazionali significativi nel riconoscimento BSL
L'architettura Transformer può elaborare efficacemente sequenze di punti chiave
I punti chiave del viso sono cruciali per le prestazioni del riconoscimento BSL
L'aumento appropriato dei dati può migliorare ulteriormente le prestazioni del modello

Limitazioni

Accuratezza: L'accuratezza del 60% ha ancora margini di miglioramento
Confronti Mancanti: Come primo metodo basato su punti chiave, mancano benchmark di confronto diretto
Limitazioni del Dataset: Validazione solo sul dataset BOBSL
Verifica della Reattività in Tempo Reale: Mancanza di test effettivi delle prestazioni in tempo reale

Direzioni Future

Fusione Multimodale: Combinazione di punti chiave e immagini RGB per aumentare l'accuratezza
Stima della Posa 3D: Esplorazione di tecniche di stima della posa 3D a livello di sequenza
Immagini di Scheletro: Prova di rappresentazioni di immagini di scheletro in bianco e nero basate su punti chiave
Validazione su Scala Maggiore: Validazione del metodo su più dataset di lingua dei segni

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Prima applicazione di metodo puramente basato su punti chiave al riconoscimento BSL
Alto Valore Pratico: Riduzione significativa dei costi computazionali, adatto a ambienti con risorse limitate
Metodologia Ragionevole: Percorso tecnico chiaro, dettagli di implementazione completi
Esperimenti Sufficienti: Include esperimenti di confronto con molteplici configurazioni e strategie di aumento

Carenze

Prestazioni Limitate: L'accuratezza del 60% è relativamente bassa
Mancanza di Confronti: Impossibilità di confronto diretto con altri metodi
Analisi Insufficiente: Mancanza di analisi approfondita dei casi di fallimento
Generalizzabilità Sconosciuta: Validazione solo su un singolo dataset

Impatto

Carattere Pioneristico: Fornisce un nuovo percorso tecnico per il riconoscimento della lingua dei segni
Praticità: Il metodo efficiente facilita la distribuzione in applicazioni pratiche
Scalabilità: Fornisce una buona base per ricerche successive
Valore Sociale: Contribuisce a migliorare l'accessibilità tecnologica per la comunità sorda

Scenari Applicabili

Ambienti con Risorse Limitate: Dispositivi mobili, scenari di edge computing
Applicazioni in Tempo Reale: Sistemi interattivi che richiedono risposta rapida
Distribuzione su Larga Scala: Scenari che richiedono l'elaborazione di grandi quantità di dati video
Prototipi di Ricerca: Componenti di base per sistemi più complessi

Riferimenti Bibliografici

L'articolo cita molteplici lavori correlati importanti, inclusi:

Articoli relativi al dataset BOBSL 3
Framework di estrazione di punti chiave MediaPipe 13
Articolo originale dell'architettura Transformer 18
Ricerca sul riconoscimento della lingua dei segni 1,2,6
Applicazioni di reti neurali grafiche nel riconoscimento di azioni 21

Valutazione Complessiva: Questo è un articolo di significato pioneristico che applica per la prima volta il metodo basato su punti chiave al compito di riconoscimento BSL. Sebbene vi sia ancora margine di miglioramento in termini di accuratezza, i vantaggi significativi in termini di efficienza computazionale gli conferiscono un importante valore pratico. Questo lavoro fornisce una nuova direzione di ricerca nel campo del riconoscimento della lingua dei segni, con particolare significato in scenari con risorse limitate e applicazioni in tempo reale.