In this paper, we present a novel keypoint-based classification model designed to recognise British Sign Language (BSL) words within continuous signing sequences. Our model's performance is assessed using the BOBSL dataset, revealing that the keypoint-based approach surpasses its RGB-based counterpart in computational efficiency and memory usage. Furthermore, it offers expedited training times and demands fewer computational resources. To the best of our knowledge, this is the inaugural application of a keypoint-based model for BSL word classification, rendering direct comparisons with existing works unavailable.
- ID Articolo: 2412.09475
- Titolo: New keypoint-based approach for recognising British Sign Language (BSL) from sequences
- Autori: Oishi Deb, KR Prajwal, Andrew Zisserman (Visual Geometry Group, University of Oxford)
- Classificazione: cs.CV cs.AI
- Data di Pubblicazione/Conferenza: International Conference on Computer Vision (ICCV) - HANDS Workshop, 2023
- Link Articolo: https://arxiv.org/abs/2412.09475
Questo articolo propone un innovativo modello di classificazione basato su punti chiave per il riconoscimento di parole della Lingua dei Segni Britannica (BSL) da sequenze di linguaggio dei segni continuo. Il modello è stato valutato sul dataset BOBSL, dimostrando che l'approccio basato su punti chiave supera i metodi basati su RGB in termini di efficienza computazionale e utilizzo della memoria, fornendo tempi di addestramento più rapidi e richiedendo meno risorse di calcolo. A conoscenza degli autori, questa è la prima applicazione di modelli basati su punti chiave alla classificazione di parole BSL, pertanto non è possibile un confronto diretto con lavori esistenti.
Il riconoscimento della lingua dei segni è un importante compito di visione artificiale che mira a identificare automaticamente parole o frasi della lingua dei segni da sequenze video. I metodi tradizionali si basano principalmente su video RGB, ma presentano problemi di elevata complessità computazionale e sensibilità ai fattori ambientali.
- Significato Sociale: Migliorare l'accessibilità per la comunità sorda, promuovere la comunicazione inclusiva
- Sfide Tecniche: Il fenomeno della coarticolazione nella lingua dei segni continua rende l'attività di riconoscimento estremamente impegnativa
- Requisiti in Tempo Reale: Le applicazioni pratiche richiedono modelli efficienti in grado di elaborare in tempo reale
- Metodi RGB: Elevata complessità computazionale, grande occupazione di memoria, tempi di addestramento lunghi
- Sensibilità Ambientale: Facilmente influenzati da fattori esterni come illuminazione e abbigliamento
- Scarsa Reattività: Difficile soddisfare i requisiti delle applicazioni in tempo reale
Gli autori propongono l'utilizzo di rappresentazioni basate su punti chiave 2D per affrontare i problemi sopra menzionati, basandosi su tre ragioni principali:
- Controllabilità: Capacità di selezionare flessibilmente sottoinsiemi di punti chiave, controllando i costi computazionali
- Compattezza: Eliminazione di fattori di disturbo come illuminazione e abbigliamento, fornendo una rappresentazione più compatta
- Reattività in Tempo Reale: I punti chiave possono essere calcolati in tempo reale, supportando l'esecuzione di modelli in tempo reale
- Applicazione Innovativa: Prima applicazione di metodi basati su punti chiave al compito di classificazione di parole BSL
- Architettura Efficiente: Propone un'architettura di elaborazione di sequenze di punti chiave basata su Transformer
- Efficienza Computazionale: Riduzione significativa dei costi computazionali, dell'utilizzo della memoria e dei tempi di addestramento rispetto ai metodi RGB
- Valore Pratico: Fornisce una soluzione più efficiente e pratica per il riconoscimento della lingua dei segni
- Input: Rappresentazione 2D di punti chiave di sequenze video BSL continuo
- Output: Risultati di classificazione per 8.162 categorie di parole BSL
- Vincoli: Gestione del fenomeno di coarticolazione, supporto dell'elaborazione in tempo reale
Utilizzo della libreria MediaPipe per l'estrazione dei punti chiave:
- Punti Chiave di Posa: 33
- Punti Chiave delle Mani: 21 per mano sinistra e destra
- Punti Chiave del Viso: 468 (ridotti a 128 nel modello 203kp)
- Totale: 543 punti chiave (o versione semplificata di 203 punti chiave)
- Estrazione di sequenze di punti chiave da 16 frame consecutivi (basato su ricerche che mostrano che la coarticolazione dura 13-20 frame)
- Formazione di un vettore tridimensionale 16 × K × 2, dove K è il numero di punti chiave per frame
- Tokenizer: Tokenizzazione dei dati di input
- Codifica Posizionale: Aggiunta di informazioni posizionali per distinguere l'ordine nella sequenza
- Encoder: 6 strati di encoder, ciascuno contenente:
- Meccanismo di autoattenzione multi-testa (8 teste di attenzione)
- Rete neurale feed-forward posizionale
- Normalizzazione di strato
- Generatore: Conversione della rappresentazione appresa in output di classificazione
- Attenzione Frame-wise: Modello di attenzione a livello di frame
- Attenzione Trajectory-wise: Modello di attenzione a livello di traiettoria
- Utilizzo del meccanismo di attenzione a prodotto scalare ridimensionato
- Input Diretto di Punti Chiave: Diversamente dai metodi basati su reti neurali grafiche, inserimento diretto dei punti chiave come input di Transformer
- Modellazione Temporale: Utilizzo del meccanismo di autoattenzione di Transformer per catturare dipendenze a lungo raggio
- Punti Chiave Multi-scala: Esplorazione di diverse configurazioni di numero di punti chiave per bilanciare prestazioni ed efficienza
- Aumento dei Dati: Strategie di aumento progettate per punti chiave (traslazione, ridimensionamento, rotazione, capovolgimento)
Dataset BOBSL:
- Scala: 1.467 ore di programmi BBC
- Risoluzione: 444×444 pixel, 25fps
- Vocabolario: 8.162 parole della lingua dei segni
- Interpreti: 39 interpreti della lingua dei segni
- Set di Addestramento: 8.162 parole uniche, 3.555.141 frame
- Set di Validazione: 3.348 parole, 53.768 frame
- Strategia di Divisione: Divisione per interprete, garantendo nessuna sovrapposizione di interpreti tra set di addestramento, validazione e test
- Ottimizzatore: Ottimizzatore Adam, tasso di apprendimento 1e-4
- Dimensione del Batch: 128
- Strategia di Early Stopping: Arresto quando la perdita di validazione non migliora per 3 epoch consecutivi
- Dimensione del Modello: Embedding di 512 dimensioni
- Numero di Parametri: 23,9 milioni di parametri (vs 34,5 milioni del modello RGB)
- Accuratezza: Accuratezza Top-5 raggiunta del 60%
- Efficienza dei Parametri: Riduzione del 30,7% dei parametri rispetto al metodo RGB (23,9M vs 34,5M)
- Efficienza Computazionale: Riduzione significativa dei costi computazionali, dell'utilizzo della memoria e dei tempi di addestramento
- Modello con 543 Punti Chiave: Utilizzo di 468 punti chiave del viso
- Modello con 203 Punti Chiave: Utilizzo di 128 punti chiave del viso
- Scoperta: L'aumento del numero di punti chiave del viso migliora le prestazioni
Test di molteplici tecniche di aumento:
- Aumento di Traslazione: Fornisce il massimo miglioramento delle prestazioni
- Aumento di Ridimensionamento: Ridimensionamento nell'intervallo 90-110%
- Aumento di Rotazione: Rotazione di piccoli angoli
- Capovolgimento Orizzontale: Capovolgimento speculare
Ogni metodo di aumento migliora singolarmente le prestazioni del modello, con l'aumento di traslazione che produce i migliori risultati.
- I punti chiave del viso sono cruciali per il riconoscimento BSL
- Il metodo basato su punti chiave riduce significativamente i costi computazionali mantenendo un'accuratezza ragionevole
- Le tecniche di aumento dei dati sono ugualmente efficaci per i modelli basati su punti chiave
- I lavori precedenti si basavano principalmente su video RGB per il riconoscimento BSL
- Focalizzati su coarticolazione e riconoscimento dei modelli labiali
- Questo articolo è il primo metodo puramente basato su punti chiave
- Evoluzione dall'ingegneria manuale delle caratteristiche ai metodi di apprendimento profondo (CNN)
- Applicazione di reti neurali grafiche (GNN) nel riconoscimento di azioni e gesti
- Applicazioni di successo dell'architettura Transformer nella visione artificiale
Questo articolo adotta il metodo di inserimento diretto dei punti chiave in Transformer, differenziandosi dall'approccio tradizionale di costruzione di reti neurali grafiche.
- Il metodo basato su punti chiave presenta vantaggi computazionali significativi nel riconoscimento BSL
- L'architettura Transformer può elaborare efficacemente sequenze di punti chiave
- I punti chiave del viso sono cruciali per le prestazioni del riconoscimento BSL
- L'aumento appropriato dei dati può migliorare ulteriormente le prestazioni del modello
- Accuratezza: L'accuratezza del 60% ha ancora margini di miglioramento
- Confronti Mancanti: Come primo metodo basato su punti chiave, mancano benchmark di confronto diretto
- Limitazioni del Dataset: Validazione solo sul dataset BOBSL
- Verifica della Reattività in Tempo Reale: Mancanza di test effettivi delle prestazioni in tempo reale
- Fusione Multimodale: Combinazione di punti chiave e immagini RGB per aumentare l'accuratezza
- Stima della Posa 3D: Esplorazione di tecniche di stima della posa 3D a livello di sequenza
- Immagini di Scheletro: Prova di rappresentazioni di immagini di scheletro in bianco e nero basate su punti chiave
- Validazione su Scala Maggiore: Validazione del metodo su più dataset di lingua dei segni
- Forte Innovatività: Prima applicazione di metodo puramente basato su punti chiave al riconoscimento BSL
- Alto Valore Pratico: Riduzione significativa dei costi computazionali, adatto a ambienti con risorse limitate
- Metodologia Ragionevole: Percorso tecnico chiaro, dettagli di implementazione completi
- Esperimenti Sufficienti: Include esperimenti di confronto con molteplici configurazioni e strategie di aumento
- Prestazioni Limitate: L'accuratezza del 60% è relativamente bassa
- Mancanza di Confronti: Impossibilità di confronto diretto con altri metodi
- Analisi Insufficiente: Mancanza di analisi approfondita dei casi di fallimento
- Generalizzabilità Sconosciuta: Validazione solo su un singolo dataset
- Carattere Pioneristico: Fornisce un nuovo percorso tecnico per il riconoscimento della lingua dei segni
- Praticità: Il metodo efficiente facilita la distribuzione in applicazioni pratiche
- Scalabilità: Fornisce una buona base per ricerche successive
- Valore Sociale: Contribuisce a migliorare l'accessibilità tecnologica per la comunità sorda
- Ambienti con Risorse Limitate: Dispositivi mobili, scenari di edge computing
- Applicazioni in Tempo Reale: Sistemi interattivi che richiedono risposta rapida
- Distribuzione su Larga Scala: Scenari che richiedono l'elaborazione di grandi quantità di dati video
- Prototipi di Ricerca: Componenti di base per sistemi più complessi
L'articolo cita molteplici lavori correlati importanti, inclusi:
- Articoli relativi al dataset BOBSL 3
- Framework di estrazione di punti chiave MediaPipe 13
- Articolo originale dell'architettura Transformer 18
- Ricerca sul riconoscimento della lingua dei segni 1,2,6
- Applicazioni di reti neurali grafiche nel riconoscimento di azioni 21
Valutazione Complessiva: Questo è un articolo di significato pioneristico che applica per la prima volta il metodo basato su punti chiave al compito di riconoscimento BSL. Sebbene vi sia ancora margine di miglioramento in termini di accuratezza, i vantaggi significativi in termini di efficienza computazionale gli conferiscono un importante valore pratico. Questo lavoro fornisce una nuova direzione di ricerca nel campo del riconoscimento della lingua dei segni, con particolare significato in scenari con risorse limitate e applicazioni in tempo reale.