2025-11-15T00:16:11.455248

New keypoint-based approach for recognising British Sign Language (BSL) from sequences

Deb, Prajwal, Zisserman
In this paper, we present a novel keypoint-based classification model designed to recognise British Sign Language (BSL) words within continuous signing sequences. Our model's performance is assessed using the BOBSL dataset, revealing that the keypoint-based approach surpasses its RGB-based counterpart in computational efficiency and memory usage. Furthermore, it offers expedited training times and demands fewer computational resources. To the best of our knowledge, this is the inaugural application of a keypoint-based model for BSL word classification, rendering direct comparisons with existing works unavailable.
academic

Nuovo approccio basato su punti chiave per il riconoscimento della Lingua dei Segni Britannica (BSL) da sequenze

Informazioni Fondamentali

  • ID Articolo: 2412.09475
  • Titolo: New keypoint-based approach for recognising British Sign Language (BSL) from sequences
  • Autori: Oishi Deb, KR Prajwal, Andrew Zisserman (Visual Geometry Group, University of Oxford)
  • Classificazione: cs.CV cs.AI
  • Data di Pubblicazione/Conferenza: International Conference on Computer Vision (ICCV) - HANDS Workshop, 2023
  • Link Articolo: https://arxiv.org/abs/2412.09475

Riassunto

Questo articolo propone un innovativo modello di classificazione basato su punti chiave per il riconoscimento di parole della Lingua dei Segni Britannica (BSL) da sequenze di linguaggio dei segni continuo. Il modello è stato valutato sul dataset BOBSL, dimostrando che l'approccio basato su punti chiave supera i metodi basati su RGB in termini di efficienza computazionale e utilizzo della memoria, fornendo tempi di addestramento più rapidi e richiedendo meno risorse di calcolo. A conoscenza degli autori, questa è la prima applicazione di modelli basati su punti chiave alla classificazione di parole BSL, pertanto non è possibile un confronto diretto con lavori esistenti.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il riconoscimento della lingua dei segni è un importante compito di visione artificiale che mira a identificare automaticamente parole o frasi della lingua dei segni da sequenze video. I metodi tradizionali si basano principalmente su video RGB, ma presentano problemi di elevata complessità computazionale e sensibilità ai fattori ambientali.

Importanza

  1. Significato Sociale: Migliorare l'accessibilità per la comunità sorda, promuovere la comunicazione inclusiva
  2. Sfide Tecniche: Il fenomeno della coarticolazione nella lingua dei segni continua rende l'attività di riconoscimento estremamente impegnativa
  3. Requisiti in Tempo Reale: Le applicazioni pratiche richiedono modelli efficienti in grado di elaborare in tempo reale

Limitazioni dei Metodi Esistenti

  1. Metodi RGB: Elevata complessità computazionale, grande occupazione di memoria, tempi di addestramento lunghi
  2. Sensibilità Ambientale: Facilmente influenzati da fattori esterni come illuminazione e abbigliamento
  3. Scarsa Reattività: Difficile soddisfare i requisiti delle applicazioni in tempo reale

Motivazione della Ricerca

Gli autori propongono l'utilizzo di rappresentazioni basate su punti chiave 2D per affrontare i problemi sopra menzionati, basandosi su tre ragioni principali:

  1. Controllabilità: Capacità di selezionare flessibilmente sottoinsiemi di punti chiave, controllando i costi computazionali
  2. Compattezza: Eliminazione di fattori di disturbo come illuminazione e abbigliamento, fornendo una rappresentazione più compatta
  3. Reattività in Tempo Reale: I punti chiave possono essere calcolati in tempo reale, supportando l'esecuzione di modelli in tempo reale

Contributi Principali

  1. Applicazione Innovativa: Prima applicazione di metodi basati su punti chiave al compito di classificazione di parole BSL
  2. Architettura Efficiente: Propone un'architettura di elaborazione di sequenze di punti chiave basata su Transformer
  3. Efficienza Computazionale: Riduzione significativa dei costi computazionali, dell'utilizzo della memoria e dei tempi di addestramento rispetto ai metodi RGB
  4. Valore Pratico: Fornisce una soluzione più efficiente e pratica per il riconoscimento della lingua dei segni

Spiegazione Dettagliata del Metodo

Definizione del Compito

  • Input: Rappresentazione 2D di punti chiave di sequenze video BSL continuo
  • Output: Risultati di classificazione per 8.162 categorie di parole BSL
  • Vincoli: Gestione del fenomeno di coarticolazione, supporto dell'elaborazione in tempo reale

Estrazione dei Punti Chiave

Utilizzo della libreria MediaPipe per l'estrazione dei punti chiave:

  • Punti Chiave di Posa: 33
  • Punti Chiave delle Mani: 21 per mano sinistra e destra
  • Punti Chiave del Viso: 468 (ridotti a 128 nel modello 203kp)
  • Totale: 543 punti chiave (o versione semplificata di 203 punti chiave)

Architettura del Modello

Rappresentazione dell'Input

  • Estrazione di sequenze di punti chiave da 16 frame consecutivi (basato su ricerche che mostrano che la coarticolazione dura 13-20 frame)
  • Formazione di un vettore tridimensionale 16 × K × 2, dove K è il numero di punti chiave per frame

Architettura Transformer

  1. Tokenizer: Tokenizzazione dei dati di input
  2. Codifica Posizionale: Aggiunta di informazioni posizionali per distinguere l'ordine nella sequenza
  3. Encoder: 6 strati di encoder, ciascuno contenente:
    • Meccanismo di autoattenzione multi-testa (8 teste di attenzione)
    • Rete neurale feed-forward posizionale
    • Normalizzazione di strato
  4. Generatore: Conversione della rappresentazione appresa in output di classificazione

Meccanismo di Attenzione

  • Attenzione Frame-wise: Modello di attenzione a livello di frame
  • Attenzione Trajectory-wise: Modello di attenzione a livello di traiettoria
  • Utilizzo del meccanismo di attenzione a prodotto scalare ridimensionato

Punti di Innovazione Tecnica

  1. Input Diretto di Punti Chiave: Diversamente dai metodi basati su reti neurali grafiche, inserimento diretto dei punti chiave come input di Transformer
  2. Modellazione Temporale: Utilizzo del meccanismo di autoattenzione di Transformer per catturare dipendenze a lungo raggio
  3. Punti Chiave Multi-scala: Esplorazione di diverse configurazioni di numero di punti chiave per bilanciare prestazioni ed efficienza
  4. Aumento dei Dati: Strategie di aumento progettate per punti chiave (traslazione, ridimensionamento, rotazione, capovolgimento)

Configurazione Sperimentale

Dataset

Dataset BOBSL:

  • Scala: 1.467 ore di programmi BBC
  • Risoluzione: 444×444 pixel, 25fps
  • Vocabolario: 8.162 parole della lingua dei segni
  • Interpreti: 39 interpreti della lingua dei segni
  • Set di Addestramento: 8.162 parole uniche, 3.555.141 frame
  • Set di Validazione: 3.348 parole, 53.768 frame
  • Strategia di Divisione: Divisione per interprete, garantendo nessuna sovrapposizione di interpreti tra set di addestramento, validazione e test

Metriche di Valutazione

  • Accuratezza Top-5

Dettagli di Implementazione

  • Ottimizzatore: Ottimizzatore Adam, tasso di apprendimento 1e-4
  • Dimensione del Batch: 128
  • Strategia di Early Stopping: Arresto quando la perdita di validazione non migliora per 3 epoch consecutivi
  • Dimensione del Modello: Embedding di 512 dimensioni
  • Numero di Parametri: 23,9 milioni di parametri (vs 34,5 milioni del modello RGB)

Risultati Sperimentali

Risultati Principali

  • Accuratezza: Accuratezza Top-5 raggiunta del 60%
  • Efficienza dei Parametri: Riduzione del 30,7% dei parametri rispetto al metodo RGB (23,9M vs 34,5M)
  • Efficienza Computazionale: Riduzione significativa dei costi computazionali, dell'utilizzo della memoria e dei tempi di addestramento

Confronto del Numero di Punti Chiave

  • Modello con 543 Punti Chiave: Utilizzo di 468 punti chiave del viso
  • Modello con 203 Punti Chiave: Utilizzo di 128 punti chiave del viso
  • Scoperta: L'aumento del numero di punti chiave del viso migliora le prestazioni

Effetti dell'Aumento dei Dati

Test di molteplici tecniche di aumento:

  1. Aumento di Traslazione: Fornisce il massimo miglioramento delle prestazioni
  2. Aumento di Ridimensionamento: Ridimensionamento nell'intervallo 90-110%
  3. Aumento di Rotazione: Rotazione di piccoli angoli
  4. Capovolgimento Orizzontale: Capovolgimento speculare

Ogni metodo di aumento migliora singolarmente le prestazioni del modello, con l'aumento di traslazione che produce i migliori risultati.

Scoperte Sperimentali

  1. I punti chiave del viso sono cruciali per il riconoscimento BSL
  2. Il metodo basato su punti chiave riduce significativamente i costi computazionali mantenendo un'accuratezza ragionevole
  3. Le tecniche di aumento dei dati sono ugualmente efficaci per i modelli basati su punti chiave

Lavori Correlati

Ricerca sul Riconoscimento BSL

  • I lavori precedenti si basavano principalmente su video RGB per il riconoscimento BSL
  • Focalizzati su coarticolazione e riconoscimento dei modelli labiali
  • Questo articolo è il primo metodo puramente basato su punti chiave

Ricerca sulla Rappresentazione di Punti Chiave

  • Evoluzione dall'ingegneria manuale delle caratteristiche ai metodi di apprendimento profondo (CNN)
  • Applicazione di reti neurali grafiche (GNN) nel riconoscimento di azioni e gesti
  • Applicazioni di successo dell'architettura Transformer nella visione artificiale

Confronto Tecnico

Questo articolo adotta il metodo di inserimento diretto dei punti chiave in Transformer, differenziandosi dall'approccio tradizionale di costruzione di reti neurali grafiche.

Conclusioni e Discussione

Conclusioni Principali

  1. Il metodo basato su punti chiave presenta vantaggi computazionali significativi nel riconoscimento BSL
  2. L'architettura Transformer può elaborare efficacemente sequenze di punti chiave
  3. I punti chiave del viso sono cruciali per le prestazioni del riconoscimento BSL
  4. L'aumento appropriato dei dati può migliorare ulteriormente le prestazioni del modello

Limitazioni

  1. Accuratezza: L'accuratezza del 60% ha ancora margini di miglioramento
  2. Confronti Mancanti: Come primo metodo basato su punti chiave, mancano benchmark di confronto diretto
  3. Limitazioni del Dataset: Validazione solo sul dataset BOBSL
  4. Verifica della Reattività in Tempo Reale: Mancanza di test effettivi delle prestazioni in tempo reale

Direzioni Future

  1. Fusione Multimodale: Combinazione di punti chiave e immagini RGB per aumentare l'accuratezza
  2. Stima della Posa 3D: Esplorazione di tecniche di stima della posa 3D a livello di sequenza
  3. Immagini di Scheletro: Prova di rappresentazioni di immagini di scheletro in bianco e nero basate su punti chiave
  4. Validazione su Scala Maggiore: Validazione del metodo su più dataset di lingua dei segni

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Prima applicazione di metodo puramente basato su punti chiave al riconoscimento BSL
  2. Alto Valore Pratico: Riduzione significativa dei costi computazionali, adatto a ambienti con risorse limitate
  3. Metodologia Ragionevole: Percorso tecnico chiaro, dettagli di implementazione completi
  4. Esperimenti Sufficienti: Include esperimenti di confronto con molteplici configurazioni e strategie di aumento

Carenze

  1. Prestazioni Limitate: L'accuratezza del 60% è relativamente bassa
  2. Mancanza di Confronti: Impossibilità di confronto diretto con altri metodi
  3. Analisi Insufficiente: Mancanza di analisi approfondita dei casi di fallimento
  4. Generalizzabilità Sconosciuta: Validazione solo su un singolo dataset

Impatto

  1. Carattere Pioneristico: Fornisce un nuovo percorso tecnico per il riconoscimento della lingua dei segni
  2. Praticità: Il metodo efficiente facilita la distribuzione in applicazioni pratiche
  3. Scalabilità: Fornisce una buona base per ricerche successive
  4. Valore Sociale: Contribuisce a migliorare l'accessibilità tecnologica per la comunità sorda

Scenari Applicabili

  1. Ambienti con Risorse Limitate: Dispositivi mobili, scenari di edge computing
  2. Applicazioni in Tempo Reale: Sistemi interattivi che richiedono risposta rapida
  3. Distribuzione su Larga Scala: Scenari che richiedono l'elaborazione di grandi quantità di dati video
  4. Prototipi di Ricerca: Componenti di base per sistemi più complessi

Riferimenti Bibliografici

L'articolo cita molteplici lavori correlati importanti, inclusi:

  • Articoli relativi al dataset BOBSL 3
  • Framework di estrazione di punti chiave MediaPipe 13
  • Articolo originale dell'architettura Transformer 18
  • Ricerca sul riconoscimento della lingua dei segni 1,2,6
  • Applicazioni di reti neurali grafiche nel riconoscimento di azioni 21

Valutazione Complessiva: Questo è un articolo di significato pioneristico che applica per la prima volta il metodo basato su punti chiave al compito di riconoscimento BSL. Sebbene vi sia ancora margine di miglioramento in termini di accuratezza, i vantaggi significativi in termini di efficienza computazionale gli conferiscono un importante valore pratico. Questo lavoro fornisce una nuova direzione di ricerca nel campo del riconoscimento della lingua dei segni, con particolare significato in scenari con risorse limitate e applicazioni in tempo reale.