CTC compressor can be an effective approach to integrate audio encoders to decoder-only models, which has gained growing interest for different speech applications. In this work, we propose a novel CTC compressor based joint speech and text training (CJST) framework for decoder-only ASR. CJST matches speech and text modalities from both directions by exploring a simple modality adaptor and several features of the CTC compressor, including sequence compression, on-the-fly forced peaky alignment and CTC class embeddings. Experimental results on the Librispeech and TED-LIUM2 corpora show that the proposed CJST achieves an effective text injection without the need of duration handling, leading to the best performance for both in-domain and cross-domain scenarios. We also provide a comprehensive study on CTC compressor, covering various compression modes, edge case handling and behavior under both clean and noisy data conditions, which reveals the most robust setting to use CTC compressor for decoder-only models.
CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR
- ID Articolo: 2411.07607
- Titolo: CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR
- Autori: Wei Zhou, Junteng Jia, Leda Sari, Jay Mahadeokar, Ozlem Kalinli (Meta AI)
- Classificazione: eess.AS cs.LG cs.SD
- Data di Pubblicazione: Novembre 2024 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2411.07607
Il compressore CTC può fungere da metodo efficace per integrare codificatori audio in modelli solo-decoder, ottenendo crescente attenzione in diverse applicazioni di riconoscimento vocale. Questo articolo propone un innovativo framework di addestramento congiunto vocale-testuale (CJST) basato su compressore CTC per ASR solo-decoder. CJST realizza l'adattamento modale bidirezionale tra modalità vocale e testuale attraverso l'esplorazione di semplici adattatori modali e diverse caratteristiche del compressore CTC, inclusa la compressione di sequenza, l'allineamento di picco forzato online e l'incorporamento di classi CTC. I risultati sperimentali sui corpora Librispeech e TED-LIUM2 dimostrano che il CJST proposto realizza un'iniezione testuale efficace senza necessità di elaborazione della durata, raggiungendo prestazioni ottimali sia in scenari in-domain che cross-domain.
Con il grande successo dei modelli linguistici di grandi dimensioni (LLM), l'architettura solo-decoder è ampiamente applicata a varie applicazioni di riconoscimento vocale. Tuttavia, come integrare efficacemente le informazioni vocali nei modelli solo-decoder e come condurre l'addestramento congiunto vocale-testuale per migliorare le prestazioni dell'ASR rimane una questione impegnativa.
- Sfida di Integrazione: L'integrazione efficace di incorporamenti acustici continui nei modelli solo-decoder richiede metodi di adattamento appropriati
- Adattamento Modale: Le modalità vocale e testuale presentano differenze significative nella lunghezza della sequenza e nello spazio di rappresentazione, richiedendo meccanismi di allineamento efficaci
- Iniezione Testuale: Nei modelli ASR a livello di produzione, come sfruttare efficacemente i dati testuali per migliorare le prestazioni senza utilizzare modelli linguistici esterni
- Adattatori Semplici: I metodi tradizionali di riduzione temporale + proiezione lineare mancano di capacità di compressione consapevole del contenuto
- Metodi RNN-T: I metodi di addestramento congiunto esistenti sono principalmente orientati ai modelli RNN-T, richiedendo complessa elaborazione della durata
- Sensibilità del Compressore CTC: I metodi di compressore CTC esistenti mostrano prestazioni instabili su dati rumorosi
- Propone il Framework CJST: Un innovativo framework di addestramento congiunto vocale-testuale basato su compressore CTC che realizza l'adattamento modale bidirezionale
- Estende il Compressore CTC: Uno studio completo di varie modalità di compressione del compressore CTC, gestione dei casi limite e comportamento su dati puliti/rumorosi
- Senza Elaborazione della Durata: Realizza un'iniezione testuale efficace attraverso l'allineamento di picco forzato online e l'incorporamento di classi CTC, senza necessità di modellazione complessa della durata
- Miglioramento delle Prestazioni: Raggiunge prestazioni ottimali in scenari sia in-domain che cross-domain, realizzando circa il 6% di miglioramento relativo rispetto alla baseline
Questo articolo studia il compito di riconoscimento automatico del parlato per architetture solo-decoder, con input costituito da sequenze di caratteristiche vocali e output dalla trascrizione testuale corrispondente. Considera inoltre come sfruttare dati vocali-testuali accoppiati e dati testuali puri per l'addestramento congiunto.
L'articolo studia quattro modalità di compressione del compressore CTC:
- Rimozione della Previsione di Vuoto: Basata sulla previsione CTC greedy, rimuove tutti i frame vuoti
- Media della Previsione Identica: Calcola la media dei frame adiacenti con previsioni identiche
- Rimozione della Probabilità di Vuoto: Rimuove tutti i frame con probabilità di vuoto superiore a una soglia predefinita
- Modalità Combinata: Applica prima la rimozione della probabilità di vuoto, quindi la media della previsione identica
Per affrontare il problema dei compressori CTC che producono output vuoti, vengono proposte due soluzioni:
- Empty Skip: Salta questi utterance durante l'addestramento, output diretto EOS durante l'inferenza
- Empty Fallback: Calcola la media di tutti gli output dell'encoder in un singolo frame, quindi procede normalmente con l'addestramento e l'inferenza
Esplora il meccanismo di condivisione tra l'incorporamento di classi CTC e l'incorporamento testuale, facendo sì che l'output dell'encoder audio sia più vicino all'incorporamento testuale attraverso la funzione obiettivo CTC.
Per i dati vocali-testuali accoppiati:
- Conduce l'addestramento ASR regolare attraverso la propagazione in avanti del modello
- Sfrutta l'incorporamento acustico compresso h' e le probabilità CTC per l'allineamento di picco forzato
- Addestra l'adattatore modale attraverso la perdita MSE, allineando h' con lo pseudo-incorporamento acustico h'_text
Per i dati testuali puri:
- Inserisce casualmente simboli di vuoto basati sul rapporto di lunghezza registrato R_len(h', y)
- Genera pseudo-incorporamenti acustici h'_text attraverso l'incorporamento CTC e l'adattatore modale
- Addestra il modello decoder utilizzando la funzione obiettivo ASR
- Applica mascheramento casuale del 20% a h'_text per mantenere la difficoltà di apprendimento
Utilizza un semplice strato Conformer come adattatore modale, contenente una singola testata di attenzione, dimensione del kernel di convoluzione di 3, senza aumento della dimensionalità del modulo feedforward.
- Librispeech: 960 ore di dati vocali puliti
- Dati Interni: 2M ore di dati con condizioni acustiche diverse, incluse perturbazioni di velocità, riverbero simulato e rumore di fondo casuale
- Dati Testuali: Dati di addestramento LM da Librispeech e TED-LIUM2
- Decoder: 12 strati di decoder LLaMA, dimensione nascosta 768, 12 teste di attenzione
- Encoder Audio: 24 strati Conformer, dimensione nascosta 512, 8 teste di attenzione
- Vocabolario: 4k unità SentencePiece per ciascun dataset
- Preaddestramento dell'encoder audio: 200k step
- Addestramento del modello completo: 200k step per Librispeech, 500k step per dati interni
- Pesi della perdita vocale e testuale nell'addestramento congiunto: entrambi 1.0
- Peso della perdita CTC ausiliaria: 0.5
Utilizza il Word Error Rate (WER) come metrica di valutazione principale, riportando le prestazioni sul set di test.
- Tutti i metodi di compressore CTC superano il metodo di adattatore semplice
- La rimozione della probabilità di vuoto (soglia 0.95) mostra le migliori prestazioni: test-clean 2.17%, test-other 4.94%
- La condivisione di incorporamento è utile in alcuni casi, ma non sufficientemente coerente
- I metodi basati su previsione greedy mostrano prestazioni scadenti su dati rumorosi
- La rimozione della probabilità di vuoto (soglia 0.95) è la più robusta: 12.85% WER
- Lo schema empty fallback supera lo schema empty skip
Risultati su Librispeech:
- Adattatore baseline: test-clean 3.38%, test-other 5.63%
- Iniezione testuale simile a LM: test-clean 2.54%, test-other 5.26%
- CJST: test-clean 2.09%, test-other 4.71%
Utilizzo di dati testuali in-domain e cross-domain:
- CJST raggiunge le migliori prestazioni in tutti gli scenari
- Set di test cross-domain TED-LIUM2: da 11.45% a 10.14%
- Realizza circa il 6% di miglioramento relativo rispetto alla baseline
- La rimozione della probabilità di vuoto è la modalità di compressione più robusta
- L'addestramento simile a LM è già piuttosto efficace, fornendo una baseline forte
- CJST porta ulteriori miglioramenti in tutti gli scenari
- Il compressore CTC è sensibile alla qualità dei dati, richiedendo una configurazione appropriata
- I lavori iniziali utilizzano semplici adattatori per integrare encoder audio
- La ricerca recente esplora metodi di token audio discreti
- Questo articolo si concentra sul compito ASR con rappresentazioni continue
- Inizialmente utilizzato per la traduzione vocale con meccanismi di attenzione
- Esteso alla traduzione vocale con modelli solo-decoder
- Questo articolo è il primo a studiare sistematicamente la sua applicazione in ASR
- I metodi tradizionali sono principalmente orientati ai modelli RNN-T
- Includono metodi come JOIST, textogram, MAESTRO e altri
- Questo articolo propone per la prima volta una soluzione efficace per ASR solo-decoder
- Il Framework CJST è Efficace: Realizza un'iniezione testuale efficace attraverso l'adattamento modale bidirezionale
- La Configurazione del Compressore CTC è Critica: La rimozione della probabilità di vuoto (soglia elevata) è la più robusta
- Senza Elaborazione della Durata: Evita la modellazione complessa della durata attraverso l'allineamento forzato e l'incorporamento CTC
- Miglioramento Coerente: Raggiunge miglioramenti significativi sia in scenari in-domain che cross-domain
- Costo Computazionale: L'allineamento forzato online aumenta il costo computazionale durante l'addestramento
- Dipendenza dai Dati: Le prestazioni del compressore CTC dipendono altamente dalla qualità dei dati
- Sensibilità dei Parametri: Richiede un'attenta regolazione di iperparametri come la soglia di probabilità di vuoto
- Portata di Valutazione: Principalmente valutato su dati in inglese, la generalizzazione multilingue è sconosciuta
- Esplorare metodi di allineamento online più efficienti
- Studiare le prestazioni in scenari multilingui e a basse risorse
- Combinare metodi ibridi con token audio discreti
- Ottimizzare la robustezza del compressore CTC
- Innovazione Metodologica: Primo utilizzo del compressore CTC per l'addestramento congiunto vocale-testuale in ASR solo-decoder
- Studio Sistematico: Analisi sperimentale completa del compressore CTC
- Valore Pratico: Senza elaborazione della durata, semplifica la complessità di implementazione
- Esperimenti Sufficienti: Verifica l'efficacia del metodo su più dataset e scenari
- Scrittura Chiara: Struttura dell'articolo chiara, dettagli tecnici descritti in modo esauriente
- Analisi Teorica Limitata: Manca un'analisi teorica approfondita del perché CJST sia efficace
- Costo Computazionale: Non analizza in dettaglio il costo computazionale durante l'addestramento e l'inferenza
- Sensibilità agli Iperparametri: Il metodo coinvolge molteplici iperparametri, la complessità di ottimizzazione è elevata
- Limitazioni di Valutazione: Principalmente valutato su dati in inglese, manca verifica multilingue
- Contributo Accademico: Fornisce nuove prospettive per l'iniezione testuale in ASR solo-decoder
- Valore Pratico: Il metodo è relativamente semplice, facile da distribuire in ambienti di produzione
- Riproducibilità: Fornisce dettagli di implementazione dettagliati e impostazioni di iperparametri
- Ispirazione: Fornisce intuizioni preziose per ulteriori ricerche sul compressore CTC
- ASR a Livello di Produzione: Adatto a scenari dove non è possibile utilizzare modelli linguistici esterni
- Adattamento Cross-Domain: Particolarmente adatto per applicazioni che richiedono rapido adattamento a nuovi domini
- Risorse Limitate: Più efficiente rispetto a metodi di modellazione della durata complessa
- Addestramento Congiunto: Adatto a scenari con grandi quantità di dati testuali ma dati vocali relativamente limitati
L'articolo cita 32 lavori correlati, coprendo importanti lavori in più campi correlati inclusi modelli linguistici di grandi dimensioni, architetture solo-decoder, metodi CTC, riconoscimento vocale e addestramento congiunto, fornendo una solida base teorica per la ricerca.
Valutazione Complessiva: Questo è un articolo tecnico di alta qualità che propone l'innovativo framework CJST, risolvendo l'importante problema dell'addestramento congiunto vocale-testuale in ASR solo-decoder. La progettazione sperimentale dell'articolo è completa, i risultati sono convincenti e possiede importante valore accademico e pratico per il campo.