2025-11-17T09:16:13.954696

CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR

Zhou, Jia, Sari et al.

CTC compressor can be an effective approach to integrate audio encoders to decoder-only models, which has gained growing interest for different speech applications. In this work, we propose a novel CTC compressor based joint speech and text training (CJST) framework for decoder-only ASR. CJST matches speech and text modalities from both directions by exploring a simple modality adaptor and several features of the CTC compressor, including sequence compression, on-the-fly forced peaky alignment and CTC class embeddings. Experimental results on the Librispeech and TED-LIUM2 corpora show that the proposed CJST achieves an effective text injection without the need of duration handling, leading to the best performance for both in-domain and cross-domain scenarios. We also provide a comprehensive study on CTC compressor, covering various compression modes, edge case handling and behavior under both clean and noisy data conditions, which reveals the most robust setting to use CTC compressor for decoder-only models.

academic

CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR

Informazioni Fondamentali

ID Articolo: 2411.07607
Titolo: CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR
Autori: Wei Zhou, Junteng Jia, Leda Sari, Jay Mahadeokar, Ozlem Kalinli (Meta AI)
Classificazione: eess.AS cs.LG cs.SD
Data di Pubblicazione: Novembre 2024 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2411.07607

Riassunto

Il compressore CTC può fungere da metodo efficace per integrare codificatori audio in modelli solo-decoder, ottenendo crescente attenzione in diverse applicazioni di riconoscimento vocale. Questo articolo propone un innovativo framework di addestramento congiunto vocale-testuale (CJST) basato su compressore CTC per ASR solo-decoder. CJST realizza l'adattamento modale bidirezionale tra modalità vocale e testuale attraverso l'esplorazione di semplici adattatori modali e diverse caratteristiche del compressore CTC, inclusa la compressione di sequenza, l'allineamento di picco forzato online e l'incorporamento di classi CTC. I risultati sperimentali sui corpora Librispeech e TED-LIUM2 dimostrano che il CJST proposto realizza un'iniezione testuale efficace senza necessità di elaborazione della durata, raggiungendo prestazioni ottimali sia in scenari in-domain che cross-domain.

Contesto di Ricerca e Motivazione

Definizione del Problema

Con il grande successo dei modelli linguistici di grandi dimensioni (LLM), l'architettura solo-decoder è ampiamente applicata a varie applicazioni di riconoscimento vocale. Tuttavia, come integrare efficacemente le informazioni vocali nei modelli solo-decoder e come condurre l'addestramento congiunto vocale-testuale per migliorare le prestazioni dell'ASR rimane una questione impegnativa.

Motivazione della Ricerca

Sfida di Integrazione: L'integrazione efficace di incorporamenti acustici continui nei modelli solo-decoder richiede metodi di adattamento appropriati
Adattamento Modale: Le modalità vocale e testuale presentano differenze significative nella lunghezza della sequenza e nello spazio di rappresentazione, richiedendo meccanismi di allineamento efficaci
Iniezione Testuale: Nei modelli ASR a livello di produzione, come sfruttare efficacemente i dati testuali per migliorare le prestazioni senza utilizzare modelli linguistici esterni

Limitazioni dei Metodi Esistenti

Adattatori Semplici: I metodi tradizionali di riduzione temporale + proiezione lineare mancano di capacità di compressione consapevole del contenuto
Metodi RNN-T: I metodi di addestramento congiunto esistenti sono principalmente orientati ai modelli RNN-T, richiedendo complessa elaborazione della durata
Sensibilità del Compressore CTC: I metodi di compressore CTC esistenti mostrano prestazioni instabili su dati rumorosi

Contributi Fondamentali

Propone il Framework CJST: Un innovativo framework di addestramento congiunto vocale-testuale basato su compressore CTC che realizza l'adattamento modale bidirezionale
Estende il Compressore CTC: Uno studio completo di varie modalità di compressione del compressore CTC, gestione dei casi limite e comportamento su dati puliti/rumorosi
Senza Elaborazione della Durata: Realizza un'iniezione testuale efficace attraverso l'allineamento di picco forzato online e l'incorporamento di classi CTC, senza necessità di modellazione complessa della durata
Miglioramento delle Prestazioni: Raggiunge prestazioni ottimali in scenari sia in-domain che cross-domain, realizzando circa il 6% di miglioramento relativo rispetto alla baseline

Spiegazione Dettagliata del Metodo

Definizione del Compito

Questo articolo studia il compito di riconoscimento automatico del parlato per architetture solo-decoder, con input costituito da sequenze di caratteristiche vocali e output dalla trascrizione testuale corrispondente. Considera inoltre come sfruttare dati vocali-testuali accoppiati e dati testuali puri per l'addestramento congiunto.

Compressore CTC Esteso

Modalità di Compressione

L'articolo studia quattro modalità di compressione del compressore CTC:

Rimozione della Previsione di Vuoto: Basata sulla previsione CTC greedy, rimuove tutti i frame vuoti
Media della Previsione Identica: Calcola la media dei frame adiacenti con previsioni identiche
Rimozione della Probabilità di Vuoto: Rimuove tutti i frame con probabilità di vuoto superiore a una soglia predefinita
Modalità Combinata: Applica prima la rimozione della probabilità di vuoto, quindi la media della previsione identica

Gestione dei Casi Limite

Per affrontare il problema dei compressori CTC che producono output vuoti, vengono proposte due soluzioni:

Empty Skip: Salta questi utterance durante l'addestramento, output diretto EOS durante l'inferenza
Empty Fallback: Calcola la media di tutti gli output dell'encoder in un singolo frame, quindi procede normalmente con l'addestramento e l'inferenza

Condivisione di Incorporamento

Esplora il meccanismo di condivisione tra l'incorporamento di classi CTC e l'incorporamento testuale, facendo sì che l'output dell'encoder audio sia più vicino all'incorporamento testuale attraverso la funzione obiettivo CTC.

Framework CJST

Elaborazione dei Dati Accoppiati

Per i dati vocali-testuali accoppiati:

Conduce l'addestramento ASR regolare attraverso la propagazione in avanti del modello
Sfrutta l'incorporamento acustico compresso h' e le probabilità CTC per l'allineamento di picco forzato
Addestra l'adattatore modale attraverso la perdita MSE, allineando h' con lo pseudo-incorporamento acustico h'_text

Elaborazione dei Dati Testuali Puri

Per i dati testuali puri:

Inserisce casualmente simboli di vuoto basati sul rapporto di lunghezza registrato R_len(h', y)
Genera pseudo-incorporamenti acustici h'_text attraverso l'incorporamento CTC e l'adattatore modale
Addestra il modello decoder utilizzando la funzione obiettivo ASR
Applica mascheramento casuale del 20% a h'_text per mantenere la difficoltà di apprendimento

Adattatore Modale

Utilizza un semplice strato Conformer come adattatore modale, contenente una singola testata di attenzione, dimensione del kernel di convoluzione di 3, senza aumento della dimensionalità del modulo feedforward.

Configurazione Sperimentale

Dataset

Librispeech: 960 ore di dati vocali puliti
Dati Interni: 2M ore di dati con condizioni acustiche diverse, incluse perturbazioni di velocità, riverbero simulato e rumore di fondo casuale
Dati Testuali: Dati di addestramento LM da Librispeech e TED-LIUM2

Configurazione del Modello

Decoder: 12 strati di decoder LLaMA, dimensione nascosta 768, 12 teste di attenzione
Encoder Audio: 24 strati Conformer, dimensione nascosta 512, 8 teste di attenzione
Vocabolario: 4k unità SentencePiece per ciascun dataset

Strategia di Addestramento

Preaddestramento dell'encoder audio: 200k step
Addestramento del modello completo: 200k step per Librispeech, 500k step per dati interni
Pesi della perdita vocale e testuale nell'addestramento congiunto: entrambi 1.0
Peso della perdita CTC ausiliaria: 0.5

Metriche di Valutazione

Utilizza il Word Error Rate (WER) come metrica di valutazione principale, riportando le prestazioni sul set di test.

Risultati Sperimentali

Valutazione Completa del Compressore CTC

Risultati Librispeech (Tabella I)

Tutti i metodi di compressore CTC superano il metodo di adattatore semplice
La rimozione della probabilità di vuoto (soglia 0.95) mostra le migliori prestazioni: test-clean 2.17%, test-other 4.94%
La condivisione di incorporamento è utile in alcuni casi, ma non sufficientemente coerente

Risultati Dati Interni (Tabella II)

I metodi basati su previsione greedy mostrano prestazioni scadenti su dati rumorosi
La rimozione della probabilità di vuoto (soglia 0.95) è la più robusta: 12.85% WER
Lo schema empty fallback supera lo schema empty skip

Risultati dell'Addestramento Congiunto

Addestramento da Zero (Tabella III)

Risultati su Librispeech:

Adattatore baseline: test-clean 3.38%, test-other 5.63%
Iniezione testuale simile a LM: test-clean 2.54%, test-other 5.26%
CJST: test-clean 2.09%, test-other 4.71%

Addestramento Continuato (Tabella IV)

Utilizzo di dati testuali in-domain e cross-domain:

CJST raggiunge le migliori prestazioni in tutti gli scenari
Set di test cross-domain TED-LIUM2: da 11.45% a 10.14%
Realizza circa il 6% di miglioramento relativo rispetto alla baseline

Scoperte Chiave

La rimozione della probabilità di vuoto è la modalità di compressione più robusta
L'addestramento simile a LM è già piuttosto efficace, fornendo una baseline forte
CJST porta ulteriori miglioramenti in tutti gli scenari
Il compressore CTC è sensibile alla qualità dei dati, richiedendo una configurazione appropriata

Lavori Correlati

Modelli Vocali Solo-Decoder

I lavori iniziali utilizzano semplici adattatori per integrare encoder audio
La ricerca recente esplora metodi di token audio discreti
Questo articolo si concentra sul compito ASR con rappresentazioni continue

Compressore CTC

Inizialmente utilizzato per la traduzione vocale con meccanismi di attenzione
Esteso alla traduzione vocale con modelli solo-decoder
Questo articolo è il primo a studiare sistematicamente la sua applicazione in ASR

Addestramento Congiunto Vocale-Testuale

I metodi tradizionali sono principalmente orientati ai modelli RNN-T
Includono metodi come JOIST, textogram, MAESTRO e altri
Questo articolo propone per la prima volta una soluzione efficace per ASR solo-decoder

Conclusioni e Discussione

Conclusioni Principali

Il Framework CJST è Efficace: Realizza un'iniezione testuale efficace attraverso l'adattamento modale bidirezionale
La Configurazione del Compressore CTC è Critica: La rimozione della probabilità di vuoto (soglia elevata) è la più robusta
Senza Elaborazione della Durata: Evita la modellazione complessa della durata attraverso l'allineamento forzato e l'incorporamento CTC
Miglioramento Coerente: Raggiunge miglioramenti significativi sia in scenari in-domain che cross-domain

Limitazioni

Costo Computazionale: L'allineamento forzato online aumenta il costo computazionale durante l'addestramento
Dipendenza dai Dati: Le prestazioni del compressore CTC dipendono altamente dalla qualità dei dati
Sensibilità dei Parametri: Richiede un'attenta regolazione di iperparametri come la soglia di probabilità di vuoto
Portata di Valutazione: Principalmente valutato su dati in inglese, la generalizzazione multilingue è sconosciuta

Direzioni Future

Esplorare metodi di allineamento online più efficienti
Studiare le prestazioni in scenari multilingui e a basse risorse
Combinare metodi ibridi con token audio discreti
Ottimizzare la robustezza del compressore CTC

Valutazione Approfondita

Punti di Forza

Innovazione Metodologica: Primo utilizzo del compressore CTC per l'addestramento congiunto vocale-testuale in ASR solo-decoder
Studio Sistematico: Analisi sperimentale completa del compressore CTC
Valore Pratico: Senza elaborazione della durata, semplifica la complessità di implementazione
Esperimenti Sufficienti: Verifica l'efficacia del metodo su più dataset e scenari
Scrittura Chiara: Struttura dell'articolo chiara, dettagli tecnici descritti in modo esauriente

Insufficienze

Analisi Teorica Limitata: Manca un'analisi teorica approfondita del perché CJST sia efficace
Costo Computazionale: Non analizza in dettaglio il costo computazionale durante l'addestramento e l'inferenza
Sensibilità agli Iperparametri: Il metodo coinvolge molteplici iperparametri, la complessità di ottimizzazione è elevata
Limitazioni di Valutazione: Principalmente valutato su dati in inglese, manca verifica multilingue

Impatto

Contributo Accademico: Fornisce nuove prospettive per l'iniezione testuale in ASR solo-decoder
Valore Pratico: Il metodo è relativamente semplice, facile da distribuire in ambienti di produzione
Riproducibilità: Fornisce dettagli di implementazione dettagliati e impostazioni di iperparametri
Ispirazione: Fornisce intuizioni preziose per ulteriori ricerche sul compressore CTC

Scenari Applicabili

ASR a Livello di Produzione: Adatto a scenari dove non è possibile utilizzare modelli linguistici esterni
Adattamento Cross-Domain: Particolarmente adatto per applicazioni che richiedono rapido adattamento a nuovi domini
Risorse Limitate: Più efficiente rispetto a metodi di modellazione della durata complessa
Addestramento Congiunto: Adatto a scenari con grandi quantità di dati testuali ma dati vocali relativamente limitati

Riferimenti Bibliografici

L'articolo cita 32 lavori correlati, coprendo importanti lavori in più campi correlati inclusi modelli linguistici di grandi dimensioni, architetture solo-decoder, metodi CTC, riconoscimento vocale e addestramento congiunto, fornendo una solida base teorica per la ricerca.

Valutazione Complessiva: Questo è un articolo tecnico di alta qualità che propone l'innovativo framework CJST, risolvendo l'importante problema dell'addestramento congiunto vocale-testuale in ASR solo-decoder. La progettazione sperimentale dell'articolo è completa, i risultati sono convincenti e possiede importante valore accademico e pratico per il campo.