End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs
Luu, Bojar
Speech Translation (ST) is a machine translation task that involves converting speech signals from one language to the corresponding text in another language; this task has two different approaches, namely the traditional cascade and the more recent end-to-end. This paper explores a combined end-to-end architecture of pre-trained speech encoders and Large Language Models (LLMs) for performing both Automatic Speech Recognition (ASR) and ST simultaneously. Experiments with the English-to-German language pair show that our best model not only can achieve better translation results than SeamlessM4T, a large foundational end-to-end, multi-modal translation model, but can also match the performance of a cascaded system with Whisper and NLLB, with up to a score gain of 8% in $\text{COMET}^{\text{DA}}_{22}$ metric.
academic
Riconoscimento Automatico del Parlato End-to-End e Traduzione del Parlato: Integrazione di Modelli Fondamentali del Parlato e LLM
La Traduzione del Parlato (ST) è un compito di traduzione automatica che comporta la conversione di segnali vocali da una lingua al testo corrispondente in un'altra lingua; questo compito ha due approcci diversi, vale a dire il tradizionale a cascata e il più recente end-to-end. Questo articolo esplora un'architettura end-to-end combinata di codificatori vocali pre-addestrati e Modelli di Linguaggio di Grandi Dimensioni (LLM) per eseguire simultaneamente sia il Riconoscimento Automatico del Parlato (ASR) che la ST. Gli esperimenti con la coppia linguistica inglese-tedesco mostrano che il nostro miglior modello non solo può ottenere risultati di traduzione migliori di SeamlessM4T, un grande modello di traduzione multimodale end-to-end fondamentale, ma può anche corrispondere alle prestazioni di un sistema a cascata con Whisper e NLLB, con un guadagno di punteggio fino all'8% nella metrica COMET22DA.
Questa ricerca mira a risolvere i problemi di efficienza e prestazioni nel compito di traduzione del parlato (Speech Translation, ST). La traduzione del parlato richiede la conversione diretta di segnali vocali da una lingua al testo in un'altra lingua, tradizionalmente utilizzando un approccio a cascata (ASR→MT) o un approccio end-to-end.
Semplificazione dell'Architettura: L'approccio end-to-end può evitare il passaggio intermedio di ASR, semplificando l'architettura complessiva del sistema
Propagazione degli Errori: I sistemi a cascata soffrono del problema della propagazione degli errori, dove gli errori nella fase ASR influenzano la qualità della traduzione successiva
Potenziale degli LLM: I grandi modelli di linguaggio hanno dimostrato forti capacità nei compiti di linguaggio naturale, ma la loro applicazione nei compiti multimodali richiede ancora esplorazione
Scarsità di Dati: I dati di addestramento paralleli per la traduzione del parlato sono relativamente scarsi, in particolare per le lingue a basse risorse
Efficienza del Modello: I modelli end-to-end esistenti affrontano sfide in termini di velocità di inferenza e dimensione del modello
Divario di Prestazioni: I modelli end-to-end in alcuni casi faticano ancora a eguagliare le prestazioni dei sistemi a cascata
Combinare le capacità di rappresentazione audio di alta qualità dei codificatori vocali pre-addestrati con le forti capacità di elaborazione del linguaggio degli LLM per costruire un'architettura end-to-end in grado di eseguire simultaneamente i compiti di ASR e ST.
Propone un'architettura end-to-end che integra modelli fondamentali del parlato e LLM, in grado di eseguire simultaneamente il riconoscimento automatico del parlato e la traduzione del parlato
Progetta meccanismi efficaci di adattamento modale, inclusi due adattatori di lunghezza: CTC folding e sottocampionamento convoluzionale
Raggiunge prestazioni di traduzione superiori a SeamlessM4T sulla coppia linguistica inglese-tedesco, avvicinandosi alle prestazioni del sistema a cascata Whisper+NLLB
Fornisce un'analisi sperimentale dettagliata, confrontando gli effetti di diverse combinazioni di LLM e codificatori vocali
Framework di Apprendimento Multi-Compito Unificato: Implementa l'addestramento e l'inferenza simultanei di ASR e ST attraverso token separatori speciali
Strategie di Adattamento Modale: Progetta metodi di compressione di lunghezza specializzati per diversi codificatori vocali
Messa a Punto Efficiente: Utilizza la tecnica QLoRA (Quantized Low-Rank Adaptation) per la messa a punto parametricamente efficiente
L'architettura end-to-end che integra codificatori vocali pre-addestrati e LLM ha raggiunto prestazioni competitive nel compito di traduzione del parlato inglese-tedesco
Il miglior modello non solo supera SeamlessM4T, ma si avvicina anche alle prestazioni del sistema a cascata Whisper+NLLB
Il modello è in grado di eseguire simultaneamente i compiti ASR e ST, fornendo una soluzione unificata
L'articolo cita importanti lavori nei campi della traduzione del parlato, dei modelli di linguaggio di grandi dimensioni e dell'apprendimento multimodale, inclusi:
Whisper (Radford et al., 2022): Modello fondamentale robusto per il riconoscimento del parlato
SeamlessM4T (Communication et al., 2023): Baseline del modello di traduzione multimodale
MuST-C (Cattoni et al., 2021): Dataset standard per la traduzione del parlato
QLoRA (Dettmers et al., 2023): Tecnica di messa a punto parametricamente efficiente
Questo articolo propone una soluzione end-to-end promettente nel campo della traduzione del parlato. Sebbene vi siano ancora spazi per miglioramenti in alcuni aspetti, fornisce un'esplorazione e risultati empirici preziosi per l'applicazione di LLM multimodali.