2025-11-15T20:37:12.035510

End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs

Luu, Bojar

Speech Translation (ST) is a machine translation task that involves converting speech signals from one language to the corresponding text in another language; this task has two different approaches, namely the traditional cascade and the more recent end-to-end. This paper explores a combined end-to-end architecture of pre-trained speech encoders and Large Language Models (LLMs) for performing both Automatic Speech Recognition (ASR) and ST simultaneously. Experiments with the English-to-German language pair show that our best model not only can achieve better translation results than SeamlessM4T, a large foundational end-to-end, multi-modal translation model, but can also match the performance of a cascaded system with Whisper and NLLB, with up to a score gain of 8% in $\text{COMET}^{\text{DA}}_{22}$ metric.

academic

Riconoscimento Automatico del Parlato End-to-End e Traduzione del Parlato: Integrazione di Modelli Fondamentali del Parlato e LLM

Informazioni Fondamentali

ID Articolo: 2510.10329
Titolo: End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs
Autori: Nam Luu, Ondřej Bojar (Charles University)
Classificazione: cs.CL
Data di Pubblicazione: 11 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.10329v1

Riassunto

La Traduzione del Parlato (ST) è un compito di traduzione automatica che comporta la conversione di segnali vocali da una lingua al testo corrispondente in un'altra lingua; questo compito ha due approcci diversi, vale a dire il tradizionale a cascata e il più recente end-to-end. Questo articolo esplora un'architettura end-to-end combinata di codificatori vocali pre-addestrati e Modelli di Linguaggio di Grandi Dimensioni (LLM) per eseguire simultaneamente sia il Riconoscimento Automatico del Parlato (ASR) che la ST. Gli esperimenti con la coppia linguistica inglese-tedesco mostrano che il nostro miglior modello non solo può ottenere risultati di traduzione migliori di SeamlessM4T, un grande modello di traduzione multimodale end-to-end fondamentale, ma può anche corrispondere alle prestazioni di un sistema a cascata con Whisper e NLLB, con un guadagno di punteggio fino all'8% nella metrica $\text{COMET}^{\text{DA}}_{22}$ .

Contesto di Ricerca e Motivazione

Definizione del Problema

Questa ricerca mira a risolvere i problemi di efficienza e prestazioni nel compito di traduzione del parlato (Speech Translation, ST). La traduzione del parlato richiede la conversione diretta di segnali vocali da una lingua al testo in un'altra lingua, tradizionalmente utilizzando un approccio a cascata (ASR→MT) o un approccio end-to-end.

Importanza della Ricerca

Semplificazione dell'Architettura: L'approccio end-to-end può evitare il passaggio intermedio di ASR, semplificando l'architettura complessiva del sistema
Propagazione degli Errori: I sistemi a cascata soffrono del problema della propagazione degli errori, dove gli errori nella fase ASR influenzano la qualità della traduzione successiva
Potenziale degli LLM: I grandi modelli di linguaggio hanno dimostrato forti capacità nei compiti di linguaggio naturale, ma la loro applicazione nei compiti multimodali richiede ancora esplorazione

Limitazioni dei Metodi Esistenti

Scarsità di Dati: I dati di addestramento paralleli per la traduzione del parlato sono relativamente scarsi, in particolare per le lingue a basse risorse
Efficienza del Modello: I modelli end-to-end esistenti affrontano sfide in termini di velocità di inferenza e dimensione del modello
Divario di Prestazioni: I modelli end-to-end in alcuni casi faticano ancora a eguagliare le prestazioni dei sistemi a cascata

Motivazione della Ricerca

Combinare le capacità di rappresentazione audio di alta qualità dei codificatori vocali pre-addestrati con le forti capacità di elaborazione del linguaggio degli LLM per costruire un'architettura end-to-end in grado di eseguire simultaneamente i compiti di ASR e ST.

Contributi Principali

Propone un'architettura end-to-end che integra modelli fondamentali del parlato e LLM, in grado di eseguire simultaneamente il riconoscimento automatico del parlato e la traduzione del parlato
Progetta meccanismi efficaci di adattamento modale, inclusi due adattatori di lunghezza: CTC folding e sottocampionamento convoluzionale
Raggiunge prestazioni di traduzione superiori a SeamlessM4T sulla coppia linguistica inglese-tedesco, avvicinandosi alle prestazioni del sistema a cascata Whisper+NLLB
Fornisce un'analisi sperimentale dettagliata, confrontando gli effetti di diverse combinazioni di LLM e codificatori vocali

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Segnale vocale nella lingua di origine
Output: Genera simultaneamente il testo trascritto della lingua di origine e il testo tradotto della lingua di destinazione
Vincoli: Addestramento end-to-end senza segnali di supervisione intermedi

Architettura del Modello

L'architettura complessiva contiene tre componenti principali:

1. Codificatore Vocale (Speech Encoder)

HuBERT: Utilizza la variante hubert-large-ls960-ft, addestrata su 60.000 ore di dati LibriLight e messa a punto su 960 ore di dati LibriSpeech
Codificatore Whisper: Utilizza la parte codificatore di whisper-large-v3-turbo per estrarre caratteristiche nascoste audio

2. Adattatore di Lunghezza (Length Adapter)

Poiché la sequenza di caratteristiche vocali potrebbe superare la lunghezza massima supportata dall'LLM, è necessaria la compressione:

CTC Folding (per HuBERT):
- Utilizza le etichette previste dal livello CTC
- Esegue la media e la fusione dei vettori corrispondenti alle etichette ripetute
- Comprime efficacemente la lunghezza della sequenza mantenendo le informazioni semantiche
Sottocampionamento Convoluzionale (per Whisper):
- Utilizza uno strato convoluzionale con kernel size=5, stride=5
- Esegue direttamente il sottocampionamento 5x della sequenza di caratteristiche

3. Livello di Proiezione (Projection Layer)

Rete feedforward a strato singolo
Mappa la dimensione nascosta del codificatore vocale alla dimensione di embedding dell'LLM
Garantisce che le rappresentazioni vocali si integrino efficacemente nello spazio di embedding dell'LLM

4. Modelli di Linguaggio di Grandi Dimensioni (LLMs)

Sono stati sperimentati quattro diversi LLM pre-addestrati:

Gemma 7B (gemma-7b)
Gemma 2 9B (gemma-2-9b)
Llama 2 7B (Llama-2-7b-hf)
Mistral 7B v0.1 (Mistral-7B-v0.1)

Punti di Innovazione Tecnica

Framework di Apprendimento Multi-Compito Unificato: Implementa l'addestramento e l'inferenza simultanei di ASR e ST attraverso token separatori speciali
Strategie di Adattamento Modale: Progetta metodi di compressione di lunghezza specializzati per diversi codificatori vocali
Messa a Punto Efficiente: Utilizza la tecnica QLoRA (Quantized Low-Rank Adaptation) per la messa a punto parametricamente efficiente

Strategia di Addestramento

Formato dei Dati

<bos> <>audio<> {audio features} <>transcript<> {transcript} <>translation<> {translation} <eos>

Calcolo della Perdita

La perdita di entropia incrociata viene calcolata solo per i token dopo <>transcript<>
Utilizza l'addestramento con predizione del token successivo

Formato di Inferenza

<bos> <>audio<> {audio features} <>transcript<>

Il modello genera autoregressivamente il testo trascritto e tradotto.

Configurazione Sperimentale

Dataset

Dati di Addestramento: Sottoinsieme inglese-tedesco di MuST-C v1.0, circa 400 ore di dati audio
Dati di Test:
- MuST-C tst-COMMON v2.0 e v3.0
- Set di test offline track IWSLT'21 e '22
- LibriSpeech test-clean e test-other (per la valutazione ASR)

Metriche di Valutazione

Traduzione del Parlato: BLEU, COMET $^{DA}_{22}$ , COMET $^{KIWI-DA}_{22}$
Riconoscimento del Parlato: WER (Word Error Rate)

Metodi di Confronto

Sistema a Cascata: Whisper (whisper-large-v3-turbo) + NLLB (nllb-200-3.3B)
Baseline End-to-End: SeamlessM4T (seamless-m4t-v2-large)

Dettagli di Implementazione

Metodo di Messa a Punto: QLoRA 4-bit, precisione bfloat16
Parametri LoRA: rank=8, alpha=8
Dimensione del Batch: 1 per modelli HuBERT, 2 per modelli Whisper
Ottimizzatore: AdamW, tasso di apprendimento 1e-4, scheduler coseno
Passi di Addestramento: 500.000 passi per modelli HuBERT, 100.000 passi per modelli Whisper

Risultati Sperimentali

Risultati Principali

Prestazioni ASR (WER %)

Modello	MuST-C v2	MuST-C v3	IWSLT'22	LibriSpeech clean	LibriSpeech other
Whisper	6.7	7.7	11.8	4.1	7.2
Whisper enc. + Gemma 2 9B	8.2	8.1	22.6	8.0	13.7
HuBERT + Gemma 2 9B	11.1	12.5	21.9	8.4	13.1

Prestazioni di Traduzione del Parlato (Punteggio BLEU)

Modello	MuST-C v2	MuST-C v3	IWSLT'21	IWSLT'22
Whisper + NLLB	39.84/31.06	40.30/31.60	43.84/-	41.86/30.48
SeamlessM4T	32.62/22.98	33.36/23.59	35.97/-	34.08/22.68
Whisper enc. + Gemma 2 9B	41.33/31.98	41.16/31.72	40.76/-	39.64/29.18

Prestazioni COMET

Il miglior modello (Whisper enc. + Gemma 2 9B) sulla metrica COMET $^{DA}_{22}$ :

MuST-C v2: 84.22 (vs 83.00 sistema a cascata)
MuST-C v3: 83.65 (vs 82.49 sistema a cascata)
Miglioramento di circa l'8% rispetto a SeamlessM4T

Risultati degli Esperimenti di Ablazione

Scelta dell'LLM: Gemma 2 9B ha mostrato le migliori prestazioni in tutti i test
Confronto dei Codificatori: Il codificatore Whisper è generalmente superiore a HuBERT
Effetto dell'Adattatore: Sia CTC folding che il sottocampionamento convoluzionale comprimono efficacemente la lunghezza della sequenza

Scoperte Sperimentali

End-to-End vs Cascata: Il miglior modello end-to-end può avvicinarsi o addirittura superare le prestazioni del sistema a cascata
Dimensione del Modello: LLM più grandi (Gemma 2 9B) portano a prestazioni migliori
Rappresentazione Vocale: La qualità dei codificatori vocali pre-addestrati influenza direttamente le prestazioni finali

Lavori Correlati

Direzioni di Ricerca sulla Traduzione del Parlato

Metodo a Cascata: Pipeline tradizionale ASR+MT, ancora il principale approccio attuale
Metodo End-to-End: Conversione diretta da parlato a testo nella lingua di destinazione, evitando rappresentazioni intermedie
LLM Multimodali: Ricerca recente sull'estensione degli LLM ad altre modalità come il parlato

Vantaggi di Questo Articolo Rispetto ai Lavori Correlati

Framework Unificato: Gestisce simultaneamente i compiti ASR e ST, piuttosto che l'ottimizzazione di un singolo compito
Progettazione Modulare: Può sostituire flessibilmente diversi codificatori vocali e componenti LLM
Praticità: Fornisce una soluzione end-to-end mantenendo prestazioni competitive

Conclusioni e Discussione

Conclusioni Principali

L'architettura end-to-end che integra codificatori vocali pre-addestrati e LLM ha raggiunto prestazioni competitive nel compito di traduzione del parlato inglese-tedesco
Il miglior modello non solo supera SeamlessM4T, ma si avvicina anche alle prestazioni del sistema a cascata Whisper+NLLB
Il modello è in grado di eseguire simultaneamente i compiti ASR e ST, fornendo una soluzione unificata

Limitazioni

Limitazioni dei Dati: Verificato solo su coppie linguistiche ad alte risorse inglese-tedesco, l'effetto su lingue a basse risorse è sconosciuto
Efficienza Computazionale: Rispetto ai modelli baseline, la velocità di inferenza è più lenta e la dimensione del modello è più grande
Prestazioni ASR: Nel compito di riconoscimento del parlato rimane ancora indietro rispetto al modello specializzato Whisper
Dati di Addestramento: Il dataset MuST-C è relativamente piccolo (400 ore), il che potrebbe limitare il potenziale del modello

Direzioni Future

Estensione delle Coppie Linguistiche: Verificare l'effetto su più direzioni linguistiche
Compressione del Modello: Ridurre la dimensione del modello attraverso tecniche come la distillazione della conoscenza
Miglioramento dell'Adattatore: Provare metodi di adattamento modale più avanzati come Q-Former
Apprendimento per Rinforzo: Integrare tecniche RL per ottimizzare ulteriormente le prestazioni

Valutazione Approfondita

Punti di Forza

Architettura Innovativa: Combina efficacemente i vantaggi dei modelli fondamentali del parlato e degli LLM
Esperimenti Completi: Confronto sistematico di varie combinazioni di codificatori e LLM
Valore Pratico: Fornisce una soluzione unificata end-to-end
Dettagli Tecnici: Descrive in dettaglio i meccanismi di adattamento modale e le strategie di addestramento
Apertura: Utilizza modelli open-source, facilitando la riproduzione

Carenze

Copertura Linguistica: Verificato solo su una singola coppia linguistica inglese-tedesco, generalizzabilità limitata
Costo Computazionale: Non analizza in dettaglio il costo computazionale dell'addestramento e dell'inferenza
Analisi degli Errori: Manca un'analisi approfondita dei casi di fallimento del modello
Analisi Teorica: Manca una spiegazione teorica del perché questa architettura sia efficace
Sensibilità ai Dati: Analisi insufficiente della sensibilità del modello alla dimensione dei dati di addestramento

Impatto

Contributo Accademico: Fornisce una nuova soluzione end-to-end per il campo della traduzione del parlato
Valore Pratico: Applicabile a sistemi pratici di elaborazione del parlato multilingue
Riproducibilità: Utilizza componenti open-source, facilitando la ricerca successiva
Ispirazione: Fornisce un'esplorazione preziosa per l'applicazione di LLM multimodali

Scenari Applicabili

Conferenze Multilingui: Traduzione e trascrizione vocale in tempo reale
Piattaforme Educative: Sottotitoli automatici e traduzione per corsi online multilingui
Servizio Clienti: Sistemi di interazione vocale cross-linguistica
Elaborazione Multimediale: Trascrizione e traduzione automatica di contenuti audio

Riferimenti Bibliografici

L'articolo cita importanti lavori nei campi della traduzione del parlato, dei modelli di linguaggio di grandi dimensioni e dell'apprendimento multimodale, inclusi:

Whisper (Radford et al., 2022): Modello fondamentale robusto per il riconoscimento del parlato
SeamlessM4T (Communication et al., 2023): Baseline del modello di traduzione multimodale
MuST-C (Cattoni et al., 2021): Dataset standard per la traduzione del parlato
QLoRA (Dettmers et al., 2023): Tecnica di messa a punto parametricamente efficiente

Questo articolo propone una soluzione end-to-end promettente nel campo della traduzione del parlato. Sebbene vi siano ancora spazi per miglioramenti in alcuni aspetti, fornisce un'esplorazione e risultati empirici preziosi per l'applicazione di LLM multimodali.