2025-11-15T20:37:12.035510

End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs

Luu, Bojar
Speech Translation (ST) is a machine translation task that involves converting speech signals from one language to the corresponding text in another language; this task has two different approaches, namely the traditional cascade and the more recent end-to-end. This paper explores a combined end-to-end architecture of pre-trained speech encoders and Large Language Models (LLMs) for performing both Automatic Speech Recognition (ASR) and ST simultaneously. Experiments with the English-to-German language pair show that our best model not only can achieve better translation results than SeamlessM4T, a large foundational end-to-end, multi-modal translation model, but can also match the performance of a cascaded system with Whisper and NLLB, with up to a score gain of 8% in $\text{COMET}^{\text{DA}}_{22}$ metric.
academic

Riconoscimento Automatico del Parlato End-to-End e Traduzione del Parlato: Integrazione di Modelli Fondamentali del Parlato e LLM

Informazioni Fondamentali

  • ID Articolo: 2510.10329
  • Titolo: End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs
  • Autori: Nam Luu, Ondřej Bojar (Charles University)
  • Classificazione: cs.CL
  • Data di Pubblicazione: 11 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.10329v1

Riassunto

La Traduzione del Parlato (ST) è un compito di traduzione automatica che comporta la conversione di segnali vocali da una lingua al testo corrispondente in un'altra lingua; questo compito ha due approcci diversi, vale a dire il tradizionale a cascata e il più recente end-to-end. Questo articolo esplora un'architettura end-to-end combinata di codificatori vocali pre-addestrati e Modelli di Linguaggio di Grandi Dimensioni (LLM) per eseguire simultaneamente sia il Riconoscimento Automatico del Parlato (ASR) che la ST. Gli esperimenti con la coppia linguistica inglese-tedesco mostrano che il nostro miglior modello non solo può ottenere risultati di traduzione migliori di SeamlessM4T, un grande modello di traduzione multimodale end-to-end fondamentale, ma può anche corrispondere alle prestazioni di un sistema a cascata con Whisper e NLLB, con un guadagno di punteggio fino all'8% nella metrica COMET22DA\text{COMET}^{\text{DA}}_{22}.

Contesto di Ricerca e Motivazione

Definizione del Problema

Questa ricerca mira a risolvere i problemi di efficienza e prestazioni nel compito di traduzione del parlato (Speech Translation, ST). La traduzione del parlato richiede la conversione diretta di segnali vocali da una lingua al testo in un'altra lingua, tradizionalmente utilizzando un approccio a cascata (ASR→MT) o un approccio end-to-end.

Importanza della Ricerca

  1. Semplificazione dell'Architettura: L'approccio end-to-end può evitare il passaggio intermedio di ASR, semplificando l'architettura complessiva del sistema
  2. Propagazione degli Errori: I sistemi a cascata soffrono del problema della propagazione degli errori, dove gli errori nella fase ASR influenzano la qualità della traduzione successiva
  3. Potenziale degli LLM: I grandi modelli di linguaggio hanno dimostrato forti capacità nei compiti di linguaggio naturale, ma la loro applicazione nei compiti multimodali richiede ancora esplorazione

Limitazioni dei Metodi Esistenti

  1. Scarsità di Dati: I dati di addestramento paralleli per la traduzione del parlato sono relativamente scarsi, in particolare per le lingue a basse risorse
  2. Efficienza del Modello: I modelli end-to-end esistenti affrontano sfide in termini di velocità di inferenza e dimensione del modello
  3. Divario di Prestazioni: I modelli end-to-end in alcuni casi faticano ancora a eguagliare le prestazioni dei sistemi a cascata

Motivazione della Ricerca

Combinare le capacità di rappresentazione audio di alta qualità dei codificatori vocali pre-addestrati con le forti capacità di elaborazione del linguaggio degli LLM per costruire un'architettura end-to-end in grado di eseguire simultaneamente i compiti di ASR e ST.

Contributi Principali

  1. Propone un'architettura end-to-end che integra modelli fondamentali del parlato e LLM, in grado di eseguire simultaneamente il riconoscimento automatico del parlato e la traduzione del parlato
  2. Progetta meccanismi efficaci di adattamento modale, inclusi due adattatori di lunghezza: CTC folding e sottocampionamento convoluzionale
  3. Raggiunge prestazioni di traduzione superiori a SeamlessM4T sulla coppia linguistica inglese-tedesco, avvicinandosi alle prestazioni del sistema a cascata Whisper+NLLB
  4. Fornisce un'analisi sperimentale dettagliata, confrontando gli effetti di diverse combinazioni di LLM e codificatori vocali

Spiegazione Dettagliata del Metodo

Definizione del Compito

  • Input: Segnale vocale nella lingua di origine
  • Output: Genera simultaneamente il testo trascritto della lingua di origine e il testo tradotto della lingua di destinazione
  • Vincoli: Addestramento end-to-end senza segnali di supervisione intermedi

Architettura del Modello

L'architettura complessiva contiene tre componenti principali:

1. Codificatore Vocale (Speech Encoder)

  • HuBERT: Utilizza la variante hubert-large-ls960-ft, addestrata su 60.000 ore di dati LibriLight e messa a punto su 960 ore di dati LibriSpeech
  • Codificatore Whisper: Utilizza la parte codificatore di whisper-large-v3-turbo per estrarre caratteristiche nascoste audio

2. Adattatore di Lunghezza (Length Adapter)

Poiché la sequenza di caratteristiche vocali potrebbe superare la lunghezza massima supportata dall'LLM, è necessaria la compressione:

  • CTC Folding (per HuBERT):
    • Utilizza le etichette previste dal livello CTC
    • Esegue la media e la fusione dei vettori corrispondenti alle etichette ripetute
    • Comprime efficacemente la lunghezza della sequenza mantenendo le informazioni semantiche
  • Sottocampionamento Convoluzionale (per Whisper):
    • Utilizza uno strato convoluzionale con kernel size=5, stride=5
    • Esegue direttamente il sottocampionamento 5x della sequenza di caratteristiche

3. Livello di Proiezione (Projection Layer)

  • Rete feedforward a strato singolo
  • Mappa la dimensione nascosta del codificatore vocale alla dimensione di embedding dell'LLM
  • Garantisce che le rappresentazioni vocali si integrino efficacemente nello spazio di embedding dell'LLM

4. Modelli di Linguaggio di Grandi Dimensioni (LLMs)

Sono stati sperimentati quattro diversi LLM pre-addestrati:

  • Gemma 7B (gemma-7b)
  • Gemma 2 9B (gemma-2-9b)
  • Llama 2 7B (Llama-2-7b-hf)
  • Mistral 7B v0.1 (Mistral-7B-v0.1)

Punti di Innovazione Tecnica

  1. Framework di Apprendimento Multi-Compito Unificato: Implementa l'addestramento e l'inferenza simultanei di ASR e ST attraverso token separatori speciali
  2. Strategie di Adattamento Modale: Progetta metodi di compressione di lunghezza specializzati per diversi codificatori vocali
  3. Messa a Punto Efficiente: Utilizza la tecnica QLoRA (Quantized Low-Rank Adaptation) per la messa a punto parametricamente efficiente

Strategia di Addestramento

Formato dei Dati

<bos> <>audio<> {audio features} <>transcript<> {transcript} <>translation<> {translation} <eos>

Calcolo della Perdita

  • La perdita di entropia incrociata viene calcolata solo per i token dopo <>transcript<>
  • Utilizza l'addestramento con predizione del token successivo

Formato di Inferenza

<bos> <>audio<> {audio features} <>transcript<>

Il modello genera autoregressivamente il testo trascritto e tradotto.

Configurazione Sperimentale

Dataset

  • Dati di Addestramento: Sottoinsieme inglese-tedesco di MuST-C v1.0, circa 400 ore di dati audio
  • Dati di Test:
    • MuST-C tst-COMMON v2.0 e v3.0
    • Set di test offline track IWSLT'21 e '22
    • LibriSpeech test-clean e test-other (per la valutazione ASR)

Metriche di Valutazione

  • Traduzione del Parlato: BLEU, COMET22DA^{DA}_{22}, COMET22KIWIDA^{KIWI-DA}_{22}
  • Riconoscimento del Parlato: WER (Word Error Rate)

Metodi di Confronto

  • Sistema a Cascata: Whisper (whisper-large-v3-turbo) + NLLB (nllb-200-3.3B)
  • Baseline End-to-End: SeamlessM4T (seamless-m4t-v2-large)

Dettagli di Implementazione

  • Metodo di Messa a Punto: QLoRA 4-bit, precisione bfloat16
  • Parametri LoRA: rank=8, alpha=8
  • Dimensione del Batch: 1 per modelli HuBERT, 2 per modelli Whisper
  • Ottimizzatore: AdamW, tasso di apprendimento 1e-4, scheduler coseno
  • Passi di Addestramento: 500.000 passi per modelli HuBERT, 100.000 passi per modelli Whisper

Risultati Sperimentali

Risultati Principali

Prestazioni ASR (WER %)

ModelloMuST-C v2MuST-C v3IWSLT'22LibriSpeech cleanLibriSpeech other
Whisper6.77.711.84.17.2
Whisper enc. + Gemma 2 9B8.28.122.68.013.7
HuBERT + Gemma 2 9B11.112.521.98.413.1

Prestazioni di Traduzione del Parlato (Punteggio BLEU)

ModelloMuST-C v2MuST-C v3IWSLT'21IWSLT'22
Whisper + NLLB39.84/31.0640.30/31.6043.84/-41.86/30.48
SeamlessM4T32.62/22.9833.36/23.5935.97/-34.08/22.68
Whisper enc. + Gemma 2 9B41.33/31.9841.16/31.7240.76/-39.64/29.18

Prestazioni COMET

Il miglior modello (Whisper enc. + Gemma 2 9B) sulla metrica COMET22DA^{DA}_{22}:

  • MuST-C v2: 84.22 (vs 83.00 sistema a cascata)
  • MuST-C v3: 83.65 (vs 82.49 sistema a cascata)
  • Miglioramento di circa l'8% rispetto a SeamlessM4T

Risultati degli Esperimenti di Ablazione

  1. Scelta dell'LLM: Gemma 2 9B ha mostrato le migliori prestazioni in tutti i test
  2. Confronto dei Codificatori: Il codificatore Whisper è generalmente superiore a HuBERT
  3. Effetto dell'Adattatore: Sia CTC folding che il sottocampionamento convoluzionale comprimono efficacemente la lunghezza della sequenza

Scoperte Sperimentali

  1. End-to-End vs Cascata: Il miglior modello end-to-end può avvicinarsi o addirittura superare le prestazioni del sistema a cascata
  2. Dimensione del Modello: LLM più grandi (Gemma 2 9B) portano a prestazioni migliori
  3. Rappresentazione Vocale: La qualità dei codificatori vocali pre-addestrati influenza direttamente le prestazioni finali

Lavori Correlati

Direzioni di Ricerca sulla Traduzione del Parlato

  1. Metodo a Cascata: Pipeline tradizionale ASR+MT, ancora il principale approccio attuale
  2. Metodo End-to-End: Conversione diretta da parlato a testo nella lingua di destinazione, evitando rappresentazioni intermedie
  3. LLM Multimodali: Ricerca recente sull'estensione degli LLM ad altre modalità come il parlato

Vantaggi di Questo Articolo Rispetto ai Lavori Correlati

  1. Framework Unificato: Gestisce simultaneamente i compiti ASR e ST, piuttosto che l'ottimizzazione di un singolo compito
  2. Progettazione Modulare: Può sostituire flessibilmente diversi codificatori vocali e componenti LLM
  3. Praticità: Fornisce una soluzione end-to-end mantenendo prestazioni competitive

Conclusioni e Discussione

Conclusioni Principali

  1. L'architettura end-to-end che integra codificatori vocali pre-addestrati e LLM ha raggiunto prestazioni competitive nel compito di traduzione del parlato inglese-tedesco
  2. Il miglior modello non solo supera SeamlessM4T, ma si avvicina anche alle prestazioni del sistema a cascata Whisper+NLLB
  3. Il modello è in grado di eseguire simultaneamente i compiti ASR e ST, fornendo una soluzione unificata

Limitazioni

  1. Limitazioni dei Dati: Verificato solo su coppie linguistiche ad alte risorse inglese-tedesco, l'effetto su lingue a basse risorse è sconosciuto
  2. Efficienza Computazionale: Rispetto ai modelli baseline, la velocità di inferenza è più lenta e la dimensione del modello è più grande
  3. Prestazioni ASR: Nel compito di riconoscimento del parlato rimane ancora indietro rispetto al modello specializzato Whisper
  4. Dati di Addestramento: Il dataset MuST-C è relativamente piccolo (400 ore), il che potrebbe limitare il potenziale del modello

Direzioni Future

  1. Estensione delle Coppie Linguistiche: Verificare l'effetto su più direzioni linguistiche
  2. Compressione del Modello: Ridurre la dimensione del modello attraverso tecniche come la distillazione della conoscenza
  3. Miglioramento dell'Adattatore: Provare metodi di adattamento modale più avanzati come Q-Former
  4. Apprendimento per Rinforzo: Integrare tecniche RL per ottimizzare ulteriormente le prestazioni

Valutazione Approfondita

Punti di Forza

  1. Architettura Innovativa: Combina efficacemente i vantaggi dei modelli fondamentali del parlato e degli LLM
  2. Esperimenti Completi: Confronto sistematico di varie combinazioni di codificatori e LLM
  3. Valore Pratico: Fornisce una soluzione unificata end-to-end
  4. Dettagli Tecnici: Descrive in dettaglio i meccanismi di adattamento modale e le strategie di addestramento
  5. Apertura: Utilizza modelli open-source, facilitando la riproduzione

Carenze

  1. Copertura Linguistica: Verificato solo su una singola coppia linguistica inglese-tedesco, generalizzabilità limitata
  2. Costo Computazionale: Non analizza in dettaglio il costo computazionale dell'addestramento e dell'inferenza
  3. Analisi degli Errori: Manca un'analisi approfondita dei casi di fallimento del modello
  4. Analisi Teorica: Manca una spiegazione teorica del perché questa architettura sia efficace
  5. Sensibilità ai Dati: Analisi insufficiente della sensibilità del modello alla dimensione dei dati di addestramento

Impatto

  1. Contributo Accademico: Fornisce una nuova soluzione end-to-end per il campo della traduzione del parlato
  2. Valore Pratico: Applicabile a sistemi pratici di elaborazione del parlato multilingue
  3. Riproducibilità: Utilizza componenti open-source, facilitando la ricerca successiva
  4. Ispirazione: Fornisce un'esplorazione preziosa per l'applicazione di LLM multimodali

Scenari Applicabili

  1. Conferenze Multilingui: Traduzione e trascrizione vocale in tempo reale
  2. Piattaforme Educative: Sottotitoli automatici e traduzione per corsi online multilingui
  3. Servizio Clienti: Sistemi di interazione vocale cross-linguistica
  4. Elaborazione Multimediale: Trascrizione e traduzione automatica di contenuti audio

Riferimenti Bibliografici

L'articolo cita importanti lavori nei campi della traduzione del parlato, dei modelli di linguaggio di grandi dimensioni e dell'apprendimento multimodale, inclusi:

  • Whisper (Radford et al., 2022): Modello fondamentale robusto per il riconoscimento del parlato
  • SeamlessM4T (Communication et al., 2023): Baseline del modello di traduzione multimodale
  • MuST-C (Cattoni et al., 2021): Dataset standard per la traduzione del parlato
  • QLoRA (Dettmers et al., 2023): Tecnica di messa a punto parametricamente efficiente

Questo articolo propone una soluzione end-to-end promettente nel campo della traduzione del parlato. Sebbene vi siano ancora spazi per miglioramenti in alcuni aspetti, fornisce un'esplorazione e risultati empirici preziosi per l'applicazione di LLM multimodali.