2025-11-15T20:37:12.035510

End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs

Luu, Bojar

Speech Translation (ST) is a machine translation task that involves converting speech signals from one language to the corresponding text in another language; this task has two different approaches, namely the traditional cascade and the more recent end-to-end. This paper explores a combined end-to-end architecture of pre-trained speech encoders and Large Language Models (LLMs) for performing both Automatic Speech Recognition (ASR) and ST simultaneously. Experiments with the English-to-German language pair show that our best model not only can achieve better translation results than SeamlessM4T, a large foundational end-to-end, multi-modal translation model, but can also match the performance of a cascaded system with Whisper and NLLB, with up to a score gain of 8% in $\text{COMET}^{\text{DA}}_{22}$ metric.

academic

Reconnaissance Automatique de la Parole et Traduction Vocale de Bout en Bout : Intégration de Modèles Fondamentaux Vocaux et de Modèles de Langage de Grande Taille

Informations Fondamentales

ID de l'article: 2510.10329
Titre: End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs
Auteurs: Nam Luu, Ondřej Bojar (Université Charles)
Classification: cs.CL
Date de publication: 11 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.10329v1

Résumé

La traduction vocale (ST) est une tâche de traduction automatique qui consiste à convertir des signaux vocaux d'une langue en texte correspondant dans une autre langue ; cette tâche présente deux approches différentes, à savoir la cascade traditionnelle et l'approche plus récente de bout en bout. Cet article explore une architecture combinée de bout en bout composée d'encodeurs vocaux pré-entraînés et de modèles de langage de grande taille (LLM) pour effectuer simultanément la reconnaissance automatique de la parole (ASR) et la traduction vocale. Les expériences avec la paire de langues anglais-allemand montrent que notre meilleur modèle non seulement peut obtenir de meilleurs résultats de traduction que SeamlessM4T, un grand modèle de traduction multimodal de bout en bout, mais peut également égaler les performances d'un système en cascade avec Whisper et NLLB, avec un gain de score pouvant atteindre 8% selon la métrique $\text{COMET}^{\text{DA}}_{22}$ .

Contexte et Motivation de la Recherche

Définition du Problème

Cette recherche vise à résoudre les problèmes d'efficacité et de performance dans la tâche de traduction vocale (Speech Translation, ST). La traduction vocale nécessite de convertir directement des signaux vocaux d'une langue en texte dans une autre langue, traditionnellement en utilisant soit une approche en cascade (ASR→MT), soit une approche de bout en bout.

Importance de la Recherche

Simplification de l'architecture: L'approche de bout en bout peut éviter l'étape intermédiaire d'ASR, simplifiant l'architecture globale du système
Propagation d'erreurs: Les systèmes en cascade souffrent de la propagation d'erreurs, les erreurs de la phase ASR affectant la qualité de traduction ultérieure
Potentiel des LLM: Les grands modèles de langage démontrent des capacités puissantes dans les tâches de traitement du langage naturel, mais leur application aux tâches multimodales nécessite encore une exploration

Limitations des Méthodes Existantes

Rareté des données: Les données d'entraînement parallèles pour la traduction vocale sont relativement rares, particulièrement pour les langues peu dotées en ressources
Efficacité du modèle: Les modèles de bout en bout existants font face à des défis en termes de vitesse d'inférence et de taille de modèle
Écart de performance: Les modèles de bout en bout ont encore du mal à égaler les performances des systèmes en cascade dans certains cas

Motivation de la Recherche

Combiner la capacité de représentation audio de haute qualité des encodeurs vocaux pré-entraînés et les puissantes capacités de traitement du langage des LLM pour construire une architecture de bout en bout capable d'exécuter simultanément les tâches d'ASR et de traduction vocale.

Contributions Principales

Proposition d'une architecture de bout en bout intégrant des modèles fondamentaux vocaux et des LLM, capable d'exécuter simultanément la reconnaissance automatique de la parole et la traduction vocale
Conception de mécanismes efficaces d'adaptation modale, incluant deux adaptateurs de longueur : le repliage CTC et le sous-échantillonnage convolutif
Réalisation de performances de traduction supérieures à SeamlessM4T sur la paire de langues anglais-allemand, s'approchant des performances du système en cascade Whisper+NLLB
Fourniture d'une analyse expérimentale détaillée, comparant les effets de différentes combinaisons de LLM et d'encodeurs vocaux

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée: Signaux vocaux dans la langue source
Sortie: Génération simultanée du texte de transcription de la langue source et du texte de traduction de la langue cible
Contraintes: Entraînement de bout en bout, sans nécessité de signaux de supervision intermédiaires

Architecture du Modèle

L'architecture globale comprend trois composants principaux :

1. Encodeur Vocal (Speech Encoder)

HuBERT: Utilisation de la variante hubert-large-ls960-ft, entraînée sur 60 000 heures de données LibriLight, affinée sur 960 heures de données LibriSpeech
Encodeur Whisper: Utilisation de la partie encodeur de whisper-large-v3-turbo pour extraire les caractéristiques cachées audio

2. Adaptateur de Longueur (Length Adapter)

Puisque les séquences de caractéristiques vocales peuvent dépasser la longueur maximale supportée par le LLM, une compression est nécessaire :

Repliage CTC (pour HuBERT):
- Utilisation des étiquettes prédites par la couche CTC
- Fusion par moyenne des vecteurs correspondant aux étiquettes répétées
- Compression efficace de la longueur de séquence tout en préservant les informations sémantiques
Sous-échantillonnage Convolutif (pour Whisper):
- Utilisation d'une couche convolutive avec kernel size=5, stride=5
- Sous-échantillonnage direct de la séquence de caractéristiques par un facteur de 5

3. Couche de Projection (Projection Layer)

Réseau feedforward monocouche
Mappage de la dimension cachée de l'encodeur vocal à la dimension d'intégration du LLM
Assurance que les représentations vocales s'intègrent efficacement dans l'espace d'intégration du LLM

4. Modèles de Langage de Grande Taille (LLMs)

Quatre LLM pré-entraînés différents ont été testés :

Gemma 7B (gemma-7b)
Gemma 2 9B (gemma-2-9b)
Llama 2 7B (Llama-2-7b-hf)
Mistral 7B v0.1 (Mistral-7B-v0.1)

Points d'Innovation Technique

Cadre d'apprentissage multitâche unifié: Réalisation de l'entraînement et de l'inférence simultanés d'ASR et de traduction vocale via des tokens séparateurs spéciaux
Stratégie d'adaptation modale: Conception de méthodes de compression de longueur spécialisées pour différents encodeurs vocaux
Affinage efficace: Utilisation de la technique QLoRA (Quantized Low-Rank Adaptation) pour un affinage paramétrique efficace

Stratégie d'Entraînement

Format des Données

<bos> <>audio<> {audio features} <>transcript<> {transcript} <>translation<> {translation} <eos>

Calcul de la Perte

Calcul de la perte d'entropie croisée uniquement pour les tokens après <>transcript<>
Entraînement selon la méthode de prédiction du token suivant

Format d'Inférence

<bos> <>audio<> {audio features} <>transcript<>

Le modèle génère de manière autorégressive le texte de transcription et de traduction.

Configuration Expérimentale

Ensembles de Données

Données d'entraînement: Sous-ensemble anglais-allemand de MuST-C v1.0, environ 400 heures de données audio
Données de test:
- MuST-C tst-COMMON v2.0 et v3.0
- Ensembles de test des pistes hors ligne IWSLT'21 et '22
- LibriSpeech test-clean et test-other (pour l'évaluation d'ASR)

Métriques d'Évaluation

Traduction vocale: BLEU, COMET $^{DA}_{22}$ , COMET $^{KIWI-DA}_{22}$
Reconnaissance vocale: WER (Word Error Rate)

Méthodes de Comparaison

Système en cascade: Whisper (whisper-large-v3-turbo) + NLLB (nllb-200-3.3B)
Ligne de base de bout en bout: SeamlessM4T (seamless-m4t-v2-large)

Détails d'Implémentation

Méthode d'affinage: QLoRA 4-bit, précision bfloat16
Paramètres LoRA: rank=8, alpha=8
Taille de lot: 1 pour les modèles HuBERT, 2 pour les modèles Whisper
Optimiseur: AdamW, taux d'apprentissage 1e-4, planificateur cosinus
Étapes d'entraînement: 500 000 étapes pour les modèles HuBERT, 100 000 étapes pour les modèles Whisper

Résultats Expérimentaux

Résultats Principaux

Performance ASR (WER %)

Modèle	MuST-C v2	MuST-C v3	IWSLT'22	LibriSpeech clean	LibriSpeech other
Whisper	6.7	7.7	11.8	4.1	7.2
Enc. Whisper + Gemma 2 9B	8.2	8.1	22.6	8.0	13.7
HuBERT + Gemma 2 9B	11.1	12.5	21.9	8.4	13.1

Performance de Traduction Vocale (Scores BLEU)

Modèle	MuST-C v2	MuST-C v3	IWSLT'21	IWSLT'22
Whisper + NLLB	39.84/31.06	40.30/31.60	43.84/-	41.86/30.48
SeamlessM4T	32.62/22.98	33.36/23.59	35.97/-	34.08/22.68
Enc. Whisper + Gemma 2 9B	41.33/31.98	41.16/31.72	40.76/-	39.64/29.18

Performance COMET

Le meilleur modèle (Enc. Whisper + Gemma 2 9B) selon la métrique COMET $^{DA}_{22}$ :

MuST-C v2: 84.22 (vs 83.00 système en cascade)
MuST-C v3: 83.65 (vs 82.49 système en cascade)
Amélioration d'environ 8% par rapport à SeamlessM4T

Résultats des Études d'Ablation

Sélection du LLM: Gemma 2 9B affiche les meilleures performances dans tous les tests
Comparaison des encodeurs: L'encodeur Whisper surpasse généralement HuBERT
Efficacité des adaptateurs: Le repliage CTC et le sous-échantillonnage convolutif compressent efficacement la longueur de séquence

Découvertes Expérimentales

Bout en bout vs cascade: Le meilleur modèle de bout en bout peut s'approcher ou même surpasser les performances du système en cascade
Taille du modèle: Les LLM plus grands (Gemma 2 9B) apportent de meilleures performances
Représentation vocale: La qualité des encodeurs vocaux pré-entraînés affecte directement la performance finale

Travaux Connexes

Directions de Recherche en Traduction Vocale

Approche en cascade: Pipeline ASR+MT traditionnel, toujours la solution dominante actuelle
Approche de bout en bout: Conversion directe de la parole au texte dans la langue cible, évitant les représentations intermédiaires
LLM multimodaux: Recherche récente étendant les LLM à d'autres modalités telles que la parole

Avantages de cet Article par Rapport aux Travaux Connexes

Cadre unifié: Traitement simultané des tâches ASR et traduction vocale, plutôt qu'une optimisation de tâche unique
Conception modulaire: Remplacement flexible de différents encodeurs vocaux et composants LLM
Praticité: Fourniture d'une solution de bout en bout tout en maintenant des performances compétitives

Conclusion et Discussion

Conclusions Principales

L'architecture de bout en bout intégrant des encodeurs vocaux pré-entraînés et des LLM a atteint des performances compétitives dans la tâche de traduction vocale anglais-allemand
Le meilleur modèle non seulement surpasse SeamlessM4T, mais s'approche également des performances du système en cascade Whisper+NLLB
Le modèle peut exécuter simultanément les tâches ASR et traduction vocale, fournissant une solution unifiée

Limitations

Limitation des données: Validation uniquement sur la paire de langues anglais-allemand hautement dotée en ressources, effet sur les langues peu dotées inconnu
Efficacité de calcul: Vitesse d'inférence plus lente et taille de modèle plus grande comparées aux modèles de base
Performance ASR: Toujours inférieure au modèle Whisper spécialisé dans la reconnaissance vocale
Données d'entraînement: L'ensemble de données MuST-C est relativement petit (400 heures), pouvant limiter le potentiel du modèle

Directions Futures

Extension des paires de langues: Validation de l'efficacité sur plus de directions linguistiques
Compression de modèle: Réduction de la taille du modèle via des techniques telles que la distillation de connaissances
Amélioration des adaptateurs: Essai de méthodes d'adaptation modale plus avancées telles que Q-Former
Apprentissage par renforcement: Intégration de techniques RL pour optimiser davantage les performances

Évaluation Approfondie

Points Forts

Architecture innovante: Combinaison efficace des avantages des modèles fondamentaux vocaux et des LLM
Expériences complètes: Comparaison systématique de diverses combinaisons d'encodeurs et de LLM
Valeur pratique: Fourniture d'une solution unifiée de bout en bout
Détails techniques: Description détaillée des stratégies d'adaptation modale et d'entraînement
Ouverture: Utilisation de modèles open-source, facilitant la reproduction

Insuffisances

Couverture linguistique: Validation uniquement sur une seule paire de langues anglais-allemand, généralisation limitée
Coût de calcul: Analyse insuffisante des dépenses de calcul d'entraînement et d'inférence
Analyse d'erreurs: Manque d'analyse approfondie des cas d'échec du modèle
Analyse théorique: Explication insuffisante de la raison pour laquelle cette architecture est efficace
Dépendance aux données: Analyse insuffisante de la sensibilité à la taille des données d'entraînement

Impact

Contribution académique: Fourniture d'une nouvelle solution de bout en bout pour le domaine de la traduction vocale
Valeur pratique: Applicable aux systèmes de traitement vocal multilingue réels
Reproductibilité: Utilisation de composants open-source, facilitant les recherches ultérieures
Inspiration: Exploration précieuse pour l'application des LLM multimodaux

Scénarios d'Application

Conférences multilingues: Traduction vocale et transcription en temps réel
Plateformes éducatives: Sous-titres automatiques et traduction pour cours en ligne multilingues
Service client: Systèmes d'interaction vocale multilingue
Traitement multimédia: Transcription et traduction automatiques de contenu audio

Références

L'article cite des travaux importants dans les domaines de la traduction vocale, des modèles de langage de grande taille et de l'apprentissage multimodal, notamment :

Whisper (Radford et al., 2022): Modèle fondamental puissant de reconnaissance vocale
SeamlessM4T (Communication et al., 2023): Ligne de base du modèle de traduction multimodal
MuST-C (Cattoni et al., 2021): Ensemble de données standard de traduction vocale
QLoRA (Dettmers et al., 2023): Technique d'affinage paramétrique efficace

Cet article propose une solution de bout en bout prometteuse dans le domaine de la traduction vocale. Bien qu'il subsiste des possibilités d'amélioration dans certains aspects, il fournit une exploration et des résultats empiriques précieux pour l'application des LLM multimodaux.