2025-11-15T20:37:12.035510

End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs

Luu, Bojar
Speech Translation (ST) is a machine translation task that involves converting speech signals from one language to the corresponding text in another language; this task has two different approaches, namely the traditional cascade and the more recent end-to-end. This paper explores a combined end-to-end architecture of pre-trained speech encoders and Large Language Models (LLMs) for performing both Automatic Speech Recognition (ASR) and ST simultaneously. Experiments with the English-to-German language pair show that our best model not only can achieve better translation results than SeamlessM4T, a large foundational end-to-end, multi-modal translation model, but can also match the performance of a cascaded system with Whisper and NLLB, with up to a score gain of 8% in $\text{COMET}^{\text{DA}}_{22}$ metric.
academic

Reconnaissance Automatique de la Parole et Traduction Vocale de Bout en Bout : Intégration de Modèles Fondamentaux Vocaux et de Modèles de Langage de Grande Taille

Informations Fondamentales

  • ID de l'article: 2510.10329
  • Titre: End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs
  • Auteurs: Nam Luu, Ondřej Bojar (Université Charles)
  • Classification: cs.CL
  • Date de publication: 11 octobre 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2510.10329v1

Résumé

La traduction vocale (ST) est une tâche de traduction automatique qui consiste à convertir des signaux vocaux d'une langue en texte correspondant dans une autre langue ; cette tâche présente deux approches différentes, à savoir la cascade traditionnelle et l'approche plus récente de bout en bout. Cet article explore une architecture combinée de bout en bout composée d'encodeurs vocaux pré-entraînés et de modèles de langage de grande taille (LLM) pour effectuer simultanément la reconnaissance automatique de la parole (ASR) et la traduction vocale. Les expériences avec la paire de langues anglais-allemand montrent que notre meilleur modèle non seulement peut obtenir de meilleurs résultats de traduction que SeamlessM4T, un grand modèle de traduction multimodal de bout en bout, mais peut également égaler les performances d'un système en cascade avec Whisper et NLLB, avec un gain de score pouvant atteindre 8% selon la métrique COMET22DA\text{COMET}^{\text{DA}}_{22}.

Contexte et Motivation de la Recherche

Définition du Problème

Cette recherche vise à résoudre les problèmes d'efficacité et de performance dans la tâche de traduction vocale (Speech Translation, ST). La traduction vocale nécessite de convertir directement des signaux vocaux d'une langue en texte dans une autre langue, traditionnellement en utilisant soit une approche en cascade (ASR→MT), soit une approche de bout en bout.

Importance de la Recherche

  1. Simplification de l'architecture: L'approche de bout en bout peut éviter l'étape intermédiaire d'ASR, simplifiant l'architecture globale du système
  2. Propagation d'erreurs: Les systèmes en cascade souffrent de la propagation d'erreurs, les erreurs de la phase ASR affectant la qualité de traduction ultérieure
  3. Potentiel des LLM: Les grands modèles de langage démontrent des capacités puissantes dans les tâches de traitement du langage naturel, mais leur application aux tâches multimodales nécessite encore une exploration

Limitations des Méthodes Existantes

  1. Rareté des données: Les données d'entraînement parallèles pour la traduction vocale sont relativement rares, particulièrement pour les langues peu dotées en ressources
  2. Efficacité du modèle: Les modèles de bout en bout existants font face à des défis en termes de vitesse d'inférence et de taille de modèle
  3. Écart de performance: Les modèles de bout en bout ont encore du mal à égaler les performances des systèmes en cascade dans certains cas

Motivation de la Recherche

Combiner la capacité de représentation audio de haute qualité des encodeurs vocaux pré-entraînés et les puissantes capacités de traitement du langage des LLM pour construire une architecture de bout en bout capable d'exécuter simultanément les tâches d'ASR et de traduction vocale.

Contributions Principales

  1. Proposition d'une architecture de bout en bout intégrant des modèles fondamentaux vocaux et des LLM, capable d'exécuter simultanément la reconnaissance automatique de la parole et la traduction vocale
  2. Conception de mécanismes efficaces d'adaptation modale, incluant deux adaptateurs de longueur : le repliage CTC et le sous-échantillonnage convolutif
  3. Réalisation de performances de traduction supérieures à SeamlessM4T sur la paire de langues anglais-allemand, s'approchant des performances du système en cascade Whisper+NLLB
  4. Fourniture d'une analyse expérimentale détaillée, comparant les effets de différentes combinaisons de LLM et d'encodeurs vocaux

Explication Détaillée de la Méthode

Définition de la Tâche

  • Entrée: Signaux vocaux dans la langue source
  • Sortie: Génération simultanée du texte de transcription de la langue source et du texte de traduction de la langue cible
  • Contraintes: Entraînement de bout en bout, sans nécessité de signaux de supervision intermédiaires

Architecture du Modèle

L'architecture globale comprend trois composants principaux :

1. Encodeur Vocal (Speech Encoder)

  • HuBERT: Utilisation de la variante hubert-large-ls960-ft, entraînée sur 60 000 heures de données LibriLight, affinée sur 960 heures de données LibriSpeech
  • Encodeur Whisper: Utilisation de la partie encodeur de whisper-large-v3-turbo pour extraire les caractéristiques cachées audio

2. Adaptateur de Longueur (Length Adapter)

Puisque les séquences de caractéristiques vocales peuvent dépasser la longueur maximale supportée par le LLM, une compression est nécessaire :

  • Repliage CTC (pour HuBERT):
    • Utilisation des étiquettes prédites par la couche CTC
    • Fusion par moyenne des vecteurs correspondant aux étiquettes répétées
    • Compression efficace de la longueur de séquence tout en préservant les informations sémantiques
  • Sous-échantillonnage Convolutif (pour Whisper):
    • Utilisation d'une couche convolutive avec kernel size=5, stride=5
    • Sous-échantillonnage direct de la séquence de caractéristiques par un facteur de 5

3. Couche de Projection (Projection Layer)

  • Réseau feedforward monocouche
  • Mappage de la dimension cachée de l'encodeur vocal à la dimension d'intégration du LLM
  • Assurance que les représentations vocales s'intègrent efficacement dans l'espace d'intégration du LLM

4. Modèles de Langage de Grande Taille (LLMs)

Quatre LLM pré-entraînés différents ont été testés :

  • Gemma 7B (gemma-7b)
  • Gemma 2 9B (gemma-2-9b)
  • Llama 2 7B (Llama-2-7b-hf)
  • Mistral 7B v0.1 (Mistral-7B-v0.1)

Points d'Innovation Technique

  1. Cadre d'apprentissage multitâche unifié: Réalisation de l'entraînement et de l'inférence simultanés d'ASR et de traduction vocale via des tokens séparateurs spéciaux
  2. Stratégie d'adaptation modale: Conception de méthodes de compression de longueur spécialisées pour différents encodeurs vocaux
  3. Affinage efficace: Utilisation de la technique QLoRA (Quantized Low-Rank Adaptation) pour un affinage paramétrique efficace

Stratégie d'Entraînement

Format des Données

<bos> <>audio<> {audio features} <>transcript<> {transcript} <>translation<> {translation} <eos>

Calcul de la Perte

  • Calcul de la perte d'entropie croisée uniquement pour les tokens après <>transcript<>
  • Entraînement selon la méthode de prédiction du token suivant

Format d'Inférence

<bos> <>audio<> {audio features} <>transcript<>

Le modèle génère de manière autorégressive le texte de transcription et de traduction.

Configuration Expérimentale

Ensembles de Données

  • Données d'entraînement: Sous-ensemble anglais-allemand de MuST-C v1.0, environ 400 heures de données audio
  • Données de test:
    • MuST-C tst-COMMON v2.0 et v3.0
    • Ensembles de test des pistes hors ligne IWSLT'21 et '22
    • LibriSpeech test-clean et test-other (pour l'évaluation d'ASR)

Métriques d'Évaluation

  • Traduction vocale: BLEU, COMET22DA^{DA}_{22}, COMET22KIWIDA^{KIWI-DA}_{22}
  • Reconnaissance vocale: WER (Word Error Rate)

Méthodes de Comparaison

  • Système en cascade: Whisper (whisper-large-v3-turbo) + NLLB (nllb-200-3.3B)
  • Ligne de base de bout en bout: SeamlessM4T (seamless-m4t-v2-large)

Détails d'Implémentation

  • Méthode d'affinage: QLoRA 4-bit, précision bfloat16
  • Paramètres LoRA: rank=8, alpha=8
  • Taille de lot: 1 pour les modèles HuBERT, 2 pour les modèles Whisper
  • Optimiseur: AdamW, taux d'apprentissage 1e-4, planificateur cosinus
  • Étapes d'entraînement: 500 000 étapes pour les modèles HuBERT, 100 000 étapes pour les modèles Whisper

Résultats Expérimentaux

Résultats Principaux

Performance ASR (WER %)

ModèleMuST-C v2MuST-C v3IWSLT'22LibriSpeech cleanLibriSpeech other
Whisper6.77.711.84.17.2
Enc. Whisper + Gemma 2 9B8.28.122.68.013.7
HuBERT + Gemma 2 9B11.112.521.98.413.1

Performance de Traduction Vocale (Scores BLEU)

ModèleMuST-C v2MuST-C v3IWSLT'21IWSLT'22
Whisper + NLLB39.84/31.0640.30/31.6043.84/-41.86/30.48
SeamlessM4T32.62/22.9833.36/23.5935.97/-34.08/22.68
Enc. Whisper + Gemma 2 9B41.33/31.9841.16/31.7240.76/-39.64/29.18

Performance COMET

Le meilleur modèle (Enc. Whisper + Gemma 2 9B) selon la métrique COMET22DA^{DA}_{22} :

  • MuST-C v2: 84.22 (vs 83.00 système en cascade)
  • MuST-C v3: 83.65 (vs 82.49 système en cascade)
  • Amélioration d'environ 8% par rapport à SeamlessM4T

Résultats des Études d'Ablation

  1. Sélection du LLM: Gemma 2 9B affiche les meilleures performances dans tous les tests
  2. Comparaison des encodeurs: L'encodeur Whisper surpasse généralement HuBERT
  3. Efficacité des adaptateurs: Le repliage CTC et le sous-échantillonnage convolutif compressent efficacement la longueur de séquence

Découvertes Expérimentales

  1. Bout en bout vs cascade: Le meilleur modèle de bout en bout peut s'approcher ou même surpasser les performances du système en cascade
  2. Taille du modèle: Les LLM plus grands (Gemma 2 9B) apportent de meilleures performances
  3. Représentation vocale: La qualité des encodeurs vocaux pré-entraînés affecte directement la performance finale

Travaux Connexes

Directions de Recherche en Traduction Vocale

  1. Approche en cascade: Pipeline ASR+MT traditionnel, toujours la solution dominante actuelle
  2. Approche de bout en bout: Conversion directe de la parole au texte dans la langue cible, évitant les représentations intermédiaires
  3. LLM multimodaux: Recherche récente étendant les LLM à d'autres modalités telles que la parole

Avantages de cet Article par Rapport aux Travaux Connexes

  1. Cadre unifié: Traitement simultané des tâches ASR et traduction vocale, plutôt qu'une optimisation de tâche unique
  2. Conception modulaire: Remplacement flexible de différents encodeurs vocaux et composants LLM
  3. Praticité: Fourniture d'une solution de bout en bout tout en maintenant des performances compétitives

Conclusion et Discussion

Conclusions Principales

  1. L'architecture de bout en bout intégrant des encodeurs vocaux pré-entraînés et des LLM a atteint des performances compétitives dans la tâche de traduction vocale anglais-allemand
  2. Le meilleur modèle non seulement surpasse SeamlessM4T, mais s'approche également des performances du système en cascade Whisper+NLLB
  3. Le modèle peut exécuter simultanément les tâches ASR et traduction vocale, fournissant une solution unifiée

Limitations

  1. Limitation des données: Validation uniquement sur la paire de langues anglais-allemand hautement dotée en ressources, effet sur les langues peu dotées inconnu
  2. Efficacité de calcul: Vitesse d'inférence plus lente et taille de modèle plus grande comparées aux modèles de base
  3. Performance ASR: Toujours inférieure au modèle Whisper spécialisé dans la reconnaissance vocale
  4. Données d'entraînement: L'ensemble de données MuST-C est relativement petit (400 heures), pouvant limiter le potentiel du modèle

Directions Futures

  1. Extension des paires de langues: Validation de l'efficacité sur plus de directions linguistiques
  2. Compression de modèle: Réduction de la taille du modèle via des techniques telles que la distillation de connaissances
  3. Amélioration des adaptateurs: Essai de méthodes d'adaptation modale plus avancées telles que Q-Former
  4. Apprentissage par renforcement: Intégration de techniques RL pour optimiser davantage les performances

Évaluation Approfondie

Points Forts

  1. Architecture innovante: Combinaison efficace des avantages des modèles fondamentaux vocaux et des LLM
  2. Expériences complètes: Comparaison systématique de diverses combinaisons d'encodeurs et de LLM
  3. Valeur pratique: Fourniture d'une solution unifiée de bout en bout
  4. Détails techniques: Description détaillée des stratégies d'adaptation modale et d'entraînement
  5. Ouverture: Utilisation de modèles open-source, facilitant la reproduction

Insuffisances

  1. Couverture linguistique: Validation uniquement sur une seule paire de langues anglais-allemand, généralisation limitée
  2. Coût de calcul: Analyse insuffisante des dépenses de calcul d'entraînement et d'inférence
  3. Analyse d'erreurs: Manque d'analyse approfondie des cas d'échec du modèle
  4. Analyse théorique: Explication insuffisante de la raison pour laquelle cette architecture est efficace
  5. Dépendance aux données: Analyse insuffisante de la sensibilité à la taille des données d'entraînement

Impact

  1. Contribution académique: Fourniture d'une nouvelle solution de bout en bout pour le domaine de la traduction vocale
  2. Valeur pratique: Applicable aux systèmes de traitement vocal multilingue réels
  3. Reproductibilité: Utilisation de composants open-source, facilitant les recherches ultérieures
  4. Inspiration: Exploration précieuse pour l'application des LLM multimodaux

Scénarios d'Application

  1. Conférences multilingues: Traduction vocale et transcription en temps réel
  2. Plateformes éducatives: Sous-titres automatiques et traduction pour cours en ligne multilingues
  3. Service client: Systèmes d'interaction vocale multilingue
  4. Traitement multimédia: Transcription et traduction automatiques de contenu audio

Références

L'article cite des travaux importants dans les domaines de la traduction vocale, des modèles de langage de grande taille et de l'apprentissage multimodal, notamment :

  • Whisper (Radford et al., 2022): Modèle fondamental puissant de reconnaissance vocale
  • SeamlessM4T (Communication et al., 2023): Ligne de base du modèle de traduction multimodal
  • MuST-C (Cattoni et al., 2021): Ensemble de données standard de traduction vocale
  • QLoRA (Dettmers et al., 2023): Technique d'affinage paramétrique efficace

Cet article propose une solution de bout en bout prometteuse dans le domaine de la traduction vocale. Bien qu'il subsiste des possibilités d'amélioration dans certains aspects, il fournit une exploration et des résultats empiriques précieux pour l'application des LLM multimodaux.