End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs
Luu, Bojar
Speech Translation (ST) is a machine translation task that involves converting speech signals from one language to the corresponding text in another language; this task has two different approaches, namely the traditional cascade and the more recent end-to-end. This paper explores a combined end-to-end architecture of pre-trained speech encoders and Large Language Models (LLMs) for performing both Automatic Speech Recognition (ASR) and ST simultaneously. Experiments with the English-to-German language pair show that our best model not only can achieve better translation results than SeamlessM4T, a large foundational end-to-end, multi-modal translation model, but can also match the performance of a cascaded system with Whisper and NLLB, with up to a score gain of 8% in $\text{COMET}^{\text{DA}}_{22}$ metric.
academic
Reconnaissance Automatique de la Parole et Traduction Vocale de Bout en Bout : Intégration de Modèles Fondamentaux Vocaux et de Modèles de Langage de Grande Taille
La traduction vocale (ST) est une tâche de traduction automatique qui consiste à convertir des signaux vocaux d'une langue en texte correspondant dans une autre langue ; cette tâche présente deux approches différentes, à savoir la cascade traditionnelle et l'approche plus récente de bout en bout. Cet article explore une architecture combinée de bout en bout composée d'encodeurs vocaux pré-entraînés et de modèles de langage de grande taille (LLM) pour effectuer simultanément la reconnaissance automatique de la parole (ASR) et la traduction vocale. Les expériences avec la paire de langues anglais-allemand montrent que notre meilleur modèle non seulement peut obtenir de meilleurs résultats de traduction que SeamlessM4T, un grand modèle de traduction multimodal de bout en bout, mais peut également égaler les performances d'un système en cascade avec Whisper et NLLB, avec un gain de score pouvant atteindre 8% selon la métrique COMET22DA.
Cette recherche vise à résoudre les problèmes d'efficacité et de performance dans la tâche de traduction vocale (Speech Translation, ST). La traduction vocale nécessite de convertir directement des signaux vocaux d'une langue en texte dans une autre langue, traditionnellement en utilisant soit une approche en cascade (ASR→MT), soit une approche de bout en bout.
Simplification de l'architecture: L'approche de bout en bout peut éviter l'étape intermédiaire d'ASR, simplifiant l'architecture globale du système
Propagation d'erreurs: Les systèmes en cascade souffrent de la propagation d'erreurs, les erreurs de la phase ASR affectant la qualité de traduction ultérieure
Potentiel des LLM: Les grands modèles de langage démontrent des capacités puissantes dans les tâches de traitement du langage naturel, mais leur application aux tâches multimodales nécessite encore une exploration
Rareté des données: Les données d'entraînement parallèles pour la traduction vocale sont relativement rares, particulièrement pour les langues peu dotées en ressources
Efficacité du modèle: Les modèles de bout en bout existants font face à des défis en termes de vitesse d'inférence et de taille de modèle
Écart de performance: Les modèles de bout en bout ont encore du mal à égaler les performances des systèmes en cascade dans certains cas
Combiner la capacité de représentation audio de haute qualité des encodeurs vocaux pré-entraînés et les puissantes capacités de traitement du langage des LLM pour construire une architecture de bout en bout capable d'exécuter simultanément les tâches d'ASR et de traduction vocale.
Proposition d'une architecture de bout en bout intégrant des modèles fondamentaux vocaux et des LLM, capable d'exécuter simultanément la reconnaissance automatique de la parole et la traduction vocale
Conception de mécanismes efficaces d'adaptation modale, incluant deux adaptateurs de longueur : le repliage CTC et le sous-échantillonnage convolutif
Réalisation de performances de traduction supérieures à SeamlessM4T sur la paire de langues anglais-allemand, s'approchant des performances du système en cascade Whisper+NLLB
Fourniture d'une analyse expérimentale détaillée, comparant les effets de différentes combinaisons de LLM et d'encodeurs vocaux
HuBERT: Utilisation de la variante hubert-large-ls960-ft, entraînée sur 60 000 heures de données LibriLight, affinée sur 960 heures de données LibriSpeech
Encodeur Whisper: Utilisation de la partie encodeur de whisper-large-v3-turbo pour extraire les caractéristiques cachées audio
Cadre d'apprentissage multitâche unifié: Réalisation de l'entraînement et de l'inférence simultanés d'ASR et de traduction vocale via des tokens séparateurs spéciaux
Stratégie d'adaptation modale: Conception de méthodes de compression de longueur spécialisées pour différents encodeurs vocaux
Affinage efficace: Utilisation de la technique QLoRA (Quantized Low-Rank Adaptation) pour un affinage paramétrique efficace
L'architecture de bout en bout intégrant des encodeurs vocaux pré-entraînés et des LLM a atteint des performances compétitives dans la tâche de traduction vocale anglais-allemand
Le meilleur modèle non seulement surpasse SeamlessM4T, mais s'approche également des performances du système en cascade Whisper+NLLB
Le modèle peut exécuter simultanément les tâches ASR et traduction vocale, fournissant une solution unifiée
Limitation des données: Validation uniquement sur la paire de langues anglais-allemand hautement dotée en ressources, effet sur les langues peu dotées inconnu
Efficacité de calcul: Vitesse d'inférence plus lente et taille de modèle plus grande comparées aux modèles de base
Performance ASR: Toujours inférieure au modèle Whisper spécialisé dans la reconnaissance vocale
Données d'entraînement: L'ensemble de données MuST-C est relativement petit (400 heures), pouvant limiter le potentiel du modèle
L'article cite des travaux importants dans les domaines de la traduction vocale, des modèles de langage de grande taille et de l'apprentissage multimodal, notamment :
Whisper (Radford et al., 2022): Modèle fondamental puissant de reconnaissance vocale
SeamlessM4T (Communication et al., 2023): Ligne de base du modèle de traduction multimodal
MuST-C (Cattoni et al., 2021): Ensemble de données standard de traduction vocale
QLoRA (Dettmers et al., 2023): Technique d'affinage paramétrique efficace
Cet article propose une solution de bout en bout prometteuse dans le domaine de la traduction vocale. Bien qu'il subsiste des possibilités d'amélioration dans certains aspects, il fournit une exploration et des résultats empiriques précieux pour l'application des LLM multimodaux.