2025-11-12T02:28:29.830875

MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction

Wang, Zhao, Liu et al.
Current direct speech-to-speech translation methods predominantly employ speech tokens as intermediate representations. However, a single speech token is not dense in semantics, so we generally need multiple tokens to express a complete semantic unit. To address this limitation, we introduce multi-token prediction (MTP) loss into speech-to-unit translation (S2UT) models, enabling models to predict multiple subsequent tokens at each position, thereby capturing more complete semantics and enhancing information density per position. Initial MTP implementations apply the loss at the final layer, which improves output representation but initiates information enrichment too late. We hypothesize that advancing the information enrichment process to intermediate layers can achieve earlier and more effective enhancement of hidden representation. Consequently, we propose MTP-S2UT loss, applying MTP loss to hidden representation where CTC loss is computed. Experiments demonstrate that all MTP loss variants consistently improve the quality of S2UT translation, with MTP-S2UT achieving the best performance.
academic

MTP-S2UT : Amélioration de la Qualité de la Traduction Parole-à-Parole avec Prédiction Multi-token

Informations Fondamentales

  • ID de l'article : 2510.10003
  • Titre : MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction
  • Auteurs : Jianjin Wang, Runsong Zhao, Xiaoqian Liu, Yuan Ge, Ziqiang Xu, Tong Xiao, Shengxiang Gao, Zhengtao Yu, Jingbo Zhu
  • Classification : cs.CL, cs.SD, eess.AS
  • Date de publication : 11 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.10003

Résumé

Les méthodes actuelles de traduction directe parole-à-parole utilisent principalement des tokens de parole comme représentation intermédiaire. Cependant, la densité sémantique d'un seul token de parole est faible, nécessitant généralement plusieurs tokens pour exprimer une unité sémantique complète. Pour résoudre cette limitation, cet article introduit la perte de prédiction multi-token (MTP) dans les modèles de traduction parole-à-unité (S2UT), permettant au modèle de prédire plusieurs tokens ultérieurs à chaque position, capturant ainsi une sémantique plus complète et augmentant la densité d'information à chaque position. L'implémentation initiale de MTP appliquait la perte à la couche finale, améliorant bien la représentation de sortie, mais l'enrichissement d'information démarrait trop tard. Cet article suppose que l'avancement du processus d'enrichissement d'information vers les couches intermédiaires peut réaliser un renforcement des représentations cachées plus précoce et plus efficace. Par conséquent, nous proposons la perte MTP-S2UT, appliquant la perte MTP à la couche de représentation cachée où la perte CTC est calculée. Les expériences montrent que toutes les variantes de perte MTP améliorent continuellement la qualité de traduction S2UT, MTP-S2UT obtenant les meilleures performances.

Contexte de Recherche et Motivation

Problème Central

La traduction directe parole-à-parole fait face au défi principal de la parcimonie sémantique des tokens de parole. Comparés aux tokens de texte, les tokens de parole présentent une représentation sémantique plus clairsemée, nécessitant généralement plusieurs tokens de parole pour exprimer un seul concept sémantique, ce qui entraîne une entropie de prédiction plus élevée et une complexité de modélisation accrue.

Importance du Problème

  1. Besoins d'application pratique : La traduction parole-à-parole a des perspectives d'application larges dans les conférences internationales, la communication transfrontalière, le tourisme et autres scénarios
  2. Goulots d'étranglement technologiques : Les méthodes existantes présentent des insuffisances en matière de densité de représentation sémantique et de précision de prédiction
  3. Efficacité du modèle : La parcimonie des tokens de parole augmente l'incertitude de prédiction du modèle

Limitations des Approches Existantes

  1. Densité sémantique faible : Un seul token de parole ne peut pas supporter des informations sémantiques complètes
  2. Entropie de prédiction élevée : L'expression d'un seul concept par plusieurs tokens augmente la complexité de prédiction
  3. Fusion d'information retardée : Les méthodes MTP existantes ne s'appliquent qu'à la couche finale, manquant les opportunités de fusion d'information précoce

Motivation de la Recherche

Basée sur l'observation que les tokens de parole nécessitent plusieurs tokens travaillant conjointement pour exprimer une sémantique complète, cet article propose d'améliorer la densité sémantique par prédiction multi-token et d'avancer cet enrichissement vers les couches intermédiaires pour réaliser un apprentissage de représentation plus efficace.

Contributions Fondamentales

  1. Introduction de la perte MTP dans le cadre S2UT : Application systématique de la technique de prédiction multi-token à la tâche de traduction parole-à-parole
  2. Proposition de la perte MTP-S2UT : Application innovante de la perte MTP à la couche cachée CTC, réalisant une fusion d'information plus précoce
  3. Vérification expérimentale complète : Validation de l'efficacité de la méthode sur plusieurs tokenizers de parole et paires de langues
  4. Analyse mécanistique approfondie : Révélation du mécanisme de fonctionnement de la perte MTP par analyse de décodage CTC et analyse d'entropie

Explication Détaillée de la Méthode

Définition de la Tâche

La tâche de traduction parole-à-parole est définie comme un ensemble de données quaternaire D={(S,X,Y,T)}D = \{(S,X,Y,T)\}, où :

  • S=(s1,,sS)S = (s_1, \cdots, s_{|S|}) : parole source
  • X=(x1,,xX)X = (x_1, \cdots, x_{|X|}) : texte source
  • Y=(y1,,yY)Y = (y_1, \cdots, y_{|Y|}) : texte cible
  • T=(t1,,tT)T = (t_1, \cdots, t_{|T|}) : parole cible

Architecture du Modèle

Architecture de Base S2UT

Le modèle S2UT comprend trois composants principaux :

  1. Tokenizer de parole : Quantifie la parole cible continue en séquence de tokens de parole discrets U=(u1,,uU,e)U = (u_1, \cdots, u_{|U|}, e)
  2. Modèle séquence-à-séquence : Convertit la parole source en tokens de parole cible
  3. Détokenizer : Synthétise la parole cible à partir des tokens de parole

Le processus de calcul central du modèle :

H⁰_dec = Emb(U₊₁)                                    (1)
Hⁱ_dec = DecoderLayerᵢ(H^enc, Hⁱ⁻¹_dec)            (2)
L_NTP = -logP(U|H^L_dec)                             (3)
L_S2UT = L_NTP + L_other                             (4)

Variantes de Perte MTP

Cet article implémente quatre variantes de perte MTP :

1. MTP-Parallel-Linear Utilise N têtes linéaires indépendantes :

P(U₋ₖ|H^L_dec) = softmax(WᵏH^L_dec)                 (6)

2. MTP-DeepSeek-V3 Adopte teacher-forcing et blocs Transformer :

H⁰_out = H^L_dec                                     (7)
Hᵏ_in = Wᵏ_in[LN(Hᵏ⁻¹_out); LN(Emb(U₁₋ₖ))]         (8)
Hᵏ_out = Decoderₖ(H^enc, Hᵏ_in)                     (9)
P(U₋ₖ|H^L_dec) = softmax(W_outHᵏ_out)               (10)

3. MTP-VocalNet Supprime les entrées teacher-forcing :

Hᵏ_in = Hᵏ⁻¹_out                                     (11)

Points d'Innovation Technique

Innovation Centrale de MTP-S2UT

Intuition clé : La couche cachée CTC HdecmH^m_{dec} contient simultanément les informations des modalités texte et parole, constituant un emplacement idéal pour appliquer la perte MTP.

Méthode d'implémentation :

L_MTP-S2UT = -∑ᵏ⁼⁰^(N-1) logP(U₋ₖ|H^m_dec)         (13)

Hᵏ_out = Decoderₖ(H^enc, H^m_dec)                   (14)
P(U₋ₖ|H^m_dec) = softmax(W_outHᵏ_out)               (15)

Avantages de la Conception :

  1. Fusion d'information plus précoce : Application de la perte MTP à la couche intermédiaire plutôt qu'à la couche finale
  2. Utilisation d'informations intermodales : Exploitation complète de la représentation de fusion texte-parole de la couche CTC
  3. Avancement sémantique : Promotion du mouvement avant des informations sémantiques dans la séquence

Configuration Expérimentale

Ensemble de Données

Utilise l'ensemble de données de référence CVSS-C, un ensemble de données volumineux de traduction parole-à-parole :

  • Paires de langues : Français→Anglais (Fr→En) et Espagnol→Anglais (Es→En)
  • Prétraitement : Caractéristiques mel-filterbank 80-dimensionnelles, normalisation globale de la moyenne et variance cepstrale

Tokenizers de Parole

Évaluation de trois tokenizers :

  1. Tokenizer non supervisé : Basé sur caractéristiques mHuBERT avec clustering k-means (k=1000)
  2. Tokenizer S3 : Tokenizer supervisé, taille du codebook 6561
  3. GLM-4-Voice-Tokenizer : Tokenizer supervisé, taille du codebook 16384

Configuration du Modèle

  • Encodeur : 12 couches Conformer, dimension cachée 256
  • Décodeur : 6 couches Transformer, dimension cachée 512
  • Décodeur CTC : Connecté après la 3e couche du décodeur, poids 1.6
  • Configuration MTP : Prédiction des N=7 tokens ultérieurs pour chaque token de parole, poids de perte MTP 1.0

Métriques d'Évaluation

Utilise ASR-BLEU pour évaluer la qualité de traduction :

  1. Transcription de la parole synthétisée en texte à l'aide d'un modèle ASR
  2. Calcul du score BLEU entre le texte transcrit et le texte de référence

Résultats Expérimentaux

Résultats Principaux

Résultats de la Tâche Fr→En

TokenizerModèleGreedyBeam5Beam10
S3S2UT17.7918.9819.15
S3+ MTP-S2UT24.3625.1425.16
HuBERTS2UT22.0223.1123.33
HuBERT+ MTP-S2UT23.5924.5024.53
GLM-4S2UT21.6223.0823.26
GLM-4+ MTP-S2UT23.9725.2225.26

Résultats de la Tâche Es→En

ModèleGreedyBeam5Beam10
S2UT16.6717.9918.18
+ MTP-S2UT21.8722.5922.83

Découvertes Clés

  1. Amélioration Cohérente : Toutes les variantes MTP améliorent la qualité de traduction
  2. Meilleures Performances : MTP-S2UT obtient les meilleurs résultats dans tous les paramètres
  3. Amélioration Significative : ASR-BLEU avec recherche greedy sur tokenizer S3 passe de 17.79 à 24.36 (+37%)

Études d'Ablation

Analyse du Décalage Avant du Décodage CTC

Par analyse des états cachés CTC, on découvre :

  • Les modèles entraînés avec MTP montrent un décalage avant des tokens de texte par rapport à NTP
  • La position relative moyenne de la première apparition des tokens de texte s'avance significativement
ModèleS3HuBERTGLM-4
S2UT51.011%49.628%50.363%
MTP-S2UT47.382%44.561%43.889%

Analyse de l'Incertitude des Tokens de Parole

Par analyse d'entropie, on découvre :

  • Toutes les variantes MTP réduisent l'incertitude de prédiction des tokens de parole
  • MTP-S2UT montre la réduction d'incertitude la plus significative
  • La fréquence des régions à faible entropie augmente, celle des régions à haute entropie diminue

Travaux Connexes

Traduction Parole-à-Parole

  • Approches directes : Utilisation d'unités de parole discrètes comme représentation intermédiaire
  • Architectures représentatives : Modèle S2UT et ses variantes (UnitY, SeamlessM4T, etc.)
  • Défis technologiques : Parcimonie sémantique des tokens de parole et complexité de prédiction

Prédiction Multi-Token

  • Origines : Initialement utilisée comme tâche auxiliaire dans les grands modèles de langage
  • Développement : Améliorations de DeepSeek-V3 et application de VocalNet dans le dialogue vocal
  • Avantages : Amélioration de la capacité de représentation, accélération de l'inférence, capture de motifs locaux

Conclusion et Discussion

Conclusions Principales

  1. Efficacité de la Perte MTP : L'introduction de la perte MTP dans le cadre S2UT améliore significativement la qualité de traduction
  2. Avantages de la Fusion Précoce : L'application de la perte MTP à la couche CTC intermédiaire est plus efficace que celle à la couche finale
  3. Intuitions Mécanistiques : MTP promeut le mouvement avant des informations sémantiques et réduit l'incertitude de prédiction

Limitations

  1. Surcharge Computationnelle : L'entraînement MTP introduit des paramètres supplémentaires et une complexité computationnelle accrue
  2. Couverture Linguistique : Les expériences ne sont validées que sur des paires de langues européennes, manquant une validation linguistique plus large
  3. Analyse Théorique : La compréhension théorique du mécanisme de fonctionnement de MTP nécessite encore d'être approfondie

Directions Futures

  1. Extension à Plus de Paires de Langues : Validation de l'efficacité de la méthode entre différentes familles linguistiques
  2. Optimisation de l'Efficacité Computationnelle : Réduction de la surcharge computationnelle de l'entraînement MTP
  3. Modélisation Théorique : Compréhension approfondie du mécanisme d'action de MTP en traduction de parole

Évaluation Approfondie

Points Forts

  1. Innovation Forte : Introduction systématique et première de MTP en traduction parole-à-parole
  2. Conception Rationnelle : La conception de MTP-S2UT repose sur une compréhension approfondie des caractéristiques de la couche CTC
  3. Vérification Expérimentale Complète : Validation complète sur plusieurs tokenizers, paires de langues et stratégies de décodage
  4. Analyse Approfondie : Révélation du mécanisme de fonctionnement de la méthode par analyse de décodage CTC et analyse d'entropie
  5. Résultats Significatifs : Améliorations cohérentes et significatives dans tous les paramètres

Insuffisances

  1. Limitations Linguistiques : Validation uniquement sur des paires de langues européennes, généralisation à vérifier
  2. Analyse Computationnelle Manquante : Absence d'analyse détaillée de la surcharge computationnelle de l'entraînement MTP
  3. Comparaisons Insuffisantes : Manque de comparaisons avec d'autres méthodes d'amélioration de la traduction de parole
  4. Profondeur Théorique : L'analyse théorique du mécanisme de fonctionnement de MTP n'est pas suffisamment approfondie

Impact

  1. Valeur Académique : Fournit une nouvelle perspective d'amélioration pour le domaine de la traduction de parole
  2. Valeur Pratique : Les améliorations de performance significatives offrent un potentiel d'application pratique
  3. Reproductibilité : Description claire de la méthode et configuration expérimentale détaillée
  4. Caractère Inspirant : Fournit des intuitions précieuses pour la modélisation de séquences multimodales

Scénarios d'Application

  1. Traduction de Parole Haute Qualité : Applicable aux scénarios exigeant une qualité de traduction élevée
  2. Systèmes de Conférence Multilingue : Peut être appliqué aux systèmes de communication multilingue en temps réel
  3. Assistants Vocaux : Amélioration de la capacité de traduction interlingue des assistants vocaux
  4. Éducation et Formation : Applications d'apprentissage des langues et de communication interculturelle

Références Bibliographiques

Cet article cite des travaux importants dans les domaines connexes de la traduction parole-à-parole, de la prédiction multi-token et de l'apprentissage de représentations de parole, fournissant une base théorique solide pour la recherche. Les références clés incluent l'article original S2UT, les travaux connexes MTP (DeepSeek-V3, VocalNet) ainsi que les technologies fondamentales de traitement de la parole (HuBERT, CTC, etc.).


Évaluation Globale : Ceci est un article technique de haute qualité qui propose une méthode d'amélioration innovante et efficace dans le domaine de la traduction parole-à-parole. En appliquant ingénieusement la technique de prédiction multi-token à la couche intermédiaire du cadre S2UT, il réalise une amélioration significative des performances. La conception expérimentale est rigoureuse, l'analyse est approfondie, et l'article apporte une contribution précieuse au développement de ce domaine.