2025-11-12T02:28:29.830875

MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction

Wang, Zhao, Liu et al.
Current direct speech-to-speech translation methods predominantly employ speech tokens as intermediate representations. However, a single speech token is not dense in semantics, so we generally need multiple tokens to express a complete semantic unit. To address this limitation, we introduce multi-token prediction (MTP) loss into speech-to-unit translation (S2UT) models, enabling models to predict multiple subsequent tokens at each position, thereby capturing more complete semantics and enhancing information density per position. Initial MTP implementations apply the loss at the final layer, which improves output representation but initiates information enrichment too late. We hypothesize that advancing the information enrichment process to intermediate layers can achieve earlier and more effective enhancement of hidden representation. Consequently, we propose MTP-S2UT loss, applying MTP loss to hidden representation where CTC loss is computed. Experiments demonstrate that all MTP loss variants consistently improve the quality of S2UT translation, with MTP-S2UT achieving the best performance.
academic

MTP-S2UT: Mejorando la Calidad de la Traducción de Voz a Voz con Predicción Multi-token

Información Básica

  • ID del Artículo: 2510.10003
  • Título: MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction
  • Autores: Jianjin Wang, Runsong Zhao, Xiaoqian Liu, Yuan Ge, Ziqiang Xu, Tong Xiao, Shengxiang Gao, Zhengtao Yu, Jingbo Zhu
  • Clasificación: cs.CL, cs.SD, eess.AS
  • Fecha de Publicación: 11 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.10003

Resumen

Los métodos actuales de traducción directa de voz a voz utilizan principalmente tokens de voz como representación intermedia. Sin embargo, la densidad semántica de un token de voz individual es baja, requiriendo típicamente múltiples tokens para expresar una unidad semántica completa. Para abordar esta limitación, este artículo introduce la pérdida de predicción multi-token (MTP) en modelos de traducción de voz a unidades (S2UT), permitiendo que el modelo prediga múltiples tokens posteriores en cada posición, capturando así semántica más completa e incrementando la densidad de información en cada posición. La implementación inicial de MTP aplicaba la pérdida a la capa final, mejorando la representación de salida pero iniciando el enriquecimiento de información demasiado tarde. Este artículo propone que adelantar el proceso de enriquecimiento de información a capas intermedias puede lograr una mejora de representación oculta más temprana y efectiva. Por lo tanto, se propone la pérdida MTP-S2UT, aplicando la pérdida MTP a la capa de representación oculta donde se calcula la pérdida CTC. Los experimentos demuestran que todas las variantes de pérdida MTP mejoran consistentemente la calidad de traducción de S2UT, siendo MTP-S2UT la que logra el mejor desempeño.

Contexto de Investigación y Motivación

Problema Central

El desafío principal de la traducción directa de voz a voz es la escasez semántica de los tokens de voz. En comparación con los tokens de texto, la representación semántica de los tokens de voz es más dispersa, requiriendo típicamente múltiples tokens de voz para expresar un único concepto semántico, lo que resulta en mayor entropía de predicción y complejidad de modelado.

Importancia del Problema

  1. Demanda de Aplicaciones Prácticas: La traducción de voz a voz tiene amplias perspectivas de aplicación en conferencias internacionales, comunicación transnacional, turismo y otros escenarios
  2. Cuello de Botella Tecnológico: Los métodos existentes presentan insuficiencias en densidad de representación semántica y precisión de predicción
  3. Eficiencia del Modelo: La escasez de tokens de voz incrementa la incertidumbre de predicción del modelo

Limitaciones de Métodos Existentes

  1. Baja Densidad Semántica: Un token de voz individual no puede llevar información semántica completa
  2. Alta Entropía de Predicción: Expresar un único concepto con múltiples tokens incrementa la complejidad de predicción
  3. Fusión de Información Retrasada: Los métodos MTP existentes se aplican únicamente a la capa final, perdiendo oportunidades de fusión temprana de información

Motivación de la Investigación

Basándose en la observación de que los tokens de voz requieren múltiples tokens coordinados para expresar semántica completa, este artículo propone mejorar la densidad semántica mediante predicción multi-token, adelantando este enriquecimiento a capas intermedias para lograr aprendizaje de representación más efectivo.

Contribuciones Principales

  1. Primera Introducción de Pérdida MTP en Marco S2UT: Aplicación sistemática de técnica de predicción multi-token a tareas de traducción de voz a voz
  2. Propuesta de Pérdida MTP-S2UT: Aplicación innovadora de pérdida MTP a capas ocultas CTC, logrando fusión de información más temprana
  3. Verificación Experimental Exhaustiva: Validación de la efectividad del método en múltiples tokenizadores de voz y pares de idiomas
  4. Análisis Mecanístico Profundo: Revelación del mecanismo de funcionamiento de la pérdida MTP mediante análisis de decodificación CTC y análisis de entropía

Explicación Detallada del Método

Definición de Tarea

La tarea de traducción de voz a voz se define como un conjunto de datos de cuádruples D={(S,X,Y,T)}D = \{(S,X,Y,T)\}, donde:

  • S=(s1,,sS)S = (s_1, \cdots, s_{|S|}): voz del idioma fuente
  • X=(x1,,xX)X = (x_1, \cdots, x_{|X|}): texto del idioma fuente
  • Y=(y1,,yY)Y = (y_1, \cdots, y_{|Y|}): texto del idioma destino
  • T=(t1,,tT)T = (t_1, \cdots, t_{|T|}): voz del idioma destino

Arquitectura del Modelo

Arquitectura Base S2UT

El modelo S2UT contiene tres componentes principales:

  1. Tokenizador de Voz: Cuantifica voz continua del destino en secuencia de tokens de voz discretos U=(u1,,uU,e)U = (u_1, \cdots, u_{|U|}, e)
  2. Modelo Secuencia a Secuencia: Convierte voz fuente a tokens de voz destino
  3. Detokenizador: Sintetiza voz destino a partir de tokens de voz

El proceso de cálculo central del modelo:

H⁰_dec = Emb(U₊₁)                                    (1)
Hⁱ_dec = DecoderLayerᵢ(H^enc, Hⁱ⁻¹_dec)            (2)
L_NTP = -logP(U|H^L_dec)                             (3)
L_S2UT = L_NTP + L_other                             (4)

Variantes de Pérdida MTP

Este artículo implementa cuatro variantes de pérdida MTP:

1. MTP-Parallel-Linear Utiliza N cabezas lineales independientes:

P(U₋ₖ|H^L_dec) = softmax(WᵏH^L_dec)                 (6)

2. MTP-DeepSeek-V3 Adopta teacher-forcing y bloques Transformer:

H⁰_out = H^L_dec                                     (7)
Hᵏ_in = Wᵏ_in[LN(Hᵏ⁻¹_out); LN(Emb(U₁₋ₖ))]         (8)
Hᵏ_out = Decoderₖ(H^enc, Hᵏ_in)                     (9)
P(U₋ₖ|H^L_dec) = softmax(W_outHᵏ_out)               (10)

3. MTP-VocalNet Elimina entrada de teacher-forcing:

Hᵏ_in = Hᵏ⁻¹_out                                     (11)

Puntos de Innovación Técnica

Innovación Central de MTP-S2UT

Perspectiva Clave: La capa oculta CTC HdecmH^m_{dec} contiene simultáneamente información de modalidades de texto y voz, siendo el lugar ideal para aplicar pérdida MTP.

Método de Implementación:

L_MTP-S2UT = -∑ᵏ⁼⁰^(N-1) logP(U₋ₖ|H^m_dec)         (13)

Hᵏ_out = Decoderₖ(H^enc, H^m_dec)                   (14)
P(U₋ₖ|H^m_dec) = softmax(W_outHᵏ_out)               (15)

Ventajas del Diseño:

  1. Fusión de Información Más Temprana: Aplicación de pérdida MTP en capa intermedia en lugar de capa final
  2. Utilización de Información Multimodal: Aprovechamiento completo de la representación de fusión texto-voz de la capa CTC
  3. Avance Semántico: Promoción del movimiento hacia adelante de información semántica en la secuencia

Configuración Experimental

Conjunto de Datos

Se utiliza el conjunto de datos de referencia CVSS-C, un conjunto de datos a gran escala para traducción de voz a voz:

  • Pares de Idiomas: Francés→Inglés (Fr→En) y Español→Inglés (Es→En)
  • Preprocesamiento: Características de mel-filterbank de 80 dimensiones, normalización global de media y varianza cepstral

Tokenizadores de Voz

Se evaluaron tres tokenizadores:

  1. Tokenizador No Supervisado: Basado en características mHuBERT con agrupamiento k-means (k=1000)
  2. Tokenizador S3: Tokenizador supervisado, tamaño de libro de códigos 6561
  3. GLM-4-Voice-Tokenizer: Tokenizador supervisado, tamaño de libro de códigos 16384

Configuración del Modelo

  • Codificador: 12 capas Conformer, dimensión oculta 256
  • Decodificador: 6 capas Transformer, dimensión oculta 512
  • Decodificador CTC: Conectado después de la tercera capa del decodificador, peso 1.6
  • Configuración MTP: Predicción de N=7 tokens posteriores para cada token de voz, peso de pérdida MTP 1.0

Métricas de Evaluación

Se utiliza ASR-BLEU para evaluar la calidad de traducción:

  1. Transcripción de voz sintetizada a texto mediante modelo ASR
  2. Cálculo de puntuación BLEU entre texto transcrito y texto de referencia

Resultados Experimentales

Resultados Principales

Resultados de Tarea Fr→En

TokenizadorModeloGreedyBeam5Beam10
S3S2UT17.7918.9819.15
S3+ MTP-S2UT24.3625.1425.16
HuBERTS2UT22.0223.1123.33
HuBERT+ MTP-S2UT23.5924.5024.53
GLM-4S2UT21.6223.0823.26
GLM-4+ MTP-S2UT23.9725.2225.26

Resultados de Tarea Es→En

ModeloGreedyBeam5Beam10
S2UT16.6717.9918.18
+ MTP-S2UT21.8722.5922.83

Hallazgos Clave

  1. Mejora Consistente: Todas las variantes MTP mejoran la calidad de traducción
  2. Mejor Desempeño: MTP-S2UT logra los mejores resultados en todas las configuraciones
  3. Mejora Significativa: ASR-BLEU con búsqueda greedy en tokenizador S3 mejora de 17.79 a 24.36 (+37%)

Experimentos de Ablación

Análisis de Desplazamiento Hacia Adelante de Decodificación CTC

Mediante análisis de estados ocultos CTC se descubrió:

  • Modelos entrenados con MTP muestran desplazamiento hacia adelante de tokens de texto en comparación con NTP
  • La posición relativa promedio de primera aparición de tokens de texto se adelanta significativamente
ModeloS3HuBERTGLM-4
S2UT51.011%49.628%50.363%
MTP-S2UT47.382%44.561%43.889%

Análisis de Incertidumbre de Tokens de Voz

Mediante análisis de entropía se descubrió:

  • Todas las variantes MTP reducen la incertidumbre de predicción de tokens de voz
  • MTP-S2UT muestra la reducción de incertidumbre más significativa
  • Incremento de frecuencia en regiones de baja entropía, disminución en regiones de alta entropía

Trabajo Relacionado

Traducción de Voz a Voz

  • Métodos Directos: Utilización de unidades de voz discretas como representación intermedia
  • Arquitecturas Representativas: Modelo S2UT y sus variantes (UnitY, SeamlessM4T, etc.)
  • Desafíos Técnicos: Escasez semántica de tokens de voz y complejidad de predicción

Predicción Multi-token

  • Origen: Inicialmente utilizada como tarea auxiliar en modelos de lenguaje grandes
  • Desarrollo: Mejoras de DeepSeek-V3 y aplicación de VocalNet en diálogos de voz
  • Ventajas: Mejora de capacidad de representación, aceleración de inferencia, captura de patrones locales

Conclusiones y Discusión

Conclusiones Principales

  1. Efectividad de Pérdida MTP: La introducción de pérdida MTP en marco S2UT mejora significativamente la calidad de traducción
  2. Ventajas de Fusión Temprana: Aplicación de pérdida MTP a capa CTC intermedia es más efectiva que a capa final
  3. Perspectivas Mecanísticas: MTP promueve el movimiento hacia adelante de información semántica y reduce incertidumbre de predicción

Limitaciones

  1. Sobrecarga Computacional: Entrenamiento MTP introduce parámetros adicionales y complejidad computacional
  2. Cobertura de Idiomas: Experimentos validados únicamente en pares de idiomas europeos, faltando validación más amplia
  3. Análisis Teórico: La comprensión teórica del mecanismo de funcionamiento de MTP aún requiere profundización

Direcciones Futuras

  1. Extensión a Más Pares de Idiomas: Validación de efectividad del método entre diferentes familias lingüísticas
  2. Optimización de Eficiencia Computacional: Reducción de sobrecarga computacional del entrenamiento MTP
  3. Modelado Teórico: Comprensión profunda del mecanismo de funcionamiento de MTP en traducción de voz

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera aplicación sistemática de MTP a traducción de voz a voz
  2. Método Razonable: Diseño de MTP-S2UT basado en comprensión profunda de características de capa CTC
  3. Verificación Experimental Exhaustiva: Validación completa con múltiples tokenizadores, pares de idiomas y estrategias de decodificación
  4. Análisis Profundo: Revelación del mecanismo de funcionamiento del método mediante análisis de decodificación CTC y entropía
  5. Resultados Significativos: Mejoras consistentes y significativas en todas las configuraciones

Insuficiencias

  1. Limitación de Idiomas: Validación únicamente en pares de idiomas europeos, generalizabilidad pendiente
  2. Análisis Computacional Faltante: Falta de análisis detallado de sobrecarga computacional del entrenamiento MTP
  3. Comparación Insuficiente: Falta de comparación con otros métodos de mejora de traducción de voz
  4. Profundidad Teórica: Análisis teórico del mecanismo de funcionamiento de MTP aún insuficiente

Impacto

  1. Valor Académico: Proporciona nuevas perspectivas de mejora para campo de traducción de voz
  2. Valor Práctico: Mejoras de desempeño significativas con potencial de aplicación práctica
  3. Reproducibilidad: Descripción clara del método, configuración experimental detallada
  4. Inspiración: Proporciona perspectivas valiosas para modelado de secuencias multimodales

Escenarios Aplicables

  1. Traducción de Voz de Alta Calidad: Aplicable a escenarios con requisitos altos de calidad de traducción
  2. Sistemas de Conferencias Multilingües: Aplicación en sistemas de comunicación multilingüe en tiempo real
  3. Asistentes de Voz: Mejora de capacidad de traducción de asistentes de voz multilingües
  4. Educación y Capacitación: Aplicaciones en aprendizaje de idiomas e intercambio intercultural

Referencias Bibliográficas

Este artículo cita trabajos importantes en campos relacionados de traducción de voz a voz, predicción multi-token y aprendizaje de representación de voz, proporcionando base teórica sólida para la investigación. Las referencias clave incluyen artículos originales de S2UT, trabajos relacionados con MTP (DeepSeek-V3, VocalNet) y tecnologías fundamentales de procesamiento de voz (HuBERT, CTC, etc.).


Evaluación General: Este es un artículo de alta calidad que propone un método de mejora innovador y efectivo en el campo de la traducción de voz a voz. Mediante aplicación ingeniosa de técnica de predicción multi-token a capa intermedia del marco S2UT, logra mejoras de desempeño significativas. El diseño experimental es riguroso, el análisis es profundo, y hace contribuciones valiosas al desarrollo del campo.