2025-11-12T02:28:29.830875

MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction

Wang, Zhao, Liu et al.

Current direct speech-to-speech translation methods predominantly employ speech tokens as intermediate representations. However, a single speech token is not dense in semantics, so we generally need multiple tokens to express a complete semantic unit. To address this limitation, we introduce multi-token prediction (MTP) loss into speech-to-unit translation (S2UT) models, enabling models to predict multiple subsequent tokens at each position, thereby capturing more complete semantics and enhancing information density per position. Initial MTP implementations apply the loss at the final layer, which improves output representation but initiates information enrichment too late. We hypothesize that advancing the information enrichment process to intermediate layers can achieve earlier and more effective enhancement of hidden representation. Consequently, we propose MTP-S2UT loss, applying MTP loss to hidden representation where CTC loss is computed. Experiments demonstrate that all MTP loss variants consistently improve the quality of S2UT translation, with MTP-S2UT achieving the best performance.

academic

MTP-S2UT: Mejorando la Calidad de la Traducción de Voz a Voz con Predicción Multi-token

Información Básica

ID del Artículo: 2510.10003
Título: MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction
Autores: Jianjin Wang, Runsong Zhao, Xiaoqian Liu, Yuan Ge, Ziqiang Xu, Tong Xiao, Shengxiang Gao, Zhengtao Yu, Jingbo Zhu
Clasificación: cs.CL, cs.SD, eess.AS
Fecha de Publicación: 11 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.10003

Resumen

Los métodos actuales de traducción directa de voz a voz utilizan principalmente tokens de voz como representación intermedia. Sin embargo, la densidad semántica de un token de voz individual es baja, requiriendo típicamente múltiples tokens para expresar una unidad semántica completa. Para abordar esta limitación, este artículo introduce la pérdida de predicción multi-token (MTP) en modelos de traducción de voz a unidades (S2UT), permitiendo que el modelo prediga múltiples tokens posteriores en cada posición, capturando así semántica más completa e incrementando la densidad de información en cada posición. La implementación inicial de MTP aplicaba la pérdida a la capa final, mejorando la representación de salida pero iniciando el enriquecimiento de información demasiado tarde. Este artículo propone que adelantar el proceso de enriquecimiento de información a capas intermedias puede lograr una mejora de representación oculta más temprana y efectiva. Por lo tanto, se propone la pérdida MTP-S2UT, aplicando la pérdida MTP a la capa de representación oculta donde se calcula la pérdida CTC. Los experimentos demuestran que todas las variantes de pérdida MTP mejoran consistentemente la calidad de traducción de S2UT, siendo MTP-S2UT la que logra el mejor desempeño.

Contexto de Investigación y Motivación

Problema Central

El desafío principal de la traducción directa de voz a voz es la escasez semántica de los tokens de voz. En comparación con los tokens de texto, la representación semántica de los tokens de voz es más dispersa, requiriendo típicamente múltiples tokens de voz para expresar un único concepto semántico, lo que resulta en mayor entropía de predicción y complejidad de modelado.

Importancia del Problema

Demanda de Aplicaciones Prácticas: La traducción de voz a voz tiene amplias perspectivas de aplicación en conferencias internacionales, comunicación transnacional, turismo y otros escenarios
Cuello de Botella Tecnológico: Los métodos existentes presentan insuficiencias en densidad de representación semántica y precisión de predicción
Eficiencia del Modelo: La escasez de tokens de voz incrementa la incertidumbre de predicción del modelo

Limitaciones de Métodos Existentes

Baja Densidad Semántica: Un token de voz individual no puede llevar información semántica completa
Alta Entropía de Predicción: Expresar un único concepto con múltiples tokens incrementa la complejidad de predicción
Fusión de Información Retrasada: Los métodos MTP existentes se aplican únicamente a la capa final, perdiendo oportunidades de fusión temprana de información

Motivación de la Investigación

Basándose en la observación de que los tokens de voz requieren múltiples tokens coordinados para expresar semántica completa, este artículo propone mejorar la densidad semántica mediante predicción multi-token, adelantando este enriquecimiento a capas intermedias para lograr aprendizaje de representación más efectivo.

Contribuciones Principales

Primera Introducción de Pérdida MTP en Marco S2UT: Aplicación sistemática de técnica de predicción multi-token a tareas de traducción de voz a voz
Propuesta de Pérdida MTP-S2UT: Aplicación innovadora de pérdida MTP a capas ocultas CTC, logrando fusión de información más temprana
Verificación Experimental Exhaustiva: Validación de la efectividad del método en múltiples tokenizadores de voz y pares de idiomas
Análisis Mecanístico Profundo: Revelación del mecanismo de funcionamiento de la pérdida MTP mediante análisis de decodificación CTC y análisis de entropía

Explicación Detallada del Método

Definición de Tarea

La tarea de traducción de voz a voz se define como un conjunto de datos de cuádruples $D = \{(S,X,Y,T)\}$ , donde:

$S = (s_1, \cdots, s_{|S|})$ : voz del idioma fuente
$X = (x_1, \cdots, x_{|X|})$ : texto del idioma fuente
$Y = (y_1, \cdots, y_{|Y|})$ : texto del idioma destino
$T = (t_1, \cdots, t_{|T|})$ : voz del idioma destino

Arquitectura del Modelo

Arquitectura Base S2UT

El modelo S2UT contiene tres componentes principales:

Tokenizador de Voz: Cuantifica voz continua del destino en secuencia de tokens de voz discretos $U = (u_1, \cdots, u_{|U|}, e)$
Modelo Secuencia a Secuencia: Convierte voz fuente a tokens de voz destino
Detokenizador: Sintetiza voz destino a partir de tokens de voz

El proceso de cálculo central del modelo:

H⁰_dec = Emb(U₊₁)                                    (1)
Hⁱ_dec = DecoderLayerᵢ(H^enc, Hⁱ⁻¹_dec)            (2)
L_NTP = -logP(U|H^L_dec)                             (3)
L_S2UT = L_NTP + L_other                             (4)

Variantes de Pérdida MTP

Este artículo implementa cuatro variantes de pérdida MTP:

1. MTP-Parallel-Linear Utiliza N cabezas lineales independientes:

P(U₋ₖ|H^L_dec) = softmax(WᵏH^L_dec)                 (6)

2. MTP-DeepSeek-V3 Adopta teacher-forcing y bloques Transformer:

H⁰_out = H^L_dec                                     (7)
Hᵏ_in = Wᵏ_in[LN(Hᵏ⁻¹_out); LN(Emb(U₁₋ₖ))]         (8)
Hᵏ_out = Decoderₖ(H^enc, Hᵏ_in)                     (9)
P(U₋ₖ|H^L_dec) = softmax(W_outHᵏ_out)               (10)

3. MTP-VocalNet Elimina entrada de teacher-forcing:

Hᵏ_in = Hᵏ⁻¹_out                                     (11)

Puntos de Innovación Técnica

Innovación Central de MTP-S2UT

Perspectiva Clave: La capa oculta CTC $H^m_{dec}$ contiene simultáneamente información de modalidades de texto y voz, siendo el lugar ideal para aplicar pérdida MTP.

Método de Implementación:

L_MTP-S2UT = -∑ᵏ⁼⁰^(N-1) logP(U₋ₖ|H^m_dec)         (13)

Hᵏ_out = Decoderₖ(H^enc, H^m_dec)                   (14)
P(U₋ₖ|H^m_dec) = softmax(W_outHᵏ_out)               (15)

Ventajas del Diseño:

Fusión de Información Más Temprana: Aplicación de pérdida MTP en capa intermedia en lugar de capa final
Utilización de Información Multimodal: Aprovechamiento completo de la representación de fusión texto-voz de la capa CTC
Avance Semántico: Promoción del movimiento hacia adelante de información semántica en la secuencia

Configuración Experimental

Conjunto de Datos

Se utiliza el conjunto de datos de referencia CVSS-C, un conjunto de datos a gran escala para traducción de voz a voz:

Pares de Idiomas: Francés→Inglés (Fr→En) y Español→Inglés (Es→En)
Preprocesamiento: Características de mel-filterbank de 80 dimensiones, normalización global de media y varianza cepstral

Tokenizadores de Voz

Se evaluaron tres tokenizadores:

Tokenizador No Supervisado: Basado en características mHuBERT con agrupamiento k-means (k=1000)
Tokenizador S3: Tokenizador supervisado, tamaño de libro de códigos 6561
GLM-4-Voice-Tokenizer: Tokenizador supervisado, tamaño de libro de códigos 16384

Configuración del Modelo

Codificador: 12 capas Conformer, dimensión oculta 256
Decodificador: 6 capas Transformer, dimensión oculta 512
Decodificador CTC: Conectado después de la tercera capa del decodificador, peso 1.6
Configuración MTP: Predicción de N=7 tokens posteriores para cada token de voz, peso de pérdida MTP 1.0

Métricas de Evaluación

Se utiliza ASR-BLEU para evaluar la calidad de traducción:

Transcripción de voz sintetizada a texto mediante modelo ASR
Cálculo de puntuación BLEU entre texto transcrito y texto de referencia

Resultados Experimentales

Resultados Principales

Resultados de Tarea Fr→En

Tokenizador	Modelo	Greedy	Beam5	Beam10
S3	S2UT	17.79	18.98	19.15
S3	+ MTP-S2UT	24.36	25.14	25.16
HuBERT	S2UT	22.02	23.11	23.33
HuBERT	+ MTP-S2UT	23.59	24.50	24.53
GLM-4	S2UT	21.62	23.08	23.26
GLM-4	+ MTP-S2UT	23.97	25.22	25.26

Resultados de Tarea Es→En

Modelo	Greedy	Beam5	Beam10
S2UT	16.67	17.99	18.18
+ MTP-S2UT	21.87	22.59	22.83

Hallazgos Clave

Mejora Consistente: Todas las variantes MTP mejoran la calidad de traducción
Mejor Desempeño: MTP-S2UT logra los mejores resultados en todas las configuraciones
Mejora Significativa: ASR-BLEU con búsqueda greedy en tokenizador S3 mejora de 17.79 a 24.36 (+37%)

Experimentos de Ablación

Análisis de Desplazamiento Hacia Adelante de Decodificación CTC

Mediante análisis de estados ocultos CTC se descubrió:

Modelos entrenados con MTP muestran desplazamiento hacia adelante de tokens de texto en comparación con NTP
La posición relativa promedio de primera aparición de tokens de texto se adelanta significativamente

Modelo	S3	HuBERT	GLM-4
S2UT	51.011%	49.628%	50.363%
MTP-S2UT	47.382%	44.561%	43.889%

Análisis de Incertidumbre de Tokens de Voz

Mediante análisis de entropía se descubrió:

Todas las variantes MTP reducen la incertidumbre de predicción de tokens de voz
MTP-S2UT muestra la reducción de incertidumbre más significativa
Incremento de frecuencia en regiones de baja entropía, disminución en regiones de alta entropía

Trabajo Relacionado

Traducción de Voz a Voz

Métodos Directos: Utilización de unidades de voz discretas como representación intermedia
Arquitecturas Representativas: Modelo S2UT y sus variantes (UnitY, SeamlessM4T, etc.)
Desafíos Técnicos: Escasez semántica de tokens de voz y complejidad de predicción

Predicción Multi-token

Origen: Inicialmente utilizada como tarea auxiliar en modelos de lenguaje grandes
Desarrollo: Mejoras de DeepSeek-V3 y aplicación de VocalNet en diálogos de voz
Ventajas: Mejora de capacidad de representación, aceleración de inferencia, captura de patrones locales

Conclusiones y Discusión

Conclusiones Principales

Efectividad de Pérdida MTP: La introducción de pérdida MTP en marco S2UT mejora significativamente la calidad de traducción
Ventajas de Fusión Temprana: Aplicación de pérdida MTP a capa CTC intermedia es más efectiva que a capa final
Perspectivas Mecanísticas: MTP promueve el movimiento hacia adelante de información semántica y reduce incertidumbre de predicción

Limitaciones

Sobrecarga Computacional: Entrenamiento MTP introduce parámetros adicionales y complejidad computacional
Cobertura de Idiomas: Experimentos validados únicamente en pares de idiomas europeos, faltando validación más amplia
Análisis Teórico: La comprensión teórica del mecanismo de funcionamiento de MTP aún requiere profundización

Direcciones Futuras

Extensión a Más Pares de Idiomas: Validación de efectividad del método entre diferentes familias lingüísticas
Optimización de Eficiencia Computacional: Reducción de sobrecarga computacional del entrenamiento MTP
Modelado Teórico: Comprensión profunda del mecanismo de funcionamiento de MTP en traducción de voz

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera aplicación sistemática de MTP a traducción de voz a voz
Método Razonable: Diseño de MTP-S2UT basado en comprensión profunda de características de capa CTC
Verificación Experimental Exhaustiva: Validación completa con múltiples tokenizadores, pares de idiomas y estrategias de decodificación
Análisis Profundo: Revelación del mecanismo de funcionamiento del método mediante análisis de decodificación CTC y entropía
Resultados Significativos: Mejoras consistentes y significativas en todas las configuraciones

Insuficiencias

Limitación de Idiomas: Validación únicamente en pares de idiomas europeos, generalizabilidad pendiente
Análisis Computacional Faltante: Falta de análisis detallado de sobrecarga computacional del entrenamiento MTP
Comparación Insuficiente: Falta de comparación con otros métodos de mejora de traducción de voz
Profundidad Teórica: Análisis teórico del mecanismo de funcionamiento de MTP aún insuficiente

Impacto

Valor Académico: Proporciona nuevas perspectivas de mejora para campo de traducción de voz
Valor Práctico: Mejoras de desempeño significativas con potencial de aplicación práctica
Reproducibilidad: Descripción clara del método, configuración experimental detallada
Inspiración: Proporciona perspectivas valiosas para modelado de secuencias multimodales

Escenarios Aplicables

Traducción de Voz de Alta Calidad: Aplicable a escenarios con requisitos altos de calidad de traducción
Sistemas de Conferencias Multilingües: Aplicación en sistemas de comunicación multilingüe en tiempo real
Asistentes de Voz: Mejora de capacidad de traducción de asistentes de voz multilingües
Educación y Capacitación: Aplicaciones en aprendizaje de idiomas e intercambio intercultural

Referencias Bibliográficas

Este artículo cita trabajos importantes en campos relacionados de traducción de voz a voz, predicción multi-token y aprendizaje de representación de voz, proporcionando base teórica sólida para la investigación. Las referencias clave incluyen artículos originales de S2UT, trabajos relacionados con MTP (DeepSeek-V3, VocalNet) y tecnologías fundamentales de procesamiento de voz (HuBERT, CTC, etc.).

Evaluación General: Este es un artículo de alta calidad que propone un método de mejora innovador y efectivo en el campo de la traducción de voz a voz. Mediante aplicación ingeniosa de técnica de predicción multi-token a capa intermedia del marco S2UT, logra mejoras de desempeño significativas. El diseño experimental es riguroso, el análisis es profundo, y hace contribuciones valiosas al desarrollo del campo.