MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction
Wang, Zhao, Liu et al.
Current direct speech-to-speech translation methods predominantly employ speech tokens as intermediate representations. However, a single speech token is not dense in semantics, so we generally need multiple tokens to express a complete semantic unit. To address this limitation, we introduce multi-token prediction (MTP) loss into speech-to-unit translation (S2UT) models, enabling models to predict multiple subsequent tokens at each position, thereby capturing more complete semantics and enhancing information density per position. Initial MTP implementations apply the loss at the final layer, which improves output representation but initiates information enrichment too late. We hypothesize that advancing the information enrichment process to intermediate layers can achieve earlier and more effective enhancement of hidden representation. Consequently, we propose MTP-S2UT loss, applying MTP loss to hidden representation where CTC loss is computed. Experiments demonstrate that all MTP loss variants consistently improve the quality of S2UT translation, with MTP-S2UT achieving the best performance.
현재의 직접 음성-음성 번역 방법은 주로 음성 토큰을 중간 표현으로 사용합니다. 그러나 개별 음성 토큰의 의미 밀도가 낮아서 완전한 의미 단위를 표현하기 위해 일반적으로 여러 토큰이 필요합니다. 이러한 제한을 해결하기 위해 본 논문은 다중토큰 예측(MTP) 손실을 음성-단위 번역(S2UT) 모델에 도입하여 모델이 각 위치에서 여러 후속 토큰을 예측할 수 있도록 하고, 더 완전한 의미를 포착하며 각 위치의 정보 밀도를 향상시킵니다. 초기의 MTP 구현은 손실을 최종 계층에 적용했는데, 출력 표현을 개선했지만 정보 강화가 너무 늦게 시작되었습니다. 본 논문은 정보 강화 과정을 중간 계층으로 앞당기면 더 빠르고 효과적인 은닉 표현 향상을 달성할 수 있다고 가정합니다. 따라서 MTP-S2UT 손실을 제안하며, 이는 CTC 손실을 계산하는 은닉 표현 계층에 MTP 손실을 적용합니다. 실험 결과 모든 MTP 손실 변형이 S2UT 번역 품질을 지속적으로 개선했으며, 그 중 MTP-S2UT가 최고의 성능을 달성했습니다.
본 논문은 음성-음성 번역, 다중토큰 예측, 음성 표현 학습 등 관련 분야의 중요한 연구를 인용하여 연구에 견고한 이론적 기초를 제공합니다. 주요 참고 문헌에는 S2UT 원본 논문, MTP 관련 연구(DeepSeek-V3, VocalNet) 및 음성 처리 기초 기술(HuBERT, CTC 등)이 포함됩니다.
종합 평가: 이는 음성-음성 번역 분야에서 혁신적이고 효과적인 개선 방법을 제안한 고품질의 기술 논문입니다. 다중토큰 예측 기술을 S2UT 프레임워크의 중간 계층에 교묘하게 적용하여 현저한 성능 향상을 달성했습니다. 논문의 실험 설계는 엄밀하고 분석은 심층적이며, 해당 분야의 발전에 가치 있는 기여를 했습니다.