MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction
Wang, Zhao, Liu et al.
Current direct speech-to-speech translation methods predominantly employ speech tokens as intermediate representations. However, a single speech token is not dense in semantics, so we generally need multiple tokens to express a complete semantic unit. To address this limitation, we introduce multi-token prediction (MTP) loss into speech-to-unit translation (S2UT) models, enabling models to predict multiple subsequent tokens at each position, thereby capturing more complete semantics and enhancing information density per position. Initial MTP implementations apply the loss at the final layer, which improves output representation but initiates information enrichment too late. We hypothesize that advancing the information enrichment process to intermediate layers can achieve earlier and more effective enhancement of hidden representation. Consequently, we propose MTP-S2UT loss, applying MTP loss to hidden representation where CTC loss is computed. Experiments demonstrate that all MTP loss variants consistently improve the quality of S2UT translation, with MTP-S2UT achieving the best performance.
academic
MTP-S2UT: Повышение качества перевода речи в речь с помощью многотокенного предсказания
Современные методы прямого перевода речи в речь в основном используют речевые токены в качестве промежуточного представления. Однако отдельные речевые токены имеют низкую семантическую плотность и обычно требуют нескольких токенов для выражения полной семантической единицы. Для решения этого ограничения в данной работе вводится потеря многотокенного предсказания (MTP) в модель перевода речи в единицы (S2UT), позволяя модели предсказывать несколько последующих токенов в каждой позиции, тем самым захватывая более полную семантику и повышая информационную плотность каждой позиции. Первоначальная реализация MTP применяла потерю к финальному слою, что хотя и улучшало выходное представление, но информационное обогащение начиналось слишком поздно. В данной работе предполагается, что перемещение процесса информационного обогащения на промежуточные слои может обеспечить более раннее и эффективное улучшение скрытого представления. Таким образом, предлагается потеря MTP-S2UT, которая применяет потерю MTP к скрытому представлению слоя, используемому для расчета потери CTC. Эксперименты показывают, что все варианты потери MTP постоянно улучшают качество перевода S2UT, при этом MTP-S2UT достигает наилучших результатов.
Прямой перевод речи в речь сталкивается с основной проблемой семантической разреженности речевых токенов. По сравнению с текстовыми токенами, речевые токены имеют более разреженное семантическое представление, обычно требуя нескольких речевых токенов для выражения единого семантического понятия, что приводит к более высокой энтропии предсказания и сложности моделирования.
Потребности практического применения: Перевод речи в речь имеет широкие перспективы применения на международных конференциях, в трансграничном общении, туризме и других сценариях
Технические узкие места: Существующие методы имеют недостатки в семантической плотности представления и точности предсказания
Эффективность модели: Разреженность речевых токенов увеличивает неопределённость предсказания модели
На основе наблюдения, что речевые токены требуют сотрудничества нескольких токенов для выражения полной семантики, в данной работе предлагается повысить семантическую плотность посредством многотокенного предсказания и переместить это улучшение на промежуточные слои для более эффективного обучения представлениям.
Ключевое понимание: Скрытый слой CTC Hdecm одновременно содержит информацию текстовой и речевой модальностей, что делает его идеальным местом для применения потери MTP.
В данной работе цитируются важные работы в смежных областях перевода речи в речь, многотокенного предсказания, обучения речевым представлениям, обеспечивающие прочную теоретическую базу для исследования. Ключевые цитируемые работы включают оригинальную статью S2UT, работы, связанные с MTP (DeepSeek-V3, VocalNet), а также базовые технологии обработки речи (HuBERT, CTC и т.д.).
Общая оценка: Это высококачественная техническая статья, предлагающая инновационный и эффективный метод улучшения в области перевода речи в речь. Посредством умелого применения технологии многотокенного предсказания к промежуточному слою框架S2UT достигнуто значительное повышение производительности. Экспериментальное проектирование статьи строго, анализ глубок, что вносит ценный вклад в развитие данной области.