2025-11-12T02:28:29.830875

MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction

Wang, Zhao, Liu et al.

Current direct speech-to-speech translation methods predominantly employ speech tokens as intermediate representations. However, a single speech token is not dense in semantics, so we generally need multiple tokens to express a complete semantic unit. To address this limitation, we introduce multi-token prediction (MTP) loss into speech-to-unit translation (S2UT) models, enabling models to predict multiple subsequent tokens at each position, thereby capturing more complete semantics and enhancing information density per position. Initial MTP implementations apply the loss at the final layer, which improves output representation but initiates information enrichment too late. We hypothesize that advancing the information enrichment process to intermediate layers can achieve earlier and more effective enhancement of hidden representation. Consequently, we propose MTP-S2UT loss, applying MTP loss to hidden representation where CTC loss is computed. Experiments demonstrate that all MTP loss variants consistently improve the quality of S2UT translation, with MTP-S2UT achieving the best performance.

academic

MTP-S2UT: Повышение качества перевода речи в речь с помощью многотокенного предсказания

Основная информация

ID статьи: 2510.10003
Название: MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction
Авторы: Jianjin Wang, Runsong Zhao, Xiaoqian Liu, Yuan Ge, Ziqiang Xu, Tong Xiao, Shengxiang Gao, Zhengtao Yu, Jingbo Zhu
Категория: cs.CL, cs.SD, eess.AS
Дата публикации: 11 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.10003

Аннотация

Современные методы прямого перевода речи в речь в основном используют речевые токены в качестве промежуточного представления. Однако отдельные речевые токены имеют низкую семантическую плотность и обычно требуют нескольких токенов для выражения полной семантической единицы. Для решения этого ограничения в данной работе вводится потеря многотокенного предсказания (MTP) в модель перевода речи в единицы (S2UT), позволяя модели предсказывать несколько последующих токенов в каждой позиции, тем самым захватывая более полную семантику и повышая информационную плотность каждой позиции. Первоначальная реализация MTP применяла потерю к финальному слою, что хотя и улучшало выходное представление, но информационное обогащение начиналось слишком поздно. В данной работе предполагается, что перемещение процесса информационного обогащения на промежуточные слои может обеспечить более раннее и эффективное улучшение скрытого представления. Таким образом, предлагается потеря MTP-S2UT, которая применяет потерю MTP к скрытому представлению слоя, используемому для расчета потери CTC. Эксперименты показывают, что все варианты потери MTP постоянно улучшают качество перевода S2UT, при этом MTP-S2UT достигает наилучших результатов.

Исследовательский контекст и мотивация

Основная проблема

Прямой перевод речи в речь сталкивается с основной проблемой семантической разреженности речевых токенов. По сравнению с текстовыми токенами, речевые токены имеют более разреженное семантическое представление, обычно требуя нескольких речевых токенов для выражения единого семантического понятия, что приводит к более высокой энтропии предсказания и сложности моделирования.

Значимость проблемы

Потребности практического применения: Перевод речи в речь имеет широкие перспективы применения на международных конференциях, в трансграничном общении, туризме и других сценариях
Технические узкие места: Существующие методы имеют недостатки в семантической плотности представления и точности предсказания
Эффективность модели: Разреженность речевых токенов увеличивает неопределённость предсказания модели

Ограничения существующих методов

Низкая семантическая плотность: Отдельный речевой токен не может нести полную семантическую информацию
Высокая энтропия предсказания: Выражение единого понятия несколькими токенами увеличивает сложность предсказания
Задержка информационного слияния: Существующие методы MTP применяются только к финальному слою, упуская возможности раннего информационного слияния

Исследовательская мотивация

На основе наблюдения, что речевые токены требуют сотрудничества нескольких токенов для выражения полной семантики, в данной работе предлагается повысить семантическую плотность посредством многотокенного предсказания и переместить это улучшение на промежуточные слои для более эффективного обучения представлениям.

Основные вклады

Первое введение потери MTP в框架S2UT: Систематическое применение технологии многотокенного предсказания к задаче перевода речи в речь
Предложение потери MTP-S2UT: Инновационное применение потери MTP к скрытому слою CTC для более раннего информационного слияния
Комплексная экспериментальная верификация: Верификация эффективности метода на различных речевых токенизаторах и языковых парах
Глубокий механистический анализ: Раскрытие механизма работы потери MTP посредством анализа декодирования CTC и анализа энтропии

Подробное описание метода

Определение задачи

Задача перевода речи в речь определяется как набор данных четвёрок $D = \{(S,X,Y,T)\}$ , где:

$S = (s_1, \cdots, s_{|S|})$ : речь на исходном языке
$X = (x_1, \cdots, x_{|X|})$ : текст на исходном языке
$Y = (y_1, \cdots, y_{|Y|})$ : текст на целевом языке
$T = (t_1, \cdots, t_{|T|})$ : речь на целевом языке

Архитектура модели

Базовая архитектура S2UT

Модель S2UT содержит три основных компонента:

Речевой токенизатор: Квантизирует непрерывную целевую речь в последовательность дискретных речевых токенов $U = (u_1, \cdots, u_{|U|}, e)$
Модель последовательность-в-последовательность: Преобразует исходную речь в целевые речевые токены
Детокенизатор: Синтезирует целевую речь из речевых токенов

Основной процесс вычисления модели:

H⁰_dec = Emb(U₊₁)                                    (1)
Hⁱ_dec = DecoderLayerᵢ(H^enc, Hⁱ⁻¹_dec)            (2)
L_NTP = -logP(U|H^L_dec)                             (3)
L_S2UT = L_NTP + L_other                             (4)

Варианты потери MTP

В работе реализованы четыре варианта потери MTP:

1. MTP-Parallel-Linear Использует N независимых линейных головок:

P(U₋ₖ|H^L_dec) = softmax(WᵏH^L_dec)                 (6)

2. MTP-DeepSeek-V3 Применяет принуждение учителем и блоки Transformer:

H⁰_out = H^L_dec                                     (7)
Hᵏ_in = Wᵏ_in[LN(Hᵏ⁻¹_out); LN(Emb(U₁₋ₖ))]         (8)
Hᵏ_out = Decoderₖ(H^enc, Hᵏ_in)                     (9)
P(U₋ₖ|H^L_dec) = softmax(W_outHᵏ_out)               (10)

3. MTP-VocalNet Удаляет входные данные принуждения учителем:

Hᵏ_in = Hᵏ⁻¹_out                                     (11)

Технические инновации

Основная инновация MTP-S2UT

Ключевое понимание: Скрытый слой CTC $H^m_{dec}$ одновременно содержит информацию текстовой и речевой модальностей, что делает его идеальным местом для применения потери MTP.

Метод реализации:

L_MTP-S2UT = -∑ᵏ⁼⁰^(N-1) logP(U₋ₖ|H^m_dec)         (13)

Hᵏ_out = Decoderₖ(H^enc, H^m_dec)                   (14)
P(U₋ₖ|H^m_dec) = softmax(W_outHᵏ_out)               (15)

Преимущества проектирования:

Более раннее информационное слияние: Применение потери MTP на промежуточном слое вместо финального слоя
Использование кроссмодальной информации: Полное использование представления текстово-речевого слияния слоя CTC
Передвижение семантики: Содействие передвижению семантической информации вперёд в последовательности

Экспериментальная установка

Набор данных

Используется эталонный набор данных CVSS-C, который является крупномасштабным набором данных для перевода речи в речь:

Языковые пары: французский→английский (Fr→En) и испанский→английский (Es→En)
Предварительная обработка: 80-мерные mel-filterbank признаки с глобальной нормализацией среднего значения и дисперсии кепстра

Речевой токенизатор

Оценены три токенизатора:

Неконтролируемый токенизатор: На основе признаков mHuBERT с кластеризацией k-means (k=1000)
Токенизатор S3: Контролируемый токенизатор с размером кодовой книги 6561
GLM-4-Voice-Tokenizer: Контролируемый токенизатор с размером кодовой книги 16384

Конфигурация модели

Кодировщик: 12-слойный Conformer, скрытое измерение 256
Декодер: 6-слойный Transformer, скрытое измерение 512
Декодер CTC: Подключен к 3-му слою декодера, вес 1.6
Конфигурация MTP: Предсказание N=7 последующих токенов для каждого речевого токена, вес потери MTP 1.0

Метрики оценки

Используется ASR-BLEU для оценки качества перевода:

Модель ASR транскрибирует синтезированную речь в текст
Вычисляется оценка BLEU транскрибированного текста относительно эталонного текста

Результаты экспериментов

Основные результаты

Результаты задачи Fr→En

Токенизатор	Модель	Greedy	Beam5	Beam10
S3	S2UT	17.79	18.98	19.15
S3	+ MTP-S2UT	24.36	25.14	25.16
HuBERT	S2UT	22.02	23.11	23.33
HuBERT	+ MTP-S2UT	23.59	24.50	24.53
GLM-4	S2UT	21.62	23.08	23.26
GLM-4	+ MTP-S2UT	23.97	25.22	25.26

Результаты задачи Es→En

Модель	Greedy	Beam5	Beam10
S2UT	16.67	17.99	18.18
+ MTP-S2UT	21.87	22.59	22.83

Ключевые выводы

Последовательное улучшение: Все варианты MTP улучшают качество перевода
Лучшая производительность: MTP-S2UT достигает лучших результатов во всех установках
Значительное улучшение: На токенизаторе S3 ASR-BLEU при жадном поиске повышается с 17.79 до 24.36 (+37%)

Абляционные эксперименты

Анализ переднего смещения декодирования CTC

Посредством анализа результатов декодирования скрытых состояний CTC обнаружено:

Модели, обученные с MTP, показывают переднее смещение текстовых токенов по сравнению с NTP
Среднее относительное положение первого появления текстовых токенов значительно смещается вперёд

Модель	S3	HuBERT	GLM-4
S2UT	51.011%	49.628%	50.363%
MTP-S2UT	47.382%	44.561%	43.889%

Анализ неопределённости речевых токенов

Посредством анализа энтропии обнаружено:

Все варианты MTP снижают неопределённость предсказания речевых токенов
MTP-S2UT показывает наиболее значительное снижение неопределённости
Увеличивается частота областей с низкой энтропией, уменьшается частота областей с высокой энтропией

Связанные работы

Перевод речи в речь

Прямые методы: Использование дискретных речевых единиц в качестве промежуточного представления
Представительные архитектуры: Модель S2UT и её варианты (UnitY, SeamlessM4T и т.д.)
Технические вызовы: Семантическая разреженность речевых токенов и сложность предсказания

Многотокенное предсказание

Происхождение: Первоначально использовалось как вспомогательная задача в больших языковых моделях
Развитие: Улучшения DeepSeek-V3 и применение VocalNet в речевых диалогах
Преимущества: Улучшение способности представления, ускорение вывода, захват локальных паттернов

Заключение и обсуждение

Основные выводы

Эффективность потери MTP: Введение потери MTP в框架S2UT значительно повышает качество перевода
Преимущества раннего слияния: Применение потери MTP к промежуточному слою CTC более эффективно, чем к финальному слою
Механистические понимания: MTP способствует передвижению семантической информации вперёд и снижает неопределённость предсказания

Ограничения

Вычислительные издержки: Обучение MTP вводит дополнительные параметры и вычислительную сложность
Охват языков: Эксперименты верифицированы только на европейских языковых парах, отсутствует более широкая языковая верификация
Теоретический анализ: Теоретическое понимание механизма работы MTP требует дальнейшего углубления

Будущие направления

Расширение на большее количество языковых пар: Верификация эффективности метода между различными языковыми семействами
Оптимизация вычислительной эффективности: Снижение вычислительных издержек обучения MTP
Теоретическое моделирование: Глубокое понимание механизма действия MTP в переводе речи

Глубокая оценка

Преимущества

Высокая инновационность: Первое систематическое введение MTP в перевод речи в речь
Обоснованный метод: Проектирование MTP-S2UT основано на глубоком понимании характеристик слоя CTC
Полные эксперименты: Комплексная верификация на различных токенизаторах, языковых парах и стратегиях декодирования
Глубокий анализ: Раскрытие механизма работы метода посредством анализа декодирования CTC и анализа энтропии
Значительные результаты: Последовательные и значительные улучшения во всех установках

Недостатки

Языковые ограничения: Верификация только на европейских языковых парах, обобщаемость требует проверки
Отсутствие анализа вычислений: Отсутствует подробный анализ вычислительных издержек обучения MTP
Недостаточное сравнение: Отсутствует сравнение с другими методами улучшения перевода речи
Недостаточная теоретическая глубина: Теоретический анализ механизма работы MTP требует углубления

Влияние

Академическая ценность: Предоставляет новые идеи улучшения для области перевода речи
Практическая ценность: Значительное повышение производительности обеспечивает потенциал практического применения
Воспроизводимость: Ясное описание метода и подробные экспериментальные установки
Вдохновляющий характер: Предоставляет ценные понимания для многомодального последовательного моделирования

Применимые сценарии

Высококачественный перевод речи: Применимо к сценариям с высокими требованиями к качеству перевода
Многоязычные системы конференций: Может применяться в системах реального времени многоязычного общения
Речевые помощники: Повышение способности перевода кроссязычных речевых помощников
Образование и обучение: Приложения для изучения языков и кросскультурного общения

Библиография

В данной работе цитируются важные работы в смежных областях перевода речи в речь, многотокенного предсказания, обучения речевым представлениям, обеспечивающие прочную теоретическую базу для исследования. Ключевые цитируемые работы включают оригинальную статью S2UT, работы, связанные с MTP (DeepSeek-V3, VocalNet), а также базовые технологии обработки речи (HuBERT, CTC и т.д.).

Общая оценка: Это высококачественная техническая статья, предлагающая инновационный и эффективный метод улучшения в области перевода речи в речь. Посредством умелого применения технологии многотокенного предсказания к промежуточному слою框架S2UT достигнуто значительное повышение производительности. Экспериментальное проектирование статьи строго, анализ глубок, что вносит ценный вклад в развитие данной области.