DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation
Yang, Nakamura
Simultaneous speech translation requires accurate segmentation to balance translation quality and latency. Recent studies such as SHAS have introduced pretrained segmentation models, achieving stronger performance than heuristic rules. However, segmentation models such as SHAS, though pretrained and more robust than heuristic methods, are still constrained by supervised learning objectives and do not incorporate human preference alignment, which is crucial for natural real-time interpretation. In this work, we propose a segmentation framework based on large language models (LLMs) trained with Direct Preference Optimization (DPO). By leveraging preference alignment, our method enables LLMs to predict natural segmentation points that better meet the demands of real-time translation. We evaluate the system on the ACL 60/60 corpus across three language pairs (English-Japanese, Chinese, German), using SeamlessM4T v2 as the translation backbone. Experimental results show that our DPO-tuned LLM achieves higher segmentation accuracy than SHAS and yields consistent improvements in translation quality (BLEU, COMET) as well as latency (Average Lagging). Furthermore, our system benefits from IWSLT baselines for direct comparison. These findings highlight the potential of preference-tuned LLMs to surpass existing pretrained segmentation models and advance adaptive, human-aligned simultaneous interpretation.
academic
Большие языковые модели, настроенные с помощью DPO, для сегментации в одновременном речевом переводе
Одновременный речевой перевод требует точной сегментации для достижения баланса между качеством перевода и задержкой. Хотя предварительно обученные модели сегментации, такие как SHAS, превосходят эвристические правила, они остаются ограниченными целями контролируемого обучения и не согласованы с предпочтениями человека. В данной работе предлагается структура сегментации больших языковых моделей (LLM), обученная с использованием прямой оптимизации предпочтений (DPO), которая позволяет LLM предсказывать более естественные точки сегментации посредством согласования предпочтений. Оценка проводится на трёх языковых парах в корпусе ACL 60/60 с использованием SeamlessM4T v2 в качестве основного модуля перевода. Экспериментальные результаты демонстрируют, что LLM, настроенный с помощью DPO, превосходит SHAS по точности сегментации и обеспечивает постоянное улучшение как качества перевода (BLEU, COMET), так и задержки (среднее отставание).
Основная задача одновременного речевого перевода (SimulST) заключается в минимизации задержки при сохранении качества перевода, что требует от системы способности точно определять, когда следует сегментировать входной поток и выдавать перевод. Неправильная сегментация приводит к неполным или избыточным единицам перевода, серьёзно влияя на точность и пользовательский опыт.
Сегментация считается ключевым компонентом практических систем SimulST, особенно в потоковом SimulST, где неправильные границы значительно ухудшают качество перевода и задержку. Традиционные эвристические правила (такие как предсказание пунктуации, разбиение на блоки фиксированной длины), хотя и просты и эффективны, часто не могут адаптироваться к разнообразным языковым структурам и стилям речи.
Эвристические подходы: Методы, такие как стратегия wait-k с фиксированной длиной, ограничены в адаптации к языковым изменениям
Предварительно обученные модели: Такие как SHAS, хотя и более надёжны, чем эвристические методы, остаются ограниченными целями контролируемого обучения и полагаются только на акустические признаки
Отсутствие согласования с предпочтениями человека: Существующие методы не включают согласование производительности машинного перевода, что критически важно для естественного и своевременного перевода
Большие языковые модели демонстрируют выдающиеся способности к обобщению в задачах речи и перевода, но их потенциал в сегментации SimulST ещё полностью не исследован. Прямая оптимизация предпочтений (DPO) предоставляет перспективное направление для согласования модели с обратной связью человека, позволяя достичь принятия решений, направляемых предпочтениями, превосходящих контролируемое обучение.
Предложена структура сегментации LLM, оптимизированная с помощью DPO: Впервые применена оптимизация предпочтений к задаче сегментации SimulST
Построена комплексная экспериментальная оценка: Оценка на трёх языковых парах в наборе данных ACL 60/60 с использованием SeamlessM4T v2 в качестве основного модуля перевода
Доказана превосходство LLM, настроенного с помощью предпочтений: Улучшение как качества перевода, так и задержки по сравнению с предварительно обученной моделью сегментации SHAS
Предоставлена полная сквозная система: Интеграция модуля сегментации с системой перевода для реализации одновременного речевого перевода в реальном времени
Задача сегментации в SimulST определяется как предсказание точек разрыва предложений во входящем потоке речи с целью достижения баланса между качеством перевода и задержкой. Для заданной последовательности входящей речи x модель выдаёт последовательность решений сегментации {s₁, s₂, ..., sₜ}, где каждый sₜ представляет предсказанную позицию границы. В отличие от подходов бинарной классификации, данная работа определяет сегментацию как задачу предсказания следующей точки разрыва.
В качестве основной модели сегментации используется Qwen2.5-Omni-3B, работающая в потоковом режиме с использованием механизма скользящего окна на входных данных речи. Модель непосредственно обрабатывает акустические признаки на уровне блоков, а не основана на транскрипциях ASR на уровне токенов, и инкрементально предсказывает следующую точку сегментации с учётом текущего контекста речи.
Для интеграции сигналов согласования с человеком строятся пары предпочтений кандидатов сегментации:
Генерируются кандидатные границы путём объединения различных эвристик и стратегий предварительного обучения (VAD, сегментация фиксированной длины, выход SHAS)
Каждая кандидатная сегментация оценивается с использованием качества перевода (BLEU) и задержки (среднее отставание)
Из этих метрик выводятся сигналы ранжирования, где сегментации с лучшей производительностью служат предпочтительными кандидатами
Всего получено примерно 8000 пар предпочтений для обучения
Используется прямая оптимизация предпочтений для тонкой настройки LLM:
Для заданного входящего высказывания x генерируются несколько кандидатных сегментаций, где каждая сегментация y представляется как последовательность индексов границ во входящем потоке. Строятся пары предпочтений (y_pref, y_dispref), где y_pref представляет предпочтительную сегментацию, обеспечивающую лучшее качество перевода и более низкую задержку.
где π_θ представляет политику, индуцированную LLM, а β — гиперпараметр масштабирования. Обучение проводится в течение 5 эпох с использованием стандартного расписания скорости обучения.
Анализ кривых компромисса между задержкой и качеством показывает, что LLM, обученный с помощью DPO, постоянно превосходит другие стратегии сегментации во всём диапазоне операций, достигая более высоких оценок BLEU при сопоставимой или более низкой задержке.
Крупные многоязычные мультимодальные системы перевода, такие как SeamlessM4T, предоставляют мощные основные модули для задач речевого перевода, демонстрируя передовую производительность на множестве языков.
Насколько известно авторам, ранее не было работ, применяющих оптимизацию на основе предпочтений к задаче сегментации в SimulST. Данная работа заполняет этот пробел.
Эффективность DPO: Оптимизация предпочтений позволяет модели обучаться сегментации, согласованной с предпочтениями человека, создавая более естественные границы и лучший компромисс между качеством и задержкой
Повышение производительности: При задержке примерно 3 секунды наблюдается постоянное улучшение по сравнению с SHAS во всех трёх языковых направлениях
Практическая ценность: Доказана потенциальность LLM, настроенного с помощью предпочтений, в реальном одновременном переводе
Ограниченный объём оценки: Ограничение тремя языковыми парами требует проверки обобщаемости на более разнообразные направления
Вычислительные затраты: LLM с 3 млрд параметров вносит дополнительные вычислительные затраты, что может ограничить развёртывание на устройствах с ограниченными ресурсами
Проблемы стабильности: Наблюдаются колебания BLEU при определённых пороговых значениях задержки, указывая на возможность улучшения стабильности сегментации
Ограничения метрик оценки: Полагание на BLEU и задержку в качестве автоматических метрик, отсутствие оценки человеком
Высокая инновационность: Впервые применена DPO к сегментации SimulST, открывая новое направление исследований
Обоснованная методология: Идея согласования предпочтений соответствует требованиям практического применения, решая основные проблемы существующих методов
Достаточные эксперименты: Комплексная оценка на нескольких языковых парах с последовательными и убедительными результатами
Высокая практическая ценность: Предоставляет полную сквозную систему с потенциалом практического развёртывания
Недостаточный теоретический анализ: Отсутствие глубокого теоретического анализа того, почему DPO эффективна в задаче сегментации
Простое построение пар предпочтений: Построение пар предпочтений только на основе BLEU и задержки может быть недостаточно полным
Проблемы вычислительной эффективности: Производительность модели с 3 млрд параметров в реальном времени может стать узким местом практического применения
Единственность метрик оценки: Основное полагание на автоматические метрики, отсутствие субъективной оценки качества
Статья ссылается на важные работы в соответствующих областях, включая:
Модель сегментации SHAS Tsiamas et al., 2022
Система перевода SeamlessM4T Meta AI, 2023-2024
Метод оптимизации DPO Rafailov et al., 2023
Эталонная оценка ACL 60/60 Salesky et al., 2023
Общая оценка: Это статья с высокой технической инновационностью, впервые применяющая оптимизацию предпочтений к задаче сегментации SimulST. Методология обоснована, результаты экспериментов убедительны. Хотя существует место для улучшения в теоретическом анализе и вычислительной эффективности, работа предоставляет ценный вклад и новое направление развития для данной области.