2025-11-24T06:04:17.956351

DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation

Yang, Nakamura

Simultaneous speech translation requires accurate segmentation to balance translation quality and latency. Recent studies such as SHAS have introduced pretrained segmentation models, achieving stronger performance than heuristic rules. However, segmentation models such as SHAS, though pretrained and more robust than heuristic methods, are still constrained by supervised learning objectives and do not incorporate human preference alignment, which is crucial for natural real-time interpretation. In this work, we propose a segmentation framework based on large language models (LLMs) trained with Direct Preference Optimization (DPO). By leveraging preference alignment, our method enables LLMs to predict natural segmentation points that better meet the demands of real-time translation. We evaluate the system on the ACL 60/60 corpus across three language pairs (English-Japanese, Chinese, German), using SeamlessM4T v2 as the translation backbone. Experimental results show that our DPO-tuned LLM achieves higher segmentation accuracy than SHAS and yields consistent improvements in translation quality (BLEU, COMET) as well as latency (Average Lagging). Furthermore, our system benefits from IWSLT baselines for direct comparison. These findings highlight the potential of preference-tuned LLMs to surpass existing pretrained segmentation models and advance adaptive, human-aligned simultaneous interpretation.

academic

Большие языковые модели, настроенные с помощью DPO, для сегментации в одновременном речевом переводе

Основная информация

ID статьи: 2510.12195
Название: DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation
Авторы: Zeyu Yang (CUHK, Shenzhen), Satoshi Nakamura (CUHK, Shenzhen & NAIST, Japan)
Классификация: cs.CL (Вычислительная лингвистика)
Дата публикации: 14 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.12195

Аннотация

Одновременный речевой перевод требует точной сегментации для достижения баланса между качеством перевода и задержкой. Хотя предварительно обученные модели сегментации, такие как SHAS, превосходят эвристические правила, они остаются ограниченными целями контролируемого обучения и не согласованы с предпочтениями человека. В данной работе предлагается структура сегментации больших языковых моделей (LLM), обученная с использованием прямой оптимизации предпочтений (DPO), которая позволяет LLM предсказывать более естественные точки сегментации посредством согласования предпочтений. Оценка проводится на трёх языковых парах в корпусе ACL 60/60 с использованием SeamlessM4T v2 в качестве основного модуля перевода. Экспериментальные результаты демонстрируют, что LLM, настроенный с помощью DPO, превосходит SHAS по точности сегментации и обеспечивает постоянное улучшение как качества перевода (BLEU, COMET), так и задержки (среднее отставание).

Исследовательский контекст и мотивация

Основная проблема

Основная задача одновременного речевого перевода (SimulST) заключается в минимизации задержки при сохранении качества перевода, что требует от системы способности точно определять, когда следует сегментировать входной поток и выдавать перевод. Неправильная сегментация приводит к неполным или избыточным единицам перевода, серьёзно влияя на точность и пользовательский опыт.

Значимость проблемы

Сегментация считается ключевым компонентом практических систем SimulST, особенно в потоковом SimulST, где неправильные границы значительно ухудшают качество перевода и задержку. Традиционные эвристические правила (такие как предсказание пунктуации, разбиение на блоки фиксированной длины), хотя и просты и эффективны, часто не могут адаптироваться к разнообразным языковым структурам и стилям речи.

Ограничения существующих методов

Эвристические подходы: Методы, такие как стратегия wait-k с фиксированной длиной, ограничены в адаптации к языковым изменениям
Предварительно обученные модели: Такие как SHAS, хотя и более надёжны, чем эвристические методы, остаются ограниченными целями контролируемого обучения и полагаются только на акустические признаки
Отсутствие согласования с предпочтениями человека: Существующие методы не включают согласование производительности машинного перевода, что критически важно для естественного и своевременного перевода

Исследовательская мотивация

Большие языковые модели демонстрируют выдающиеся способности к обобщению в задачах речи и перевода, но их потенциал в сегментации SimulST ещё полностью не исследован. Прямая оптимизация предпочтений (DPO) предоставляет перспективное направление для согласования модели с обратной связью человека, позволяя достичь принятия решений, направляемых предпочтениями, превосходящих контролируемое обучение.

Основные вклады

Предложена структура сегментации LLM, оптимизированная с помощью DPO: Впервые применена оптимизация предпочтений к задаче сегментации SimulST
Построена комплексная экспериментальная оценка: Оценка на трёх языковых парах в наборе данных ACL 60/60 с использованием SeamlessM4T v2 в качестве основного модуля перевода
Доказана превосходство LLM, настроенного с помощью предпочтений: Улучшение как качества перевода, так и задержки по сравнению с предварительно обученной моделью сегментации SHAS
Предоставлена полная сквозная система: Интеграция модуля сегментации с системой перевода для реализации одновременного речевого перевода в реальном времени

Детальное описание методологии

Определение задачи

Задача сегментации в SimulST определяется как предсказание точек разрыва предложений во входящем потоке речи с целью достижения баланса между качеством перевода и задержкой. Для заданной последовательности входящей речи x модель выдаёт последовательность решений сегментации {s₁, s₂, ..., sₜ}, где каждый sₜ представляет предсказанную позицию границы. В отличие от подходов бинарной классификации, данная работа определяет сегментацию как задачу предсказания следующей точки разрыва.

Архитектура модели

Базовая LLM

В качестве основной модели сегментации используется Qwen2.5-Omni-3B, работающая в потоковом режиме с использованием механизма скользящего окна на входных данных речи. Модель непосредственно обрабатывает акустические признаки на уровне блоков, а не основана на транскрипциях ASR на уровне токенов, и инкрементально предсказывает следующую точку сегментации с учётом текущего контекста речи.

Построение пар предпочтений

Для интеграции сигналов согласования с человеком строятся пары предпочтений кандидатов сегментации:

Генерируются кандидатные границы путём объединения различных эвристик и стратегий предварительного обучения (VAD, сегментация фиксированной длины, выход SHAS)
Каждая кандидатная сегментация оценивается с использованием качества перевода (BLEU) и задержки (среднее отставание)
Из этих метрик выводятся сигналы ранжирования, где сегментации с лучшей производительностью служат предпочтительными кандидатами
Всего получено примерно 8000 пар предпочтений для обучения

Обучение с помощью DPO

Используется прямая оптимизация предпочтений для тонкой настройки LLM:

Для заданного входящего высказывания x генерируются несколько кандидатных сегментаций, где каждая сегментация y представляется как последовательность индексов границ во входящем потоке. Строятся пары предпочтений (y_pref, y_dispref), где y_pref представляет предпочтительную сегментацию, обеспечивающую лучшее качество перевода и более низкую задержку.

Целевая функция DPO:

L(θ) = -E_{(x,y_pref,y_dispref)} [log σ(β · (log π_θ(y_pref | x) - log π_θ(y_dispref | x)))]

где π_θ представляет политику, индуцированную LLM, а β — гиперпараметр масштабирования. Обучение проводится в течение 5 эпох с использованием стандартного расписания скорости обучения.

Технические инновации

Механизм согласования предпочтений: Впервые применена DPO к задаче сегментации, направляя обучение модели с помощью сигналов предпочтений человека
Сквозная оптимизация: Прямая оптимизация комбинированной цели качества перевода и задержки, а не полагание только на акустические признаки
Архитектура потоковой обработки: Разработан механизм скользящего окна, подходящий для обработки в реальном времени
Мультимодальное слияние: Объединение акустических признаков и возможностей языковой модели для принятия решений о сегментации

Экспериментальная установка

Наборы данных

Данные обучения: Корпус CoVoST2, используемый для построения пар предпочтений для обучения DPO
Данные оценки: Тестовый набор ACL 60/60, содержащий технические доклады ACL 2022
Языковые пары: Английский→Японский, Английский→Китайский, Английский→Немецкий

Метрики оценки

Качество перевода: Оценка BLEU
Задержка: Потоковое LAAL (Streaming Long Average Lagging), отражающее задержку системы в условиях реального потока

Методы сравнения

Базовая линия IWSLT: Разбиение на блоки фиксированной длины и сегментация на основе VAD
SHAS: Переиспользованная предварительно обученная модель сегментации

Детали реализации

Модель: Qwen2.5-Omni-3B в качестве основной модели сегментации
Параметры обучения: 5 эпох, размер пакета 1, оптимизатор AdamW, скорость обучения 5×10⁻⁵
Оборудование: 4 GPU NVIDIA A100
Параметры вывода: Размер скользящего окна 4 секунды, размер шага 2 секунды

Экспериментальные результаты

Основные результаты

Метод	En→De	En→Ja	En→Zh
Fixed	18.2/~3000	-/-	17.0/3000
VAD	21.8/3030	16.0/3010	20.5/3020
SHAS	23.6/3100	17.2/3050	22.0/3090
Ours (LLM+DPO)	25.5/3078	18.6/3120	23.4/3160

Примечание: Формат — BLEU(↑)/Задержка(мс, ↓)

Ключевые выводы

Последовательное улучшение: Превосходство над эвристическими базовыми линиями и моделью SHAS во всех трёх направлениях перевода
Значительное повышение качества: Среднее улучшение примерно на 1.5 BLEU по сравнению с SHAS при увеличении задержки только на ~100 мс
Различия в языковых парах: En→De достигает наивысшего BLEU, En→Zh показывает умеренный прирост, En→Ja остаётся наиболее сложной

Анализ компромисса между задержкой и качеством

Анализ кривых компромисса между задержкой и качеством показывает, что LLM, обученный с помощью DPO, постоянно превосходит другие стратегии сегментации во всём диапазоне операций, достигая более высоких оценок BLEU при сопоставимой или более низкой задержке.

Связанные работы

Развитие методов сегментации

Эвристические методы: Стратегии wait-k с фиксированной длиной и т.д., но ограниченные в адаптации к языковым изменениям
Обучаемые методы: DiSeg вводит дифференцируемый модуль сегментации, совместно обучаемый с моделью перевода посредством ожидаемого обучения
Предварительно обученные модели: Модели, такие как SHAS, повышают надёжность посредством масштабного обучения

Многоязычные системы перевода

Крупные многоязычные мультимодальные системы перевода, такие как SeamlessM4T, предоставляют мощные основные модули для задач речевого перевода, демонстрируя передовую производительность на множестве языков.

Исследовательский пробел

Насколько известно авторам, ранее не было работ, применяющих оптимизацию на основе предпочтений к задаче сегментации в SimulST. Данная работа заполняет этот пробел.

Заключение и обсуждение

Основные выводы

Эффективность DPO: Оптимизация предпочтений позволяет модели обучаться сегментации, согласованной с предпочтениями человека, создавая более естественные границы и лучший компромисс между качеством и задержкой
Повышение производительности: При задержке примерно 3 секунды наблюдается постоянное улучшение по сравнению с SHAS во всех трёх языковых направлениях
Практическая ценность: Доказана потенциальность LLM, настроенного с помощью предпочтений, в реальном одновременном переводе

Ограничения

Ограниченный объём оценки: Ограничение тремя языковыми парами требует проверки обобщаемости на более разнообразные направления
Вычислительные затраты: LLM с 3 млрд параметров вносит дополнительные вычислительные затраты, что может ограничить развёртывание на устройствах с ограниченными ресурсами
Проблемы стабильности: Наблюдаются колебания BLEU при определённых пороговых значениях задержки, указывая на возможность улучшения стабильности сегментации
Ограничения метрик оценки: Полагание на BLEU и задержку в качестве автоматических метрик, отсутствие оценки человеком

Будущие направления

Расширение на большее количество языковых пар и доменов
Оптимизация эффективности модели для адаптации к развёртыванию в реальном времени
Введение оценки человеком для проверки автоматических метрик
Исследование более сложных методов моделирования предпочтений

Глубокая оценка

Преимущества

Высокая инновационность: Впервые применена DPO к сегментации SimulST, открывая новое направление исследований
Обоснованная методология: Идея согласования предпочтений соответствует требованиям практического применения, решая основные проблемы существующих методов
Достаточные эксперименты: Комплексная оценка на нескольких языковых парах с последовательными и убедительными результатами
Высокая практическая ценность: Предоставляет полную сквозную систему с потенциалом практического развёртывания

Недостатки

Недостаточный теоретический анализ: Отсутствие глубокого теоретического анализа того, почему DPO эффективна в задаче сегментации
Простое построение пар предпочтений: Построение пар предпочтений только на основе BLEU и задержки может быть недостаточно полным
Проблемы вычислительной эффективности: Производительность модели с 3 млрд параметров в реальном времени может стать узким местом практического применения
Единственность метрик оценки: Основное полагание на автоматические метрики, отсутствие субъективной оценки качества

Влияние

Академический вклад: Введение нового парадигма оптимизации в область сегментации SimulST
Практическая ценность: Предоставление лучшего решения сегментации для систем речевого перевода в реальном времени
Вдохновляющее значение: Демонстрация потенциала обучения на основе предпочтений в задачах последовательного принятия решений

Применимые сценарии

Перевод на конференциях в реальном времени: Сценарии, требующие одновременного перевода с низкой задержкой и высоким качеством
Генерация субтитров для прямых трансляций: Приложения с высокими требованиями к качеству сегментации
Многоязычные системы обслуживания клиентов: Требующие естественного и плавного взаимодействия при переводе в реальном времени

Библиография

Статья ссылается на важные работы в соответствующих областях, включая:

Модель сегментации SHAS Tsiamas et al., 2022
Система перевода SeamlessM4T Meta AI, 2023-2024
Метод оптимизации DPO Rafailov et al., 2023
Эталонная оценка ACL 60/60 Salesky et al., 2023

Общая оценка: Это статья с высокой технической инновационностью, впервые применяющая оптимизацию предпочтений к задаче сегментации SimulST. Методология обоснована, результаты экспериментов убедительны. Хотя существует место для улучшения в теоретическом анализе и вычислительной эффективности, работа предоставляет ценный вклад и новое направление развития для данной области.