DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation
Yang, Nakamura
Simultaneous speech translation requires accurate segmentation to balance translation quality and latency. Recent studies such as SHAS have introduced pretrained segmentation models, achieving stronger performance than heuristic rules. However, segmentation models such as SHAS, though pretrained and more robust than heuristic methods, are still constrained by supervised learning objectives and do not incorporate human preference alignment, which is crucial for natural real-time interpretation. In this work, we propose a segmentation framework based on large language models (LLMs) trained with Direct Preference Optimization (DPO). By leveraging preference alignment, our method enables LLMs to predict natural segmentation points that better meet the demands of real-time translation. We evaluate the system on the ACL 60/60 corpus across three language pairs (English-Japanese, Chinese, German), using SeamlessM4T v2 as the translation backbone. Experimental results show that our DPO-tuned LLM achieves higher segmentation accuracy than SHAS and yields consistent improvements in translation quality (BLEU, COMET) as well as latency (Average Lagging). Furthermore, our system benefits from IWSLT baselines for direct comparison. These findings highlight the potential of preference-tuned LLMs to surpass existing pretrained segmentation models and advance adaptive, human-aligned simultaneous interpretation.
동시 음성 번역은 번역 품질과 지연 시간의 균형을 맞추기 위해 정확한 분할이 필요합니다. SHAS와 같은 사전 학습된 분할 모델이 휴리스틱 규칙보다 성능이 우수하지만, 여전히 지도 학습 목표의 제약을 받으며 인간의 선호도 정렬이 부족합니다. 본 논문은 직접 선호도 최적화(DPO) 학습을 기반으로 한 대규모 언어 모델 분할 프레임워크를 제안하며, 선호도 정렬을 통해 LLM이 더 자연스러운 분할점을 예측할 수 있도록 합니다. ACL 60/60 코퍼스에서 세 개의 언어 쌍에 대해 평가하고, SeamlessM4T v2를 번역 백본으로 사용합니다. 실험 결과는 DPO 조정된 LLM이 분할 정확도에서 SHAS를 능가하며, 번역 품질(BLEU, COMET)과 지연 시간(평균 지연) 측면에서 지속적인 개선을 보여줍니다.
동시 음성 번역(SimulST)이 직면한 핵심 과제는 번역 품질을 보장하면서 동시에 지연 시간을 최소화하는 것입니다. 이는 시스템이 입력 스트림을 언제 분할하고 번역을 출력할지를 정확히 결정할 수 있어야 함을 요구합니다. 부적절한 분할은 불완전하거나 중복된 번역 단위로 이어져 정확도와 사용자 경험에 심각한 영향을 미칩니다.
분할은 실용적인 SimulST 시스템의 핵심 구성 요소로 간주되며, 특히 스트리밍 SimulST에서 부적절한 경계는 번역 품질과 지연 시간을 크게 손상시킵니다. 전통적인 휴리스틱 규칙(예: 구두점 예측, 고정 길이 청킹)은 단순하고 효율적이지만 다양한 언어 구조와 말하기 스타일에 적응하기 어렵습니다.
대규모 언어 모델은 음성 및 번역 작업에서 뛰어난 일반화 능력을 보여주지만, SimulST 분할에서의 잠재력은 아직 충분히 탐구되지 않았습니다. 직접 선호도 최적화(DPO)는 모델을 인간 피드백과 정렬하는 유망한 방향을 제공하며, 지도 학습을 초과하는 선호도 기반 의사 결정을 실현할 수 있습니다.
SimulST의 분할 작업을 들어오는 음성 스트림에서 문장 단절점을 예측하는 작업으로 정의하며, 목표는 번역 품질과 지연 시간의 균형을 맞추는 것입니다. 스트리밍 입력 음성 시퀀스 x가 주어지면, 모델은 분할 결정 시퀀스 {s₁, s₂, ..., sₜ}를 생성하며, 여기서 각 sₜ는 예측된 경계 위치를 나타냅니다. 이진 분류 방법과 달리, 본 논문은 분할을 다음 단절점 예측 문제로 정의합니다.
Qwen2.5-Omni-3B를 분할 백본 모델로 채택하며, 음성 입력에 슬라이딩 윈도우 메커니즘을 사용하여 스트리밍 방식으로 실행합니다. 모델은 토큰 수준 ASR 전사 대신 음성의 청크 수준 음향 특성을 직접 처리하며, 현재 음성 컨텍스트가 주어진 경우 다음 분할점을 증분적으로 예측합니다.
입력 발화 x가 주어지면, 여러 후보 분할을 생성하며, 각 분할 y는 입력 스트림의 경계 인덱스 시퀀스로 표현됩니다. 선호도 쌍(y_pref, y_dispref)을 구성하며, 여기서 y_pref는 더 나은 번역 품질과 더 낮은 지연 시간을 생성하는 선호 분할을 나타냅니다.
종합 평가: 이는 기술 혁신성이 높은 논문으로, 선호도 최적화를 SimulST 분할 작업에 처음 도입하며, 방법론이 합리적이고 실험 결과가 설득력 있습니다. 이론 분석과 계산 효율성 측면에서 개선의 여지가 있지만, 해당 분야의 발전에 가치 있는 기여와 새로운 연구 방향을 제공합니다.