2025-11-24T06:04:17.956351

DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation

Yang, Nakamura

Simultaneous speech translation requires accurate segmentation to balance translation quality and latency. Recent studies such as SHAS have introduced pretrained segmentation models, achieving stronger performance than heuristic rules. However, segmentation models such as SHAS, though pretrained and more robust than heuristic methods, are still constrained by supervised learning objectives and do not incorporate human preference alignment, which is crucial for natural real-time interpretation. In this work, we propose a segmentation framework based on large language models (LLMs) trained with Direct Preference Optimization (DPO). By leveraging preference alignment, our method enables LLMs to predict natural segmentation points that better meet the demands of real-time translation. We evaluate the system on the ACL 60/60 corpus across three language pairs (English-Japanese, Chinese, German), using SeamlessM4T v2 as the translation backbone. Experimental results show that our DPO-tuned LLM achieves higher segmentation accuracy than SHAS and yields consistent improvements in translation quality (BLEU, COMET) as well as latency (Average Lagging). Furthermore, our system benefits from IWSLT baselines for direct comparison. These findings highlight the potential of preference-tuned LLMs to surpass existing pretrained segmentation models and advance adaptive, human-aligned simultaneous interpretation.

academic

DPO-Tuned 대규모 언어 모델을 이용한 동시 음성 번역의 분할

기본 정보

논문 ID: 2510.12195
제목: DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation
저자: Zeyu Yang (CUHK, Shenzhen), Satoshi Nakamura (CUHK, Shenzhen & NAIST, Japan)
분류: cs.CL (계산 언어학)
발표 시간: 2025년 10월 14일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.12195

초록

동시 음성 번역은 번역 품질과 지연 시간의 균형을 맞추기 위해 정확한 분할이 필요합니다. SHAS와 같은 사전 학습된 분할 모델이 휴리스틱 규칙보다 성능이 우수하지만, 여전히 지도 학습 목표의 제약을 받으며 인간의 선호도 정렬이 부족합니다. 본 논문은 직접 선호도 최적화(DPO) 학습을 기반으로 한 대규모 언어 모델 분할 프레임워크를 제안하며, 선호도 정렬을 통해 LLM이 더 자연스러운 분할점을 예측할 수 있도록 합니다. ACL 60/60 코퍼스에서 세 개의 언어 쌍에 대해 평가하고, SeamlessM4T v2를 번역 백본으로 사용합니다. 실험 결과는 DPO 조정된 LLM이 분할 정확도에서 SHAS를 능가하며, 번역 품질(BLEU, COMET)과 지연 시간(평균 지연) 측면에서 지속적인 개선을 보여줍니다.

연구 배경 및 동기

핵심 문제

동시 음성 번역(SimulST)이 직면한 핵심 과제는 번역 품질을 보장하면서 동시에 지연 시간을 최소화하는 것입니다. 이는 시스템이 입력 스트림을 언제 분할하고 번역을 출력할지를 정확히 결정할 수 있어야 함을 요구합니다. 부적절한 분할은 불완전하거나 중복된 번역 단위로 이어져 정확도와 사용자 경험에 심각한 영향을 미칩니다.

문제의 중요성

분할은 실용적인 SimulST 시스템의 핵심 구성 요소로 간주되며, 특히 스트리밍 SimulST에서 부적절한 경계는 번역 품질과 지연 시간을 크게 손상시킵니다. 전통적인 휴리스틱 규칙(예: 구두점 예측, 고정 길이 청킹)은 단순하고 효율적이지만 다양한 언어 구조와 말하기 스타일에 적응하기 어렵습니다.

기존 방법의 한계

휴리스틱 방법: 고정 wait-k 전략 등의 방법은 언어 변화에 대한 적응성이 제한됨
사전 학습된 모델: SHAS와 같은 모델은 휴리스틱 방법보다 견고하지만 여전히 지도 학습 목표의 제약을 받으며 음향 특성에만 의존
인간 선호도 정렬 부족: 기존 방법은 기계 번역 성능 정렬을 포함하지 않으며, 이는 자연스럽고 적시의 번역에 필수적

연구 동기

대규모 언어 모델은 음성 및 번역 작업에서 뛰어난 일반화 능력을 보여주지만, SimulST 분할에서의 잠재력은 아직 충분히 탐구되지 않았습니다. 직접 선호도 최적화(DPO)는 모델을 인간 피드백과 정렬하는 유망한 방향을 제공하며, 지도 학습을 초과하는 선호도 기반 의사 결정을 실현할 수 있습니다.

핵심 기여

DPO 최적화 기반 LLM 분할 프레임워크 제안: SimulST 분할 작업에 선호도 최적화를 처음 적용
포괄적인 실험 평가 구축: ACL 60/60 데이터셋에서 세 개의 언어 쌍에 대해 평가하고, SeamlessM4T v2를 번역 백본으로 사용
선호도 조정된 LLM의 우수성 입증: 사전 학습된 분할 모델 SHAS와 비교하여 번역 품질과 지연 시간 측면에서 개선
완전한 엔드-투-엔드 시스템 제공: 분할 모듈을 번역 시스템과 통합하여 실시간 동시 음성 번역 구현

방법론 상세 설명

작업 정의

SimulST의 분할 작업을 들어오는 음성 스트림에서 문장 단절점을 예측하는 작업으로 정의하며, 목표는 번역 품질과 지연 시간의 균형을 맞추는 것입니다. 스트리밍 입력 음성 시퀀스 x가 주어지면, 모델은 분할 결정 시퀀스 {s₁, s₂, ..., sₜ}를 생성하며, 여기서 각 sₜ는 예측된 경계 위치를 나타냅니다. 이진 분류 방법과 달리, 본 논문은 분할을 다음 단절점 예측 문제로 정의합니다.

모델 아키텍처

기본 LLM

Qwen2.5-Omni-3B를 분할 백본 모델로 채택하며, 음성 입력에 슬라이딩 윈도우 메커니즘을 사용하여 스트리밍 방식으로 실행합니다. 모델은 토큰 수준 ASR 전사 대신 음성의 청크 수준 음향 특성을 직접 처리하며, 현재 음성 컨텍스트가 주어진 경우 다음 분할점을 증분적으로 예측합니다.

선호도 쌍 구성

인간 정렬 신호를 통합하기 위해 후보 분할의 선호도 쌍을 구성합니다:

다양한 휴리스틱 및 사전 학습된 전략(VAD, 고정 길이 분할, SHAS 출력)을 결합하여 후보 경계 생성
BLEU 및 지연 시간(평균 지연)을 사용하여 각 후보 분할 평가
이러한 지표에서 순위 신호 도출, 성능이 더 좋은 분할을 선호 후보로 설정
총 약 8,000개의 선호도 쌍을 학습용으로 획득

DPO 학습

직접 선호도 최적화를 사용하여 LLM을 미세 조정합니다:

입력 발화 x가 주어지면, 여러 후보 분할을 생성하며, 각 분할 y는 입력 스트림의 경계 인덱스 시퀀스로 표현됩니다. 선호도 쌍(y_pref, y_dispref)을 구성하며, 여기서 y_pref는 더 나은 번역 품질과 더 낮은 지연 시간을 생성하는 선호 분할을 나타냅니다.

DPO 목적 함수는 다음과 같습니다:

L(θ) = -E_{(x,y_pref,y_dispref)} [log σ(β · (log π_θ(y_pref | x) - log π_θ(y_dispref | x)))]

여기서 π_θ는 LLM이 유도한 정책을 나타내고, β는 스케일링 하이퍼파라미터입니다. 5개 에포크 동안 학습하며 표준 학습률 스케줄을 사용합니다.

기술 혁신점

선호도 정렬 메커니즘: 분할 작업에 DPO를 처음 적용하며, 인간 선호도 신호를 통해 모델 학습 지도
엔드-투-엔드 최적화: 음향 특성에만 의존하지 않고 번역 품질과 지연 시간의 결합 목표를 직접 최적화
스트리밍 처리 아키텍처: 실시간 처리에 적합한 슬라이딩 윈도우 메커니즘 설계
다중 모달 융합: 음향 특성과 언어 모델 능력을 결합하여 분할 결정

실험 설정

데이터셋

학습 데이터: CoVoST2 코퍼스, DPO 학습을 위한 선호도 쌍 구성에 사용
평가 데이터: ACL 60/60 테스트 세트, ACL 2022 기술 강연 포함
언어 쌍: 영어→일본어, 영어→중국어, 영어→독일어

평가 지표

번역 품질: BLEU 점수
지연 시간: 스트리밍 LAAL(Streaming Long Average Lagging), 실제 스트리밍 조건에서의 시스템 지연 반영

비교 방법

IWSLT 기준선: 고정 길이 청킹 및 VAD 기반 분할
SHAS: 재구현된 사전 학습된 분할 모델

구현 세부 사항

모델: Qwen2.5-Omni-3B를 분할 백본으로 사용
학습 설정: 5개 에포크, 배치 크기 1, AdamW 최적화기, 학습률 5×10⁻⁵
하드웨어: 4개의 NVIDIA A100 GPU
추론 설정: 슬라이딩 윈도우 크기 4초, 점프 크기 2초

실험 결과

주요 결과

방법	En→De	En→Ja	En→Zh
Fixed	18.2/~3000	-/-	17.0/3000
VAD	21.8/3030	16.0/3010	20.5/3020
SHAS	23.6/3100	17.2/3050	22.0/3090
Ours (LLM+DPO)	25.5/3078	18.6/3120	23.4/3160

주: 형식은 BLEU(↑)/지연 시간(ms, ↓)

주요 발견

일관된 개선: 세 가지 번역 방향 모두에서 휴리스틱 기준선과 SHAS 모델을 능가
품질 향상 현저: SHAS와 비교하여 평균 약 1.5 BLEU 향상, 지연 시간은 약 100ms만 증가
언어 쌍 차이: En→De가 최고 BLEU 달성, En→Zh는 중간 정도의 증가 보임, En→Ja는 여전히 가장 도전적

지연 시간-품질 트레이드오프 분석

지연 시간-품질 트레이드오프 곡선 분석은 DPO 학습된 LLM이 전체 작동 범위에서 다른 분할 전략을 지속적으로 능가하며, 유사하거나 더 낮은 지연 시간에서 더 높은 BLEU 점수를 달성함을 보여줍니다.

결론 및 토론

주요 결론

DPO의 효과성: 선호도 최적화는 모델이 인간 선호도와 정렬된 분할을 학습하게 하며, 더 자연스러운 경계와 더 나은 품질-지연 트레이드오프를 생성
성능 향상: 약 3초 지연에서 세 가지 언어 방향 모두에서 SHAS와 비교하여 일관된 개선
실용적 가치: 실시간 동시 해석에서 선호도 조정된 LLM의 잠재력 입증

한계

평가 범위 제한: 세 개의 언어 쌍으로만 제한되며, 일반화 능력 검증을 위해 더 다양한 방향 필요
계산 오버헤드: 3B 파라미터 LLM은 추가 계산 오버헤드를 도입하며, 리소스 제약 장치에서의 배포를 제한할 수 있음
안정성 문제: 특정 지연 시간 임계값에서 BLEU 변동 관찰, 분할 안정성 개선 필요
평가 지표의 한계: BLEU와 지연 시간을 자동 지표로 의존하며, 인간 평가 부족

향후 방향

더 많은 언어 쌍 및 도메인으로 확장
실시간 배포에 적합하도록 모델 효율성 최적화
자동 지표 검증을 위해 인간 평가 도입
더 복잡한 선호도 모델링 방법 탐색

심층 평가

장점

높은 혁신성: SimulST 분할에 DPO를 처음 적용하여 새로운 연구 방향 개척
합리적인 방법론: 선호도 정렬의 아이디어는 실제 응용 요구사항과 부합하며 기존 방법의 핵심 문제 해결
충분한 실험: 여러 언어 쌍에서 포괄적인 평가 수행, 결과 일관성 있고 설득력 있음
높은 실용적 가치: 완전한 엔드-투-엔드 시스템 제공, 실제 배포 잠재력 보유

부족한 점

이론 분석 부족: DPO가 분할 작업에서 효과적인 이유에 대한 심층 이론 분석 부재
선호도 쌍 구성의 단순성: BLEU와 지연 시간만을 기반으로 선호도 쌍을 구성하며, 충분히 포괄적이지 않을 수 있음
계산 효율 문제: 3B 파라미터 모델의 실시간 성능이 실제 응용의 병목이 될 수 있음
평가 지표의 단일성: 주로 자동 지표에 의존하며, 주관적 품질 평가 부족

영향력

학술적 기여: SimulST 분할 분야에 새로운 최적화 패러다임 도입
실용적 가치: 실시간 음성 번역 시스템을 위한 더 나은 분할 솔루션 제공
영감 제공: 순차 결정 작업에서 선호도 학습의 응용 잠재력 시연

적용 시나리오

실시간 회의 번역: 낮은 지연 시간과 높은 품질의 동시 번역이 필요한 시나리오
라이브 자막 생성: 분할 품질에 대한 요구사항이 높은 응용
다중 언어 고객 서비스 시스템: 자연스럽고 유창한 실시간 번역 상호작용이 필요한 경우

참고 문헌

논문은 관련 분야의 중요한 작업을 인용하고 있습니다:

SHAS 분할 모델 Tsiamas et al., 2022
SeamlessM4T 번역 시스템 Meta AI, 2023-2024
DPO 최적화 방법 Rafailov et al., 2023
ACL 60/60 평가 벤치마크 Salesky et al., 2023

종합 평가: 이는 기술 혁신성이 높은 논문으로, 선호도 최적화를 SimulST 분할 작업에 처음 도입하며, 방법론이 합리적이고 실험 결과가 설득력 있습니다. 이론 분석과 계산 효율성 측면에서 개선의 여지가 있지만, 해당 분야의 발전에 가치 있는 기여와 새로운 연구 방향을 제공합니다.