2025-11-24T06:04:17.956351

DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation

Yang, Nakamura
Simultaneous speech translation requires accurate segmentation to balance translation quality and latency. Recent studies such as SHAS have introduced pretrained segmentation models, achieving stronger performance than heuristic rules. However, segmentation models such as SHAS, though pretrained and more robust than heuristic methods, are still constrained by supervised learning objectives and do not incorporate human preference alignment, which is crucial for natural real-time interpretation. In this work, we propose a segmentation framework based on large language models (LLMs) trained with Direct Preference Optimization (DPO). By leveraging preference alignment, our method enables LLMs to predict natural segmentation points that better meet the demands of real-time translation. We evaluate the system on the ACL 60/60 corpus across three language pairs (English-Japanese, Chinese, German), using SeamlessM4T v2 as the translation backbone. Experimental results show that our DPO-tuned LLM achieves higher segmentation accuracy than SHAS and yields consistent improvements in translation quality (BLEU, COMET) as well as latency (Average Lagging). Furthermore, our system benefits from IWSLT baselines for direct comparison. These findings highlight the potential of preference-tuned LLMs to surpass existing pretrained segmentation models and advance adaptive, human-aligned simultaneous interpretation.
academic

DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation

基本信息

  • 论文ID: 2510.12195
  • 标题: DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation
  • 作者: Zeyu Yang (CUHK, Shenzhen), Satoshi Nakamura (CUHK, Shenzhen & NAIST, Japan)
  • 分类: cs.CL (Computational Linguistics)
  • 发表时间: 2025年10月14日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.12195

摘要

同时语音翻译需要准确的分割来平衡翻译质量和延迟。虽然SHAS等预训练分割模型比启发式规则表现更好,但仍受监督学习目标约束,缺乏人类偏好对齐。本文提出基于直接偏好优化(DPO)训练的大语言模型分割框架,通过偏好对齐使LLM能够预测更自然的分割点。在ACL 60/60语料库上对三个语言对进行评估,使用SeamlessM4T v2作为翻译骨干。实验结果表明,DPO调优的LLM在分割准确性上超越SHAS,在翻译质量(BLEU、COMET)和延迟(平均滞后)方面都有持续改进。

研究背景与动机

核心问题

同时语音翻译(SimulST)面临的核心挑战是在保证翻译质量的同时最小化延迟,这要求系统能够准确决定何时分割输入流并输出翻译。不当的分割会导致不完整或冗余的翻译单元,严重影响准确性和用户体验。

问题重要性

分割被认为是实用SimulST系统的核心组件,特别是在流式SimulST中,不当的边界会显著损害翻译质量和延迟。传统的启发式规则(如标点预测、固定长度分块)虽然简单高效,但往往无法适应多样的语言结构和说话风格。

现有方法局限性

  1. 启发式方法:固定wait-k策略等方法在适应语言变化方面受限
  2. 预训练模型:如SHAS虽然比启发式方法更鲁棒,但仍受监督学习目标约束,仅依赖声学特征
  3. 缺乏人类偏好对齐:现有方法不包含同时机器翻译性能对齐,这对自然及时的翻译至关重要

研究动机

大语言模型在语音和翻译任务中展现出卓越的泛化能力,但在SimulST分割中的潜力尚未充分探索。直接偏好优化(DPO)提供了一个将模型与人类反馈对齐的有前景方向,能够实现超越监督训练的偏好引导决策。

核心贡献

  1. 提出了基于DPO优化的LLM分割框架:首次将偏好优化应用于SimulST分割任务
  2. 构建了全面的实验评估:在ACL 60/60数据集上对三个语言对进行评估,使用SeamlessM4T v2作为翻译骨干
  3. 证明了偏好调优LLM的优越性:相比预训练分割模型SHAS,在翻译质量和延迟方面都有改进
  4. 提供了完整的端到端系统:集成分割模块与翻译系统,实现实时同时语音翻译

方法详解

任务定义

将SimulST中的分割任务定义为预测传入语音流中句子断点的任务,目标是平衡翻译质量和延迟。给定流式输入语音序列x,模型产生分割决策序列{s₁, s₂, ..., sₜ},其中每个sₜ表示预测的边界位置。与二元分类方法不同,本文将分割定义为下一个断点预测问题。

模型架构

基础LLM

采用Qwen2.5-Omni-3B作为分割骨干模型,以流式方式运行,在语音输入上使用滑动窗口机制。模型直接处理音频的块级声学特征,而非基于token级ASR转录,在给定当前语音上下文的情况下增量预测下一个分割点。

偏好对构建

为了融入人类对齐信号,构建候选分割的偏好对:

  1. 通过结合多种启发式和预训练策略(VAD、固定长度分割、SHAS输出)生成候选边界
  2. 使用翻译质量(BLEU)和延迟(平均滞后)评估每个候选分割
  3. 从这些指标导出排名信号,性能更好的分割作为首选候选
  4. 总共获得约8,000个偏好对用于训练

DPO训练

采用直接偏好优化来微调LLM:

给定输入话语x,生成多个候选分割,每个分割y表示为输入流上的边界索引序列。构建偏好对(y_pref, y_dispref),其中y_pref表示产生更好翻译质量和更低延迟的首选分割。

DPO目标函数为:

L(θ) = -E_{(x,y_pref,y_dispref)} [log σ(β · (log π_θ(y_pref | x) - log π_θ(y_dispref | x)))]

其中π_θ表示LLM诱导的策略,β是缩放超参数。训练5个epoch,使用标准学习率调度。

技术创新点

  1. 偏好对齐机制:首次将DPO应用于分割任务,通过人类偏好信号指导模型学习
  2. 端到端优化:直接优化翻译质量和延迟的组合目标,而非仅依赖声学特征
  3. 流式处理架构:设计了适合实时处理的滑动窗口机制
  4. 多模态融合:结合声学特征和语言模型能力进行分割决策

实验设置

数据集

  • 训练数据:CoVoST2语料库,用于构建DPO训练的偏好对
  • 评估数据:ACL 60/60测试集,包含ACL 2022的技术演讲
  • 语言对:英语→日语、英语→中文、英语→德语

评价指标

  • 翻译质量:BLEU分数
  • 延迟:流式LAAL(Streaming Long Average Lagging),反映实际流式条件下的系统延迟

对比方法

  • IWSLT基线:固定长度分块和基于VAD的分割
  • SHAS:重新实现的预训练分割模型

实现细节

  • 模型:Qwen2.5-Omni-3B作为分割骨干
  • 训练设置:5个epoch,批大小为1,AdamW优化器,学习率5×10⁻⁵
  • 硬件:4个NVIDIA A100 GPU
  • 推理设置:滑动窗口大小4秒,跳跃大小2秒

实验结果

主要结果

方法En→DeEn→JaEn→Zh
Fixed18.2/~3000-/-17.0/3000
VAD21.8/303016.0/301020.5/3020
SHAS23.6/310017.2/305022.0/3090
Ours (LLM+DPO)25.5/307818.6/312023.4/3160

注:格式为BLEU(↑)/延迟(ms, ↓)

关键发现

  1. 一致性改进:在所有三个翻译方向上都超越了启发式基线和SHAS模型
  2. 质量提升显著:相比SHAS平均提升约1.5 BLEU,延迟仅增加约100ms
  3. 语言对差异:En→De达到最高BLEU,En→Zh显示中等增益,En→Ja仍然最具挑战性

延迟-质量权衡分析

通过延迟-质量权衡曲线分析显示,DPO训练的LLM在整个操作范围内始终优于其他分割策略,在相似或更低延迟下实现更高的BLEU分数。

相关工作

分割方法发展

  • 启发式方法:固定wait-k策略等,但在适应语言变化方面受限
  • 可训练方法:DiSeg引入可微分割模块,通过期望训练与翻译模型联合训练
  • 预训练模型:SHAS等模型通过大规模训练提高鲁棒性

多语言翻译系统

SeamlessM4T等大型多语言多模态翻译系统为语音翻译任务提供强大骨干,在多种语言上展现最先进性能。

研究空白

据作者所知,之前没有工作将基于偏好的优化应用于SimulST中的分割任务,本工作填补了这一空白。

结论与讨论

主要结论

  1. DPO有效性:偏好优化使模型学习与人类偏好对齐的分割,产生更自然的边界和更好的质量-延迟权衡
  2. 性能提升:在约3秒延迟下,相比SHAS在三个语言方向上都有一致改进
  3. 实用价值:证明了偏好调优LLM在实时同时解释中的潜力

局限性

  1. 评估范围有限:仅限于三个语言对,需要更多样化方向验证泛化性
  2. 计算开销:3B参数LLM引入额外计算开销,可能限制在资源受限设备上的部署
  3. 稳定性问题:在特定延迟阈值下观察到BLEU波动,表明分割稳定性仍可改进
  4. 评估指标局限:依赖BLEU和延迟作为自动指标,缺乏人类评估

未来方向

  1. 扩展到更多语言对和领域
  2. 优化模型效率以适应实时部署
  3. 引入人类评估验证自动指标
  4. 探索更复杂的偏好建模方法

深度评价

优点

  1. 创新性强:首次将DPO应用于SimulST分割,开辟新的研究方向
  2. 方法合理:偏好对齐的思路符合实际应用需求,解决了现有方法的核心问题
  3. 实验充分:在多个语言对上进行全面评估,结果一致且有说服力
  4. 实用价值高:提供完整的端到端系统,具有实际部署潜力

不足

  1. 理论分析不足:缺乏对为什么DPO在分割任务上有效的深入理论分析
  2. 偏好对构建简单:仅基于BLEU和延迟构建偏好对,可能不够全面
  3. 计算效率问题:3B参数模型的实时性能可能成为实际应用瓶颈
  4. 评估指标单一:主要依赖自动指标,缺乏主观质量评估

影响力

  1. 学术贡献:为SimulST分割领域引入新的优化范式
  2. 实用价值:为实时语音翻译系统提供更好的分割解决方案
  3. 启发意义:展示了偏好学习在序列决策任务中的应用潜力

适用场景

  1. 实时会议翻译:需要低延迟高质量的同时翻译场景
  2. 直播字幕生成:对分割质量要求较高的应用
  3. 多语言客服系统:需要自然流畅的实时翻译交互

参考文献

论文引用了相关领域的重要工作,包括:

  • SHAS分割模型 Tsiamas et al., 2022
  • SeamlessM4T翻译系统 Meta AI, 2023-2024
  • DPO优化方法 Rafailov et al., 2023
  • ACL 60/60评估基准 Salesky et al., 2023

总体评价:这是一篇技术创新性较强的论文,首次将偏好优化引入SimulST分割任务,方法合理,实验结果令人信服。虽然在理论分析和计算效率方面还有改进空间,但为该领域的发展提供了有价值的贡献和新的研究方向。