This paper introduces DuTerm, a novel two-stage architecture for terminology-constrained machine translation. Our system combines a terminology-aware NMT model, adapted via fine-tuning on large-scale synthetic data, with a prompt-based LLM for post-editing. The LLM stage refines NMT output and enforces terminology adherence. We evaluate DuTerm on English-to German, English-to-Spanish, and English-to-Russian with the WMT 2025 Terminology Shared Task corpus. We demonstrate that flexible, context-driven terminology handling by the LLM consistently yields higher quality translations than strict constraint enforcement. Our results highlight a critical trade-off, revealing that an LLM's work best for high-quality translation as context-driven mutators rather than generators.
- 论文ID: 2511.07461
- 标题: It Takes Two: A Dual Stage Approach for Terminology-Aware Translation
- 作者: Akshat Singh Jaswal (PES University)
- 分类: cs.CL, cs.AI
- 发表时间/会议: 2025年11月提交至arXiv,参与WMT 2025 Terminology Shared Task
- 论文链接: https://arxiv.org/abs/2511.07461
本文提出DuTerm,一种用于术语约束机器翻译的双阶段架构。该系统结合了术语感知的神经机器翻译(NMT)模型和基于提示的大语言模型(LLM)后编辑。NMT模型通过大规模合成数据微调,LLM阶段则对NMT输出进行精炼并强制术语遵从。作者在WMT 2025术语翻译共享任务上评估了英语到德语、西班牙语和俄语的翻译效果。实验表明,LLM灵活的、上下文驱动的术语处理方式始终产生比严格约束强制更高质量的翻译,揭示了LLM作为上下文驱动的"修改器"而非"生成器"在高质量翻译中的优势。
在法律、医学、工程等专业领域,准确且一致地翻译特定领域术语是机器翻译面临的关键挑战。虽然现代神经机器翻译系统在通用文本上达到了显著的流畅度,但在术语约束文本上的表现仍需改进。
- 精确性要求:专业领域翻译对术语准确性要求极高,错误可能导致严重后果
- 一致性需求:同一术语在文档中需保持翻译一致性
- 形态学挑战:德语、俄语等形态丰富的语言中,术语需要正确的词形变化
现有术语约束翻译方法主要分为两类:
推理时方法:
- 在解码过程中直接施加约束(如约束束搜索)
- 优点:能有效强制约束
- 缺点:计算开销大,可能损害流畅性和语法正确性
训练时方法:
- 通过特殊标签将术语信息集成到训练数据
- 优点:生成更自然的输出
- 缺点:无法保证所有约束在推理时被遵守
本文认为术语约束翻译不仅是词汇替换问题,还需要对语言上下文的深刻理解,特别是处理复杂形态学时。DuTerm旨在结合两种方法的优势,在保证术语准确性的同时维持翻译质量。
- 提出DuTerm双阶段架构:创新性地结合训练时和推理时方法,通过NMT+LLM的协同工作实现术语感知翻译
- 大规模合成数据生成管道:开发了系统化的术语标注合成数据生成方法,包括单术语和多术语模式,每个语言方向生成10k-15k高质量平行句对
- 灵活的术语处理策略:提出三种术语处理模式(noterm, proper, random),允许根据上下文动态选择约束强度
- 多语言评估:在英语→德语、西班牙语、俄语三个语言对上进行全面评估,验证方法的跨语言有效性
- 关键洞察:实验证明LLM作为"上下文驱动的修改器"比作为"从零生成器"更有效,揭示了严格约束与翻译质量之间的权衡
输入:源语言句子(英语)+ 术语词典(源-目标术语对)
输出:目标语言翻译,其中指定术语被正确翻译并用标签标记
约束:必须使用词典中提供的目标术语,同时保持翻译的流畅性和语法正确性
DuTerm采用两阶段流水线架构:
1. 术语提取与分析
- 解析WMT 2025开发集,构建双语术语词典
- 每个翻译方向提取超过1,000个唯一术语对
- 使用repetition_ids追踪术语及其出现次数
- 利用LLM生成与词典术语相似的额外术语
2. 合成数据生成
使用GPT-4o生成包含术语标签的平行句对,采用两种模式:
- 单术语模式:每个句子对仅包含一个术语实例
- 多术语模式:随机选择2-3个术语对共同出现,训练共现处理和消歧能力
技术细节:
- 温度采样:0.3-0.7
- 并发生成
- 严格解析确保格式正确
- 在源语言和目标语言都显式插入边界标签
[TERM]...[/TERM]
3. 标签标准化与质量过滤
- 重新标注:强制一致的标注规范
- 最长优先匹配:防止部分遮蔽
- 大小写处理:不区分大小写检测,保留原始大小写
- 逆向映射:确保目标侧对称标注
- 质量评分:使用COMETQE对每个句对评分
- 去重:在源端去重
- 阈值过滤:保守阈值(0.85-0.9),通常保留60-70%输出
- 最终产出:每个语言方向约10k-15k高质量句对
4. 多语言模型适配
- 基础模型:NLLB-200 3.3B(多语言神经机器翻译模型)
- 词汇扩展:添加术语标记token(
[TERM], [/TERM]),确保原子化处理,防止子词分词破坏标记 - 训练策略:
- 参数高效微调(Parameter-Efficient Fine-Tuning)
- 多语言联合训练:合并三种目标语言的过滤数据集
- 跨语言迁移学习
1. 后编辑流程
- 输入:源句子 + NMT翻译 + 源-目标术语映射
- LLM选择:GPT-4o(高质量+相对低成本)
- 指令:保持语义、应用精确目标术语、维护标签、改善可读性而不改写约束
2. 术语感知处理
- 动态解析:根据输入从参考术语数据库中选择proper/random/noterm约束
- 模式自适应:
- 存在约束时:强制执行
- 无约束时:仅进行质量编辑,但对技术术语保持敏感
- 约束满足:提示中包含显式映射和格式规则
3. 质量保证与鲁棒性
- 低温采样:温度0.3,确保确定性编辑
- 验证机制:使用预定义解析器验证格式、标签完整性、约束满足
- 结构检查:验证文件名模式、所有术语模式存在性、JSONL结构
- 质量评估:
- 去除标签后使用COMETQE评分
- 通过精确匹配检查术语保留率
- 协同架构设计:NMT提供结构化的初步翻译,LLM专注于高层次改进(消歧、词序调整、上下文精炼),避免从零生成的复杂性
- 合成数据质量控制:多阶段过滤(COMETQE评分 + 去重 + 高阈值)确保训练数据质量
- 灵活约束策略:三种模式(noterm/proper/random)允许在术语准确性和翻译自然度之间权衡
- 端到端验证:从数据生成到最终输出的全流程质量保证机制
- 来源:WMT 2025 Terminology Shared Task
- 语言对:英语→德语(DE)、英语→西班牙语(ES)、英语→俄语(RU)
- 术语词典:每个方向>1,000个术语对
- 合成训练数据:每个方向10k-15k句对
- 基础模型训练数据:NLLB-200预训练的多语言数据
- BLEU:整体翻译充分性,衡量n-gram精确度
- chrF2++:字符级流畅性和鲁棒性,对形态变化更敏感
- 术语成功率(Terminology Success Rate):
- Proper SR:正确术语的使用率
- Random SR:随机术语的使用率
三种术语处理策略的自我对比:
- noterm:无约束翻译(基线)
- proper:严格术语强制
- random:随机术语强制(测试模型是否能强制不当术语)
- NMT微调:
- 基础模型:NLLB-200 3.3B
- 优化策略:参数高效微调
- 训练数据:多语言混合(10k-15k/语言)
- LLM后编辑:
- 模型:GPT-4o
- 温度:0.3
- 提示工程:见附录A.1-A.4的详细提示模板
- 质量控制:
- COMETQE阈值:0.85-0.9
- 保留率:60-70%
表1:三语言对三种策略的评估结果
| 语言 | 类型 | BLEU | chrF2++ | Proper SR | Random SR |
|---|
| DE | noterm | 38.24 | 62.61 | 0.43 | 0.69 |
| proper | 48.06 | 70.74 | 0.98 | 0.73 |
| random | 43.77 | 67.22 | 0.48 | 0.99 |
| ES | noterm | 45.98 | 67.05 | 0.47 | 0.73 |
| proper | 58.51 | 76.08 | 0.99 | 0.78 |
| random | 53.28 | 72.05 | 0.49 | 0.98 |
| RU | noterm | 27.88 | 55.29 | 0.39 | 0.69 |
| proper | 35.80 | 63.57 | 0.98 | 0.72 |
| random | 32.25 | 59.85 | 0.42 | 0.99 |
- 严格术语强制效果显著:
- proper模式在所有语言上BLEU和chrF2++最高
- 德语:48.06 BLEU(vs 38.24 noterm,+25.7%)
- 西班牙语:58.51 BLEU(vs 45.98 noterm,+27.2%)
- 俄语:35.80 BLEU(vs 27.88 noterm,+28.4%)
- proper术语成功率≥0.97,接近完美
- 无约束翻译表现最差:
- noterm在所有语言上BLEU和chrF2++最低
- 流畅性尚可,但术语精确度差(proper SR: 0.39-0.47)
- 随机术语强制的权衡:
- random模式产生中等BLEU/chrF2++
- 随机术语成功率≈0.98,证明模型能强制任意术语
- 但这会损害上下文适当性
- 语言特定趋势:
- 西班牙语:整体得分最高(结构与英语相似)
- 俄语:proper与noterm差距最大(形态丰富语言的术语控制难度)
- 德语:中等表现,但proper模式提升显著
- 质量与约束的权衡:严格强制最大化术语准确性并提升表面质量指标,但可能偶尔降低灵活性
- LLM作为修改器的优势:从NMT的结构化初步翻译开始,LLM能专注于高层次改进,比从零生成更有效
- 跨语言一致性:三种语言上的趋势一致,验证了方法的普适性
- 形态学挑战:俄语的低基线分数和大幅提升空间凸显了形态丰富语言的术语处理难度
- 推理时方法:
- 约束束搜索(Constrained Beam Search)
- N-best列表重排序
- 近期工作(Zhang et al., 2023)探索效率改进
- 训练时方法:
- 特殊标签标注(Dinu et al., 2019)
- 词汇约束的Levenshtein Transformer(Susanto et al., 2020)
- 域术语集成(Moslem et al., 2023)
- GPT-4自动翻译后编辑(Raunak et al., 2023)
- Transformer架构(Vaswani et al., 2023)
- NLLB-200(Team et al., 2022):无语言遗漏的人类中心翻译
- Google多语言NMT(Johnson et al., 2017):零样本翻译
- 方法融合:首次系统性结合训练时标签和推理时LLM后编辑
- 大规模合成数据:质量控制的自动生成管道
- 灵活策略:动态术语处理而非二元选择
- 双阶段架构有效:DuTerm成功结合NMT和LLM的优势,在术语准确性和翻译质量间取得平衡
- 灵活处理优于严格约束:虽然proper模式在自动指标上表现最好,但LLM的上下文驱动处理能力是关键成功因素
- LLM定位:LLM作为"修改器"(基于NMT输出改进)比作为"生成器"(从零翻译)更有效
- 跨语言验证:方法在三种类型学差异显著的语言(德语、西班牙语、俄语)上均有效
作者在论文中明确指出以下限制:
- 提示依赖性:
- 高度依赖精心设计的提示
- 可能无法跨域、跨语言或跨模型架构良好泛化
- 顺序处理限制:
- 术语匹配和翻译精炼的顺序处理限制了自适应约束强制能力
- 句子级别处理:
- 忽略文档级一致性和上下文感知术语使用机会
- 实际翻译任务中这些至关重要
- 模型单一性:
- 领域局限:
- 专注于技术和商业领域
- 可能无法捕捉医学或法律等专业领域的挑战
- 评估指标局限:
- COMETQE、BLEU、chrF++提供自动化可扩展性
- 但可能无法完全反映术语精确度和上下文适当性
- 需要人工评估作为补充
- 自适应学习机制:
- 动态集成术语而非依赖静态提示
- 增强跨域和跨语言鲁棒性
- 端到端架构:
- 扩展评估:
- 其他语言模型
- 多样化的领域特定语料库
- 验证泛化性和揭示领域依赖挑战
- 混合策略:
- 结合提示引导与微调或强化学习
- 用户驱动的术语控制交互
- 改善可用性和准确性
- 文档级处理:
- 方法创新性:
- 双阶段架构巧妙结合NMT和LLM优势
- 不是简单堆叠,而是各司其职:NMT提供结构,LLM精炼上下文
- 灵活的三模式策略(noterm/proper/random)允许细粒度控制
- 工程完整性:
- 详细的合成数据生成管道,包含多重质量控制
- 系统化的标签标准化流程
- 端到端验证机制
- 提供完整提示模板(附录),可复现性强
- 实验充分性:
- 三个类型学差异显著的语言对
- 三种术语处理策略的系统对比
- 多维度评估(BLEU、chrF2++、术语成功率)
- 结果一致且趋势明确
- 洞察价值:
- "LLM作为修改器vs生成器"的发现具有普遍意义
- 揭示了术语约束与翻译质量的权衡
- 为未来研究提供了明确方向
- 写作清晰:
- 基线对比不足:
- 主要是自我对比(三种模式)
- 缺少与其他SOTA术语约束翻译方法的直接对比
- 未与纯NMT或纯LLM方法对比
- 人工评估缺失:
- 完全依赖自动指标
- 术语的上下文适当性、翻译自然度等需要人工判断
- proper模式的高分是否真的意味着更好的翻译质量?
- 消融实验不足:
- 未单独评估NMT阶段的贡献
- 未分析LLM后编辑的具体改进类型
- 合成数据量对性能的影响未探讨
- 成本分析缺失:
- 使用GPT-4o的成本未讨论
- 推理时间未报告
- 实际部署的可行性不明
- 案例分析不足:
- 没有具体的翻译示例
- 难以直观理解模型行为
- 错误类型分析缺失
- 泛化性验证不足:
- 仅一个LLM(GPT-4o)
- 仅技术和商业领域
- 未测试其他开源LLM(如Llama、Mistral)
- 对领域的贡献:
- 提供了术语约束翻译的新范式
- 双阶段架构可能启发后续研究
- "修改器vs生成器"的洞察具有理论价值
- 实用价值:
- 中等:方法依赖GPT-4o,成本可能限制大规模应用
- 但思路可迁移到开源模型
- 合成数据生成管道有实际价值
- 可复现性:
- 良好:提供详细提示模板
- 方法描述清晰
- 但依赖GPT-4o可能影响完全复现
- 后续研究价值:
- 为WMT 2025任务提供了baseline
- 灵活约束策略值得深入探索
- 文档级扩展是自然的下一步
- 最适合:
- 技术文档翻译(IT、金融)
- 有明确术语词典的场景
- 对术语一致性要求高但可容忍一定成本的应用
- 可能适合:
- 不太适合:
- 实时翻译(成本和延迟)
- 资源受限环境(依赖大型LLM)
- 文学翻译(过度约束可能损害创造性)
- 极专业领域(如医学、法律,需要更多领域验证)
- 改进后可能适合:
- 用开源LLM替代GPT-4o后:低成本场景
- 扩展到文档级后:长文档翻译
- 增加人工交互后:CAT工具集成
- Dinu et al., 2019: Training neural machine translation to apply terminology constraints - 训练时标签方法的代表性工作
- Raunak et al., 2023: Leveraging GPT-4 for automatic translation post-editing - LLM后编辑的直接启发来源
- Team et al., 2022: NLLB-200 - 本文使用的基础多语言NMT模型
- Moslem et al., 2023: Domain terminology integration into machine translation - 领域术语集成的相关工作
- Zhang et al., 2023: Understanding and improving the robustness of terminology constraints - 推理时约束方法的最新进展
- Rei et al., 2022: CometKiwi/COMETQE - 本文使用的质量评估指标
- Vaswani et al., 2023: Attention is all you need - Transformer架构基础
DuTerm是一篇工程性强、思路清晰的应用研究论文。其核心贡献在于提出了一个实用的双阶段架构,巧妙地结合了NMT和LLM的优势来处理术语约束翻译。"LLM作为修改器而非生成器"的洞察具有普遍价值,可能对未来的混合翻译系统设计产生影响。
然而,论文在实验深度(缺少与其他方法的对比、人工评估)和泛化性验证(单一LLM、有限领域)方面存在不足。此外,对GPT-4o的依赖可能限制其在资源受限场景的应用。
总体而言,这是一篇扎实的共享任务参与论文,提供了有价值的方法和洞察,但需要更多后续工作来验证其在更广泛场景下的有效性和实用性。对于从事机器翻译、特别是术语约束翻译的研究者,本文提供的双阶段思路和合成数据生成管道具有参考价值。