The translation of written language has been known since the 3rd century BC; however, its necessity has become increasingly common in the information age. Today, many translators exist, based on encoder-decoder deep architectures, nevertheless, no quantitative objective methods are available to assess their performance, likely because the entropy of even a single language remains unknown. This study presents a quantitative method for estimating translation entropy, with the following key finding. Given a translator, several sentences that differ by only one selected token of a given pivot sentence yield identical translations. Analyzing the statistics of this phenomenon across an ensemble of such sentences, consisting each of a pivot selected token, yields the probabilities of replacing this specific token with others while preserving the translation. These probabilities constitute the entropy of the selected token, and the average across all selected pivot tokens provides an estimate of the translator's overall translation entropy, which is enhanced along the decoder blocks. This entropic measure allows for the quantitative ranking of several publicly available translators and reveals whether mutual translation entropy is symmetric. Extending the proposed method to include the replacement of two tokens in a given pivot sentence demonstrates a multiplicative effect, where translation degeneracy is proportional to the product of the degeneracies of the two tokens. These findings establish translation entropy as a measurable property and objective benchmarking of artificial translators. Results are based on MarianMT, T5-Base and NLLB-200 translators.
论文ID : 2511.13180标题 : Translation Entropy: A Statistical Framework for Evaluating Translation Systems作者 : Ronit D. Gross, Yanir Harel, Ido Kanter (Bar-Ilan University)分类 : cs.CL (Computational Linguistics)发表时间 : 2025年论文链接 : https://arxiv.org/abs/2511.13180 本研究针对机器翻译系统缺乏客观量化评估方法的问题,提出了一种基于统计学的翻译熵(Translation Entropy, TE)估计框架。核心发现是:给定一个翻译器,多个仅在一个选定token上有差异的源句子可能产生相同的翻译。通过分析这种现象的统计特性,可以计算替换特定token同时保持翻译不变的概率分布,从而得到该token的熵值。对所有选定token的熵值取平均,即可估计翻译器的整体翻译熵。该方法能够量化排名多个公开翻译器,揭示互译熵的对称性,并发现双token替换时存在乘法效应。研究基于MarianMT、T5-Base和NLLB-200三个翻译模型进行验证。
机器翻译系统(特别是基于深度学习的编码器-解码器架构)缺乏客观的量化评估方法。尽管存在BLEU和COMET等评估指标,但它们主要依赖参考翻译的词汇和语义相似性,难以从信息论角度衡量翻译器的本质特性。
理论层面 :单个语言的熵值至今无法精确计算,Shannon在1951年估计英语熵约为每字母1比特,但扩展到更长文本序列在计算上不可行实践层面 :信息时代翻译需求激增,需要客观方法评估和比较不同翻译系统的性能科学意义 :理解翻译过程中的信息退化(degeneracy)现象,揭示语言间的内在关系BLEU :基于n-gram匹配,无法识别不同措辞但含义相同的翻译COMET :虽然使用神经模型理解语义,但仍依赖参考翻译,且评分差异较小(见Table 8)理论困境 :语言熵的理论估计至今未解决,翻译熵更加复杂提出一种无需知道单个语言熵即可估计翻译熵的方法,从信息论角度量化翻译系统的"翻译退化"(translation degeneracy)现象。
提出翻译熵(TE)的可计算定义 :通过token替换保持翻译不变的概率分布来量化翻译熵开发系统性的TE估计方法 :包括pivot句子选择、token替换、子群统计和熵值计算的完整流程发现翻译退化的乘法效应 :双token替换的退化度约为单token退化度乘积的0.5-0.9倍揭示互译熵的非对称性 :英法翻译显示显著非对称性(法→英熵值约为英→法的2.5倍),而英希翻译近似对称量化排名三个主流翻译器 :MarianMT、T5-Base和NLLB-200,发现模型大小与性能非单调关系验证解码器块的熵递减规律 :翻译质量沿解码器层逐步提升(熵从10,712降至116)输入 :编码器-解码器翻译模型、源语言数据集输出 :翻译熵值S(或S₉₅),用于量化翻译器的翻译退化程度约束 :需要足够数量包含选定token的源句子(本研究使用30个pivot句子)
翻译熵估计分为以下步骤:
步骤1:单token分析
选择一个pivot token T₁ 从训练数据集中选择30个包含T₁的源句子(位置为j) 对每个句子,用所有可能的token(~30,000个)替换位置j的T₁ 识别哪些替换后的句子产生与原pivot句子相同的翻译 步骤2:子群构建
对每个pivot句子m,构建子群SG_m(T₁),包含所有能保持翻译不变的替换token 为避免异常大的子群(如模型忽略某token时,几乎所有token都可替换),仅保留24个最小的子群,记为SG₂₄(T₁) 步骤3:概率计算
统计每个token i在SG₂₄(T₁)中出现的次数(1-24次),除以24得到概率P_i:
P_i = (token i在24个子群中出现的次数) / 24
步骤4:熵值计算
对单个token的熵:
S ( T 1 ) = − ∑ i P i log 2 P i (Eq. 2) S(T_1) = -\sum_i P_i \log_2 P_i \quad \text{(Eq. 2)} S ( T 1 ) = − ∑ i P i log 2 P i (Eq. 2)
平均替换次数:
N A v ( T 1 ) = 24 ∑ i P i (Eq. 1) N_{Av}(T_1) = 24 \sum_i P_i \quad \text{(Eq. 1)} N A v ( T 1 ) = 24 ∑ i P i (Eq. 1)
步骤5:阈值过滤
为排除无意义的低概率替换(gibberish tokens),应用阈值:
P i > Threshold = β c 24 (Eq. 4) P_i > \text{Threshold} = \frac{\beta_c}{24} \quad \text{(Eq. 4)} P i > Threshold = 24 β c (Eq. 4)
研究中使用β_c = 5(即P_i > 0.208)
步骤6:整体熵估计
对100个随机选择的pivot token重复上述过程,计算平均熵:
S = ⟨ S ( T α ) ⟩ α (Eq. 5) S = \langle S(T_\alpha) \rangle_\alpha \quad \text{(Eq. 5)} S = ⟨ S ( T α ) ⟩ α (Eq. 5)
为减少异常值影响,使用S₉₅(仅取95个最低熵值的平均)
不同于传统的"在特定句子中替换token",本方法测量的是"跨多个包含该token的句子,哪些token能一致性地保持翻译不变",这是一种更强的条件约束。
通过分析P_i的分布特性:
P_i = 1:强同义词,熵贡献为0 P_i ≈ 0.37(1/e):熵贡献最大 P_i ≪ 0.37:噪声token,需过滤 阈值β_c = 5对应P_i ≈ 0.208,在保留有意义替换和过滤噪声间取得平衡。
发现翻译退化满足近似乘法关系:
S G ( T α , T β ) > 0.5 ⋅ S G ( T α ) ⋅ S G ( T β ) (Eq. 6) SG(T_\alpha, T_\beta) > 0.5 \cdot SG(T_\alpha) \cdot SG(T_\beta) \quad \text{(Eq. 6)} SG ( T α , T β ) > 0.5 ⋅ SG ( T α ) ⋅ SG ( T β ) (Eq. 6)
系数0.5-0.9表明token间存在语义相关性,翻译并非完全独立处理每个token。
vs BLEU :不依赖参考翻译,测量模型内在的信息退化vs COMET :从信息论角度量化,而非语义相似度vs 语言熵估计 :绕过单语言熵的计算困难,直接测量翻译映射的熵MarianMT训练数据 :Opus100数据集,包含100万训练句子和2,000验证句子语言对 :英语-法语(各约30,000 tokens)、英语-希伯来语Pivot句子选择 :
每个pivot token选择30个包含该token的源句子 Token频率范围:500-1,500次(排除过高频的连词和过低频的罕见词) 句子长度:最多128 tokens S :100个pivot token的平均熵S₉₅ :95个最低熵值的平均(主要指标,排除异常值)N_Av :平均替换次数|SG| :子群大小翻译模型 :MarianMT (Helsinki-NLP/opus-mt):6编码器+6解码器块,~75M参数 T5-Base (Google):12编码器+12解码器块,~223M参数 NLLB-200 (Facebook):12编码器+12解码器块,~615M参数 传统指标 :BLEU和COMET评分Pivot token数量 :100个随机选择每个token的句子数 :30个子群数量 :保留24个最小子群阈值 :β_c = 5(主要结果),β_c = 9(验证鲁棒性)解码器块分析 :冻结前m个块,训练全连接层(50 epochs,CosineAnnealingLR,学习率1e-4)方向 S S₉₅ 英→法 29.5 3.6 法→英 20.7 9.5
发现 :法→英的S₉₅是英→法的2.6倍,显示显著非对称性
方向 S S₉₅ 英→希 8.0 5.7 希→英 17.5 6.3
发现 :S₉₅值接近(5.7 vs 6.3),显示近似对称性
模型 S S₉₅ 参数量 MarianMT 29.5 3.6 ~75M NLLB-200 73.5 13.0 ~615M T5-Base 90.9 2.8 ~223M
发现 :T5-Base在S₉₅上表现最佳,MarianMT次之,参数量最大的NLLB-200表现最差
模型 S S₉₅ MarianMT 20.7 9.5 NLLB-200 251.2 108.9 T5-Base 394.0 295.9
发现 :MarianMT显著优于其他两个模型
模型 英→法BLEU 英→法COMET 法→英BLEU 法→英COMET MarianMT 38.83 0.8026 39.82 0.8223 NLLB-200 33.27 0.798 34.38 0.8037 T5-Base 37.08 0.7763 28.19 0.7299
观察 :
MarianMT在BLEU和COMET上全面领先 TE排名与COMET/BLEU部分一致(法→英),但英→法存在差异 COMET评分差异较小(0.72-0.82),区分度不如TE 使用β_c = 9时的S₉₅值:
英→法:MarianMT (1.5), NLLB-200 (2.8), T5-Base (1.1) 法→英:MarianMT (2.8), NLLB-200 (6.5), T5-Base (3.9) 结论 :排名顺序保持不变,方法对阈值选择鲁棒
方向 MarianMT NLLB-200 T5-Base 英→法 S₉₅ 116.1 1,374.3 258.6 法→英 S₉₅ 379.9 2,840.6 1,176.9
发现 :
熵值显著增加(约30-100倍) 排名趋势与有阈值情况一致 验证了翻译噪声的存在和阈值过滤的必要性 解码器块数 1 2 3 4 5 6 S₉₅ 10,712 6,114 3,295 908 147 116
结论 :翻译质量沿解码器层逐步提升,熵值呈指数级下降
Pivot句子示例 :
"Nice to meet you" "That's a Nice idea" 高概率替换token :
"nice" (P ≈ 0.96) "lovey" (P ≈ 0.42) 低概率噪声token :
"jug", "broad", "ese" (P ≈ 1/24) 解释 :专有名词或特定词汇,替换选项少,熵低
特点 :许多token的P_i > Threshold
"purchase", "get", "acquire", "obtain"等多个近义词 更多的语义等价替换选项 解释 :常见动词,同义词丰富,熵高
源句:"You seemed very much in love, your arms full of wine and food"
SG(wine) = 86 SG(food) = 26 SG(wine, food) = 1,132 比率:1,132 / (86 × 26) = 0.51 解释 :两个token的替换存在相关性(如"wine and beer"比"wine and bread"更常见),导致实际退化度略小于理论乘积
熵值分布的长尾特性 :大多数token的S(T_α)在1-13范围内,但少数异常值可达数百(Fig. 4)语言对的内在差异 :英法非对称性可能源于语言结构差异(如法语的性数一致要求更严格),而非模型缺陷模型规模非单调性 :MarianMT(75M)在某些任务上优于NLLB-200(615M),表明架构设计和训练数据质量比参数量更重要翻译退化的普遍性 :所有翻译器都存在显著的翻译退化现象(S₉₅ > 2.8),反映自然语言固有的同义性COMET的区分度问题 :COMET评分在0.72-0.82的窄范围内,而TE的S₉₅跨越2.8-295.9,提供更大的区分度Shannon (1951) :通过人类预测实验估计英语熵约1 bit/letter局限性 :无法扩展到N > 10的序列,需要指数级数据量BLEU (Papineni et al., 2002) :基于n-gram精确匹配,忽略语义等价性COMET (Rei et al., 2020) :使用神经网络评估语义相似度,但仍依赖参考翻译本文优势 :无需参考翻译,从信息论角度直接量化翻译器特性Transformer架构 (Vaswani et al., 2017) :编码器-解码器结构成为主流MarianMT (Junczys-Dowmunt et al., 2018) :高效的C++实现T5 (Raffel et al., 2020) :统一文本到文本框架NLLB-200 (Koishekenov et al., 2022) :大规模多语言翻译本文贡献 :首次量化解码器块的逐层翻译改进过程(Table 7)相关研究 :Gross et al. (2025)和Koresh et al. (2025)关于Transformer学习机制的研究翻译熵是可测量的 :通过token替换保持翻译不变的统计分析,可以量化翻译器的熵值互译熵可能非对称 :英法翻译显示2.6倍的非对称性,而英希翻译近似对称,表明语言对的内在结构差异双token乘法规律 :SG(T_α, T_β) ≈ 0.5-0.9 × SG(T_α) × SG(T_β),揭示token间的语义相关性模型规模与性能非线性 :MarianMT(75M参数)在某些任务上优于NLLB-200(615M参数)解码器的渐进优化 :翻译熵沿解码器层指数级下降(从10,712降至116)熵的多义性 :不同的P_i分布可能产生相同的熵值,需结合|SG|和N_Av综合解释样本量限制 :仅使用100个pivot token和30个句子,统计鲁棒性有待提高计算复杂度 :双token分析因组合爆炸仅测试约100个句子最优熵未知 :无法确定语言的最小可达熵,只能相对比较同义词的必然性 :零熵不现实,因为自然语言固有同义现象非对称性来源不明 :无法区分是语言结构还是模型训练导致数据集依赖 :结果基于Opus100,其他数据集可能产生不同结果语言对有限 :仅测试英法和英希,需要更广泛的语言覆盖阈值选择 :虽然β_c = 5-10范围内结果鲁棒,但最优值仍需理论指导扩展到更多语言对 :构建语言聚类,区分对称/非对称互译特性高熵token的预训练 :针对S(T_α) > 10的token开发专门的训练策略理论最小熵的估计 :探索给定语言对的熵下界与模型架构的关系 :研究编码器/解码器层数、注意力头数等对TE的影响在线TE估计 :开发无需完整训练数据集的增量估计方法多token扩展 :研究三个及以上token替换的高阶相关性范式转变 :首次从信息论角度定义可计算的翻译熵,绕过单语言熵估计的困难理论深度 :结合Shannon熵理论与现代深度学习,建立统计物理与NLP的桥梁普适性 :方法适用于任何编码器-解码器架构,不限于特定模型多模型验证 :测试三个主流翻译器(MarianMT、T5-Base、NLLB-200)多语言对 :英法、法英、英希、希英四个方向消融实验完整 :阈值鲁棒性、无阈值对比、解码器块分析不足 :pivot token数量(100个)和句子数(30个)相对有限重要发现 :
互译非对称性(英法2.6倍差异) 双token乘法效应(系数0.5-0.9) 解码器熵递减规律(指数级下降) 与传统指标的对比 :TE与BLEU/COMET部分一致但提供新视角局限 :未在更大规模数据集(如WMT)上验证结构严谨 :从历史背景→问题定义→方法设计→实验验证,逻辑清晰可视化优秀 :Fig. 1-6直观展示概念和结果数学表达规范 :公式推导清晰,符号定义明确未提供S₉₅的置信区间或标准差 100个pivot token的样本量是否足够?需要bootstrap验证 英→法:TE排名T5-Base > MarianMT,但BLEU/COMET排名相反(Table 2 vs Table 8) 仅简单指出差异,未探讨背后原因(如TE测量的是退化度而非翻译质量?) 单个token的TE估计需生成30×30,000 = 90万个翻译 100个token共需9000万次翻译,计算成本巨大 未讨论如何降低计算复杂度 为什么英法非对称而英希对称?仅推测是"语言结构差异" 双token系数0.5-0.9的理论预测值是多少? P_i的最优分布形式是什么? Pivot token选择频率500-1,500可能引入中频词偏差 30个句子是否能代表token的全部用法? 仅使用训练集句子,未测试泛化能力 理论贡献 :建立翻译熵的可操作定义,为翻译系统评估提供新维度方法贡献 :token替换+统计分析的范式可扩展到其他NLP任务(如文本生成、摘要)实证贡献 :揭示互译非对称性和解码器优化机制优势 :
无需人工标注参考翻译 提供比COMET更大的区分度 可用于模型选择和超参数调优 限制 :
计算成本高(9000万次翻译/100 tokens) 需要访问模型内部(无法评估API翻译服务) 与人类评估的相关性未验证 优点 :
方法描述详细(算法步骤、超参数、数据集) 使用公开数据集(Opus100)和模型(MarianMT等) 不足 :
未提供代码链接 100个pivot token的具体选择未公开 30个句子的选择标准不明确 模型开发 :比较不同架构(编码器/解码器层数、注意力机制)的翻译退化特性语言学研究 :研究语言对的对称性,构建基于TE的语言聚类训练优化 :识别高熵token,设计针对性的训练策略实时评估 :计算成本过高,无法用于在线翻译系统的即时评估黑盒API :需要访问模型内部生成过程,无法评估GPT-4等API服务低资源语言 :需要足够的训练数据来选择pivot句子文本生成 :评估GPT类模型的生成多样性(生成退化度)摘要系统 :测量源文本→摘要的信息压缩率对话系统 :量化回复的语义等价类大小Shannon, C.E. (1951) : Prediction and entropy of printed English - 语言熵的开创性工作Vaswani et al. (2017) : Attention is all you need - Transformer架构Papineni et al. (2002) : BLEU metric - 经典翻译评估指标Rei et al. (2020) : COMET - 神经翻译评估框架Raffel et al. (2020) : T5 - 统一文本到文本Transformer本文提出的翻译熵框架是机器翻译评估领域的一次重要创新,从信息论角度提供了全新的视角。其核心优势在于无需参考翻译 和更大的区分度 ,核心发现(互译非对称性、双token乘法效应、解码器熵递减)具有重要的理论和实践意义。然而,计算成本高 、理论解释不足 和与传统指标的矛盾未充分探讨 是主要局限。未来若能降低计算复杂度、扩展到更多语言对并深入分析非对称性来源,该方法有望成为翻译系统评估的标准工具之一。
推荐指数 :★★★★☆(4/5)适合读者 :机器翻译研究者、信息论与NLP交叉领域学者、翻译系统开发者