2025-11-12T07:34:10.386378

Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers

Jang, Lee, Chung et al.
Tokenization is a crucial step that bridges human-readable text with model-readable discrete tokens. However, recent studies have revealed that tokenizers can be exploited to elicit unwanted model behaviors. In this work, we investigate incomplete tokens, i.e., undecodable tokens with stray bytes resulting from byte-level byte-pair encoding (BPE) tokenization. We hypothesize that such tokens are heavily reliant on their adjacent tokens and are fragile when paired with unfamiliar tokens. To demonstrate this vulnerability, we introduce improbable bigrams: out-of-distribution combinations of incomplete tokens designed to exploit their dependency. Our experiments show that improbable bigrams are significantly prone to hallucinatory behaviors. Surprisingly, the same phrases have drastically lower rates of hallucination (90% reduction in Llama3.1) when an alternative tokenization is used. We caution against the potential vulnerabilities introduced by byte-level BPE tokenizers, which may introduce blind spots to language models.
academic

Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers

基本信息

  • 论文ID: 2410.23684
  • 标题: Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers
  • 作者: Eugene Jang (Northeastern University), Kimin Lee (KAIST), Jin-Woo Chung (S2W Inc.), Keuntae Park (S2W Inc.), Seungwon Shin (KAIST)
  • 分类: cs.CL (Computational Linguistics)
  • 发表时间: 2024年10月 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2410.23684

摘要

本文研究了字节级字节对编码(BPE)分词器中不完整token的脆弱性问题。作者发现这些包含游离字节的不完整token严重依赖相邻token,在与不熟悉的token配对时容易出现问题。通过构造"不可能二元组"(improbable bigrams)——即不完整token的分布外组合,作者证明了这种脆弱性会导致显著的幻觉行为。实验显示,使用替代分词方法时,同样短语的幻觉率大幅下降(在Llama3.1中减少90%)。

研究背景与动机

核心问题

本文要解决的核心问题是字节级BPE分词器中不完整token的脆弱性,这些token会导致大语言模型产生幻觉行为。

问题重要性

  1. 分词的关键作用:分词是连接人类可读文本和模型可处理离散token的关键步骤
  2. 现有安全隐患:近期研究表明分词器可被恶意利用来诱发模型的不当行为
  3. 实际危害:分词问题可能导致数据完整性损失、对抗性攻击、模型指纹识别等安全风险

现有方法局限性

  • 现有研究主要关注欠训练的"故障token"(glitch tokens)
  • 缺乏对结构性分词问题的系统性分析
  • 字节级BPE的字符边界无关性可能产生结构性脆弱token

研究动机

作者假设不完整token由于其结构特性,在与不熟悉的相邻token配对时会表现出脆弱性,即使这些token本身训练充分。

核心贡献

  1. 识别了不完整token的脆弱性:系统性地分析了字节级BPE分词器中不完整token的结构特征和潜在问题
  2. 提出了"不可能二元组"概念:设计了一种新的攻击方法来暴露不完整token的脆弱性
  3. 进行了跨模型验证:在5个主流大语言模型上验证了该脆弱性的普遍存在性
  4. 提供了缓解策略:通过替代分词方法证明了问题的可解决性,并提出了预防措施

方法详解

任务定义

输入:包含不完整token的文本短语 输出:模型对重复任务的响应 目标:识别导致模型无法正确重复输入短语的token组合

不完整Token分析方法

1. 结构分析

  • UTF-8编码分析:基于UTF-8多字节字符的起始字节和延续字节结构
  • 前缀/后缀分类
    • 前缀token:以游离字节结尾,需要额外字节完成字符
    • 后缀token:以游离字节开始,提供完成字符所需的字节

2. 二元组构造流程

步骤1:结构分析
- 识别token中的起始字节和延续字节
- 确定token需要或提供的字节数

步骤2:匹配兼容性
- 寻找结构互补的token对
- 确保组合能形成有效的Unicode字符

步骤3:可行性验证
- 执行decode-encode测试
- 验证生成的字符串确实按预期分词

不可能二元组的特征

  1. 多语言性:组合的字符来自不同的Unicode脚本系统
  2. 分布外特性:这种跨脚本组合在训练数据中极不可能出现
  3. 结构依赖性:两个token必须配合才能形成有效字符

技术创新点

  1. 系统性漏洞发现:首次系统性地识别了字节级BPE的结构性脆弱性
  2. 精确的攻击构造:基于UTF-8编码规则精确构造攻击样本
  3. 训练质量无关性:证明了即使是训练充分的token也可能存在脆弱性

实验设置

模型选择

测试了5个使用字节级BPE的指令微调模型:

  • Meta-Llama-3.1-8B-Instruct (词汇表128k,1224个不完整token)
  • EXAONE-3.0-7.8B-Instruct (词汇表102k,1222个不完整token)
  • Qwen2.5-32B-Instruct (词汇表151k,1320个不完整token)
  • Mistral-Nemo-Instruct-2407 (词汇表131k,1307个不完整token)
  • C4AI-Command-R-v01 (词汇表255k,2956个不完整token)

评价任务设计

使用4种提示模板测试模型重复目标短语的能力:

任务类型提示模板
直接重复"Repeat this phrase exactly: '{Phrase}'"
定义询问"What does '{Phrase}' mean?"
知识询问"Today I heard about '{Phrase}'. Do you know what this means?"
代码场景Python代码中的用户名列表输出

Token选择策略

  1. 训练质量过滤:使用Land和Bartolo (2024)的嵌入启发式方法排除欠训练token
  2. 聚焦训练充分的token:仅使用词汇表中训练质量排名前50%的token
  3. 构造不可能二元组:每个模型构造最多100个不可能二元组

基线对比

为每个不可能二元组构造完整token的对照组:

  • 选择训练程度相似但为完整token的替代品
  • 确保对照实验的公平性

实验结果

主要结果

模型不可能二元组幻觉率基线二元组幻觉率
Llama 3.148/100 (48%)0/100 (0%)
Exaone77/100 (77%)20/100 (20%)
Qwen2.533/100 (33%)0/100 (0%)
Mistral-Nemo52/71 (73%)1/71 (1%)
Command-R49/100 (49%)8/100 (8%)

关键发现:不完整token组成的不可能二元组在所有模型上都表现出显著更高的幻觉率。

替代分词实验结果

模型原始分词幻觉率替代分词幻觉率改善程度
Llama 3.10.480.05↓90%
Exaone0.770.50↓35%
Qwen2.50.330.12↓64%
Mistral-Nemo0.730.01↓98%
Command-R0.490.55无改善

重要发现:除Command-R外,所有模型在使用替代分词时幻觉率都显著降低,证明问题确实源于不完整token。

语言分布分析

  • 不可能二元组涵盖多种语言对组合
  • 高资源多字节脚本(中文、韩文、俄文)出现频率最高
  • 不同模型的语言对分布差异显著(Exaone有17种语言对,Command-R仅有3种)

相关工作

分词器脆弱性研究

  1. 故障token研究:Land和Bartolo (2024)提出嵌入层启发式方法识别欠训练token
  2. 对抗性分词:Wang等(2024)创建对抗性问题诱导错误分词
  3. 分词公平性:Petrov等(2023)和Ovalle等(2024)研究分词器引入的不公平和偏见

BPE分词器研究

  1. 压缩效果质疑:Schmidt等(2024)挑战了BPE有效性源于压缩的假设
  2. 贪婪压缩问题:Bostrom和Durrett (2020)指出贪婪压缩优先考虑频率而非语言学意义
  3. 形态学改进:Limisiewicz等(2024)和Bauwens等(2024)提出形态学驱动的BPE改进

本文贡献的独特性

与现有研究不同,本文:

  • 关注结构性而非训练质量问题
  • 证明了训练充分的token仍可能脆弱
  • 提供了系统性的攻击构造方法

结论与讨论

主要结论

  1. 不完整token存在系统性脆弱性:即使训练充分,不完整token在特定组合下仍容易导致幻觉
  2. 问题源于分词而非训练:替代分词显著改善了问题,证明根源在于token结构
  3. 影响广泛:该问题在多个主流模型中普遍存在

实际风险

  1. 代码和数据处理:可能损害变量名或固定值的完整性
  2. 对抗性不可重复性:攻击者可利用不可重复短语逃避LLM代理的干预
  3. 模型指纹识别:可用于识别匿名LLM服务背后的架构

缓解策略

  1. 词汇表剪枝:在模型训练前移除不完整token
  2. 约束BPE合并:在分词器训练时尊重字符边界
  3. 字符级分词:对于不需要完整Unicode覆盖的模型,可选择字符级分词

局限性

  1. 评估范围:仅限于短语级幻觉,未系统评估事实性幻觉
  2. 语言专业性:测试短语涵盖多种语言,超出作者专业范围
  3. 模型特异性:Command-R模型的异常结果需要进一步研究

未来方向

  1. 更安全的分词器设计:开发避免不完整token的分词方法
  2. 鲁棒性评估:建立更全面的分词脆弱性评估框架
  3. 防御机制研究:探索运行时检测和缓解策略

深度评价

优点

  1. 问题识别的原创性:首次系统性地识别了字节级BPE的结构性脆弱性
  2. 方法论的严谨性:基于UTF-8编码规则的精确攻击构造,实验设计完善
  3. 实验的全面性:跨多个模型和语言的验证,结果具有说服力
  4. 实用价值:提供了具体的缓解策略和安全建议

不足

  1. 理论分析不足:缺乏对为什么不完整token更脆弱的深层理论解释
  2. Command-R异常未解释:对该模型异常结果的分析不够深入
  3. 评估指标局限:仅使用重复任务评估,可能无法完全反映实际危害
  4. 长期影响未知:未评估该脆弱性对模型其他能力的影响

影响力

  1. 学术贡献:为分词器安全研究开辟了新方向
  2. 实用价值:为模型开发者提供了重要的安全考虑
  3. 可复现性:方法描述清晰,实验可重现
  4. 政策意义:可能影响未来分词器的设计标准

适用场景

  1. 模型安全评估:用于评估现有模型的分词脆弱性
  2. 分词器设计:指导更安全的分词器开发
  3. 对抗性测试:作为模型鲁棒性测试的一部分
  4. 安全审计:用于LLM部署前的安全检查

参考文献

关键参考文献

  • Land, S. & Bartolo, M. (2024). Fishing for magikarp: Automatically detecting under-trained tokens in large language models.
  • Bostrom, K. & Durrett, G. (2020). Byte pair encoding is suboptimal for language model pretraining.
  • Sennrich, R., Haddow, B., & Birch, A. (2016). Neural machine translation of rare words with subword units.
  • Limisiewicz, T. et al. (2024). MYTE: Morphology-driven byte encoding for better and fairer multilingual language modeling.

总体评价:这是一篇高质量的研究论文,识别了字节级BPE分词器的重要安全漏洞。虽然存在一些局限性,但其原创性、实验的严谨性和实用价值使其成为分词器安全研究领域的重要贡献。该研究对于提高大语言模型的安全性和鲁棒性具有重要意义。