Tokenization is a crucial step that bridges human-readable text with model-readable discrete tokens. However, recent studies have revealed that tokenizers can be exploited to elicit unwanted model behaviors. In this work, we investigate incomplete tokens, i.e., undecodable tokens with stray bytes resulting from byte-level byte-pair encoding (BPE) tokenization. We hypothesize that such tokens are heavily reliant on their adjacent tokens and are fragile when paired with unfamiliar tokens. To demonstrate this vulnerability, we introduce improbable bigrams: out-of-distribution combinations of incomplete tokens designed to exploit their dependency. Our experiments show that improbable bigrams are significantly prone to hallucinatory behaviors. Surprisingly, the same phrases have drastically lower rates of hallucination (90% reduction in Llama3.1) when an alternative tokenization is used. We caution against the potential vulnerabilities introduced by byte-level BPE tokenizers, which may introduce blind spots to language models.
academic 论文ID : 2410.23684标题 : Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers作者 : Eugene Jang (Northeastern University), Kimin Lee (KAIST), Jin-Woo Chung (S2W Inc.), Keuntae Park (S2W Inc.), Seungwon Shin (KAIST)分类 : cs.CL (Computational Linguistics)发表时间 : 2024年10月 (arXiv预印本)论文链接 : https://arxiv.org/abs/2410.23684 本文研究了字节级字节对编码(BPE)分词器中不完整token的脆弱性问题。作者发现这些包含游离字节的不完整token严重依赖相邻token,在与不熟悉的token配对时容易出现问题。通过构造"不可能二元组"(improbable bigrams)——即不完整token的分布外组合,作者证明了这种脆弱性会导致显著的幻觉行为。实验显示,使用替代分词方法时,同样短语的幻觉率大幅下降(在Llama3.1中减少90%)。
本文要解决的核心问题是字节级BPE分词器中不完整token的脆弱性,这些token会导致大语言模型产生幻觉行为。
分词的关键作用 :分词是连接人类可读文本和模型可处理离散token的关键步骤现有安全隐患 :近期研究表明分词器可被恶意利用来诱发模型的不当行为实际危害 :分词问题可能导致数据完整性损失、对抗性攻击、模型指纹识别等安全风险现有研究主要关注欠训练的"故障token"(glitch tokens) 缺乏对结构性分词问题的系统性分析 字节级BPE的字符边界无关性可能产生结构性脆弱token 作者假设不完整token由于其结构特性,在与不熟悉的相邻token配对时会表现出脆弱性,即使这些token本身训练充分。
识别了不完整token的脆弱性 :系统性地分析了字节级BPE分词器中不完整token的结构特征和潜在问题提出了"不可能二元组"概念 :设计了一种新的攻击方法来暴露不完整token的脆弱性进行了跨模型验证 :在5个主流大语言模型上验证了该脆弱性的普遍存在性提供了缓解策略 :通过替代分词方法证明了问题的可解决性,并提出了预防措施输入 :包含不完整token的文本短语
输出 :模型对重复任务的响应
目标 :识别导致模型无法正确重复输入短语的token组合
UTF-8编码分析 :基于UTF-8多字节字符的起始字节和延续字节结构前缀/后缀分类 :
前缀token:以游离字节结尾,需要额外字节完成字符 后缀token:以游离字节开始,提供完成字符所需的字节 步骤1:结构分析
- 识别token中的起始字节和延续字节
- 确定token需要或提供的字节数
步骤2:匹配兼容性
- 寻找结构互补的token对
- 确保组合能形成有效的Unicode字符
步骤3:可行性验证
- 执行decode-encode测试
- 验证生成的字符串确实按预期分词
多语言性 :组合的字符来自不同的Unicode脚本系统分布外特性 :这种跨脚本组合在训练数据中极不可能出现结构依赖性 :两个token必须配合才能形成有效字符系统性漏洞发现 :首次系统性地识别了字节级BPE的结构性脆弱性精确的攻击构造 :基于UTF-8编码规则精确构造攻击样本训练质量无关性 :证明了即使是训练充分的token也可能存在脆弱性测试了5个使用字节级BPE的指令微调模型:
Meta-Llama-3.1-8B-Instruct (词汇表128k,1224个不完整token) EXAONE-3.0-7.8B-Instruct (词汇表102k,1222个不完整token) Qwen2.5-32B-Instruct (词汇表151k,1320个不完整token) Mistral-Nemo-Instruct-2407 (词汇表131k,1307个不完整token) C4AI-Command-R-v01 (词汇表255k,2956个不完整token) 使用4种提示模板测试模型重复目标短语的能力:
任务类型 提示模板 直接重复 "Repeat this phrase exactly: '{Phrase}'" 定义询问 "What does '{Phrase}' mean?" 知识询问 "Today I heard about '{Phrase}'. Do you know what this means?" 代码场景 Python代码中的用户名列表输出
训练质量过滤 :使用Land和Bartolo (2024)的嵌入启发式方法排除欠训练token聚焦训练充分的token :仅使用词汇表中训练质量排名前50%的token构造不可能二元组 :每个模型构造最多100个不可能二元组为每个不可能二元组构造完整token的对照组:
选择训练程度相似但为完整token的替代品 确保对照实验的公平性 模型 不可能二元组幻觉率 基线二元组幻觉率 Llama 3.1 48/100 (48%) 0/100 (0%) Exaone 77/100 (77%) 20/100 (20%) Qwen2.5 33/100 (33%) 0/100 (0%) Mistral-Nemo 52/71 (73%) 1/71 (1%) Command-R 49/100 (49%) 8/100 (8%)
关键发现 :不完整token组成的不可能二元组在所有模型上都表现出显著更高的幻觉率。
模型 原始分词幻觉率 替代分词幻觉率 改善程度 Llama 3.1 0.48 0.05 ↓90% Exaone 0.77 0.50 ↓35% Qwen2.5 0.33 0.12 ↓64% Mistral-Nemo 0.73 0.01 ↓98% Command-R 0.49 0.55 无改善
重要发现 :除Command-R外,所有模型在使用替代分词时幻觉率都显著降低,证明问题确实源于不完整token。
不可能二元组涵盖多种语言对组合 高资源多字节脚本(中文、韩文、俄文)出现频率最高 不同模型的语言对分布差异显著(Exaone有17种语言对,Command-R仅有3种) 故障token研究 :Land和Bartolo (2024)提出嵌入层启发式方法识别欠训练token对抗性分词 :Wang等(2024)创建对抗性问题诱导错误分词分词公平性 :Petrov等(2023)和Ovalle等(2024)研究分词器引入的不公平和偏见压缩效果质疑 :Schmidt等(2024)挑战了BPE有效性源于压缩的假设贪婪压缩问题 :Bostrom和Durrett (2020)指出贪婪压缩优先考虑频率而非语言学意义形态学改进 :Limisiewicz等(2024)和Bauwens等(2024)提出形态学驱动的BPE改进与现有研究不同,本文:
关注结构性而非训练质量问题 证明了训练充分的token仍可能脆弱 提供了系统性的攻击构造方法 不完整token存在系统性脆弱性 :即使训练充分,不完整token在特定组合下仍容易导致幻觉问题源于分词而非训练 :替代分词显著改善了问题,证明根源在于token结构影响广泛 :该问题在多个主流模型中普遍存在代码和数据处理 :可能损害变量名或固定值的完整性对抗性不可重复性 :攻击者可利用不可重复短语逃避LLM代理的干预模型指纹识别 :可用于识别匿名LLM服务背后的架构词汇表剪枝 :在模型训练前移除不完整token约束BPE合并 :在分词器训练时尊重字符边界字符级分词 :对于不需要完整Unicode覆盖的模型,可选择字符级分词评估范围 :仅限于短语级幻觉,未系统评估事实性幻觉语言专业性 :测试短语涵盖多种语言,超出作者专业范围模型特异性 :Command-R模型的异常结果需要进一步研究更安全的分词器设计 :开发避免不完整token的分词方法鲁棒性评估 :建立更全面的分词脆弱性评估框架防御机制研究 :探索运行时检测和缓解策略问题识别的原创性 :首次系统性地识别了字节级BPE的结构性脆弱性方法论的严谨性 :基于UTF-8编码规则的精确攻击构造,实验设计完善实验的全面性 :跨多个模型和语言的验证,结果具有说服力实用价值 :提供了具体的缓解策略和安全建议理论分析不足 :缺乏对为什么不完整token更脆弱的深层理论解释Command-R异常未解释 :对该模型异常结果的分析不够深入评估指标局限 :仅使用重复任务评估,可能无法完全反映实际危害长期影响未知 :未评估该脆弱性对模型其他能力的影响学术贡献 :为分词器安全研究开辟了新方向实用价值 :为模型开发者提供了重要的安全考虑可复现性 :方法描述清晰,实验可重现政策意义 :可能影响未来分词器的设计标准模型安全评估 :用于评估现有模型的分词脆弱性分词器设计 :指导更安全的分词器开发对抗性测试 :作为模型鲁棒性测试的一部分安全审计 :用于LLM部署前的安全检查关键参考文献 :
Land, S. & Bartolo, M. (2024). Fishing for magikarp: Automatically detecting under-trained tokens in large language models. Bostrom, K. & Durrett, G. (2020). Byte pair encoding is suboptimal for language model pretraining. Sennrich, R., Haddow, B., & Birch, A. (2016). Neural machine translation of rare words with subword units. Limisiewicz, T. et al. (2024). MYTE: Morphology-driven byte encoding for better and fairer multilingual language modeling. 总体评价 :这是一篇高质量的研究论文,识别了字节级BPE分词器的重要安全漏洞。虽然存在一些局限性,但其原创性、实验的严谨性和实用价值使其成为分词器安全研究领域的重要贡献。该研究对于提高大语言模型的安全性和鲁棒性具有重要意义。