Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers
Jang, Lee, Chung et al.
Tokenization is a crucial step that bridges human-readable text with model-readable discrete tokens. However, recent studies have revealed that tokenizers can be exploited to elicit unwanted model behaviors. In this work, we investigate incomplete tokens, i.e., undecodable tokens with stray bytes resulting from byte-level byte-pair encoding (BPE) tokenization. We hypothesize that such tokens are heavily reliant on their adjacent tokens and are fragile when paired with unfamiliar tokens. To demonstrate this vulnerability, we introduce improbable bigrams: out-of-distribution combinations of incomplete tokens designed to exploit their dependency. Our experiments show that improbable bigrams are significantly prone to hallucinatory behaviors. Surprisingly, the same phrases have drastically lower rates of hallucination (90% reduction in Llama3.1) when an alternative tokenization is used. We caution against the potential vulnerabilities introduced by byte-level BPE tokenizers, which may introduce blind spots to language models.
academic
الثنائيات غير المحتملة تكشف نقاط الضعف في الرموز غير المكتملة في المُحللات اللغوية على مستوى البايت
تبحث هذه الورقة في مشكلة نقاط الضعف في الرموز غير المكتملة في محللات ترميز البايت بير (BPE) على مستوى البايت. يكتشف المؤلفون أن هذه الرموز غير المكتملة التي تحتوي على بايتات حرة تعتمد بشكل كبير على الرموز المجاورة، وتواجه مشاكل عند الاقتران برموز غير مألوفة. من خلال بناء "ثنائيات غير محتملة" - أي مجموعات خارج التوزيع للرموز غير المكتملة - يثبت المؤلفون أن هذا الضعف يؤدي إلى سلوك هلوسة كبير. تُظهر التجارب أنه عند استخدام طرق تحليل بديلة، ينخفض معدل الهلوسة للعبارات نفسها بشكل كبير (بنسبة 90% في Llama3.1).
المشكلة الأساسية التي تعالجها هذه الورقة هي نقاط الضعف في الرموز غير المكتملة في محللات BPE على مستوى البايت، والتي تؤدي إلى سلوك الهلوسة في نماذج اللغة الكبيرة.
يفترض المؤلفون أن الرموز غير المكتملة، بسبب خصائصها الهيكلية، تُظهر ضعفاً عند الاقتران برموز مجاورة غير مألوفة، حتى لو كانت هذه الرموز مدربة بشكل كافٍ.
الإدخال: عبارات نصية تحتوي على رموز غير مكتملة
الإخراج: استجابة النموذج لمهمة التكرار
الهدف: تحديد مجموعات الرموز التي تمنع النموذج من تكرار عبارة الإدخال بشكل صحيح
الخطوة 1: التحليل الهيكلي
- تحديد البايتات الأولية وبايتات الاستمرار في الرمز
- تحديد عدد البايتات التي يحتاجها أو يوفرها الرمز
الخطوة 2: مطابقة التوافقية
- البحث عن أزواج رموز متكاملة هيكلياً
- التأكد من أن المجموعة تشكل أحرفاً Unicode صحيحة
الخطوة 3: التحقق من الجدوى
- تنفيذ اختبار فك التشفير-إعادة التشفير
- التحقق من أن السلسلة المُنتجة تُحلل بالفعل كما هو متوقع
الاكتشافات المهمة: باستثناء Command-R، انخفض معدل الهلوسة بشكل كبير على جميع النماذج عند استخدام التحليل البديل، مما يثبت أن المشكلة تنبع فعلاً من الرموز غير المكتملة.
Land, S. & Bartolo, M. (2024). Fishing for magikarp: Automatically detecting under-trained tokens in large language models.
Bostrom, K. & Durrett, G. (2020). Byte pair encoding is suboptimal for language model pretraining.
Sennrich, R., Haddow, B., & Birch, A. (2016). Neural machine translation of rare words with subword units.
Limisiewicz, T. et al. (2024). MYTE: Morphology-driven byte encoding for better and fairer multilingual language modeling.
التقييم الشامل: هذه ورقة بحثية عالية الجودة تحدد ثغرة أمنية مهمة في محللات BPE على مستوى البايت. على الرغم من وجود بعض القيود، فإن أصالتها وصرامة التجارب والقيمة العملية تجعلها مساهمة مهمة في مجال أبحاث أمان المحللات اللغوية. يحمل هذا البحث أهمية كبيرة لتحسين الأمان والمتانة في نماذج اللغة الكبيرة.