2025-11-12T07:34:10.386378

Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers

Jang, Lee, Chung et al.

Tokenization is a crucial step that bridges human-readable text with model-readable discrete tokens. However, recent studies have revealed that tokenizers can be exploited to elicit unwanted model behaviors. In this work, we investigate incomplete tokens, i.e., undecodable tokens with stray bytes resulting from byte-level byte-pair encoding (BPE) tokenization. We hypothesize that such tokens are heavily reliant on their adjacent tokens and are fragile when paired with unfamiliar tokens. To demonstrate this vulnerability, we introduce improbable bigrams: out-of-distribution combinations of incomplete tokens designed to exploit their dependency. Our experiments show that improbable bigrams are significantly prone to hallucinatory behaviors. Surprisingly, the same phrases have drastically lower rates of hallucination (90% reduction in Llama3.1) when an alternative tokenization is used. We caution against the potential vulnerabilities introduced by byte-level BPE tokenizers, which may introduce blind spots to language models.

academic

الثنائيات غير المحتملة تكشف نقاط الضعف في الرموز غير المكتملة في المُحللات اللغوية على مستوى البايت

المعلومات الأساسية

معرّف الورقة: 2410.23684
العنوان: الثنائيات غير المحتملة تكشف نقاط الضعف في الرموز غير المكتملة في المُحللات اللغوية على مستوى البايت
المؤلفون: Eugene Jang (جامعة Northeastern)، Kimin Lee (KAIST)، Jin-Woo Chung (S2W Inc.)، Keuntae Park (S2W Inc.)، Seungwon Shin (KAIST)
التصنيف: cs.CL (اللسانيات الحاسوبية)
تاريخ النشر: أكتوبر 2024 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2410.23684

الملخص

تبحث هذه الورقة في مشكلة نقاط الضعف في الرموز غير المكتملة في محللات ترميز البايت بير (BPE) على مستوى البايت. يكتشف المؤلفون أن هذه الرموز غير المكتملة التي تحتوي على بايتات حرة تعتمد بشكل كبير على الرموز المجاورة، وتواجه مشاكل عند الاقتران برموز غير مألوفة. من خلال بناء "ثنائيات غير محتملة" - أي مجموعات خارج التوزيع للرموز غير المكتملة - يثبت المؤلفون أن هذا الضعف يؤدي إلى سلوك هلوسة كبير. تُظهر التجارب أنه عند استخدام طرق تحليل بديلة، ينخفض معدل الهلوسة للعبارات نفسها بشكل كبير (بنسبة 90% في Llama3.1).

السياق البحثي والدافع

المشكلة الأساسية

المشكلة الأساسية التي تعالجها هذه الورقة هي نقاط الضعف في الرموز غير المكتملة في محللات BPE على مستوى البايت، والتي تؤدي إلى سلوك الهلوسة في نماذج اللغة الكبيرة.

أهمية المشكلة

الدور الحاسم للتحليل: يعتبر التحليل اللغوي خطوة حاسمة تربط النصوص المقروءة للبشر برموز منفصلة يمكن للنموذج معالجتها
المخاطر الأمنية الموجودة: تُظهر الأبحاث الحديثة أن المحللات اللغوية يمكن استغلالها بشكل خبيث لتحريض السلوك غير المناسب للنموذج
الأضرار العملية: قد تؤدي مشاكل التحليل إلى فقدان سلامة البيانات والهجمات الخصومية وتحديد بصمة النموذج وغيرها من المخاطر الأمنية

حدود الطرق الموجودة

يركز البحث الموجود بشكل أساسي على الرموز "المعيبة" غير المدربة بشكل كافٍ
يفتقر إلى التحليل المنهجي لمشاكل التحليل الهيكلية
قد تنتج عن طبيعة عدم الاهتمام بحدود الأحرف في BPE على مستوى البايت رموز ضعيفة هيكلية

دافع البحث

يفترض المؤلفون أن الرموز غير المكتملة، بسبب خصائصها الهيكلية، تُظهر ضعفاً عند الاقتران برموز مجاورة غير مألوفة، حتى لو كانت هذه الرموز مدربة بشكل كافٍ.

المساهمات الأساسية

تحديد نقاط الضعف في الرموز غير المكتملة: تحليل منهجي للخصائص الهيكلية والمشاكل المحتملة للرموز غير المكتملة في محللات BPE على مستوى البايت
اقتراح مفهوم "الثنائيات غير المحتملة": تصميم طريقة هجوم جديدة لكشف نقاط الضعف في الرموز غير المكتملة
التحقق عبر النماذج: التحقق من الانتشار الواسع لهذا الضعف على 5 نماذج لغة كبيرة رائدة
توفير استراتيجيات التخفيف: إثبات قابلية حل المشكلة من خلال طرق تحليل بديلة واقتراح تدابير وقائية

شرح الطريقة

تعريف المهمة

الإدخال: عبارات نصية تحتوي على رموز غير مكتملة الإخراج: استجابة النموذج لمهمة التكرار الهدف: تحديد مجموعات الرموز التي تمنع النموذج من تكرار عبارة الإدخال بشكل صحيح

طريقة تحليل الرموز غير المكتملة

1. التحليل الهيكلي

تحليل ترميز UTF-8: بناءً على بنية البايت الأولي وبايتات الاستمرار للأحرف متعددة البايتات في UTF-8
تصنيف البادئة/اللاحقة:
- رموز البادئة: تنتهي ببايتات حرة، تحتاج إلى بايتات إضافية لإكمال الحرف
- رموز اللاحقة: تبدأ ببايتات حرة، توفر البايتات المطلوبة لإكمال الحرف

2. سير عملية بناء الثنائية

الخطوة 1: التحليل الهيكلي
- تحديد البايتات الأولية وبايتات الاستمرار في الرمز
- تحديد عدد البايتات التي يحتاجها أو يوفرها الرمز

الخطوة 2: مطابقة التوافقية
- البحث عن أزواج رموز متكاملة هيكلياً
- التأكد من أن المجموعة تشكل أحرفاً Unicode صحيحة

الخطوة 3: التحقق من الجدوى
- تنفيذ اختبار فك التشفير-إعادة التشفير
- التحقق من أن السلسلة المُنتجة تُحلل بالفعل كما هو متوقع

خصائص الثنائيات غير المحتملة

التعددية اللغوية: الأحرف المدمجة تأتي من أنظمة كتابة Unicode مختلفة
الخصائص خارج التوزيع: هذه المجموعة عبر الكتابات غير محتملة جداً أن تظهر في بيانات التدريب
الاعتماد الهيكلي: يجب أن يعمل الرمزان معاً لتشكيل حرف صحيح

نقاط الابتكار التقني

اكتشاف الثغرات المنهجية: أول تحديد منهجي للضعف الهيكلي في BPE على مستوى البايت
بناء الهجوم الدقيق: بناء عينات هجوم دقيقة بناءً على قواعد ترميز UTF-8
استقلالية جودة التدريب: إثبات أن الرموز المدربة بشكل كافٍ قد تظل ضعيفة

إعداد التجارب

اختيار النموذج

تم اختبار 5 نماذج مدربة على التعليمات باستخدام BPE على مستوى البايت:

Meta-Llama-3.1-8B-Instruct (قاموس 128k، 1224 رمز غير مكتمل)
EXAONE-3.0-7.8B-Instruct (قاموس 102k، 1222 رمز غير مكتمل)
Qwen2.5-32B-Instruct (قاموس 151k، 1320 رمز غير مكتمل)
Mistral-Nemo-Instruct-2407 (قاموس 131k، 1307 رموز غير مكتملة)
C4AI-Command-R-v01 (قاموس 255k، 2956 رمز غير مكتمل)

تصميم مهام التقييم

استخدام 4 قوالب موجهة لاختبار قدرة النموذج على تكرار العبارات المستهدفة:

نوع المهمة	قالب الموجه
التكرار المباشر	"Repeat this phrase exactly: '{Phrase}'"
استفسار التعريف	"What does '{Phrase}' mean?"
استفسار المعرفة	"Today I heard about '{Phrase}'. Do you know what this means?"
سيناريو الكود	إخراج قائمة أسماء المستخدمين في كود Python

استراتيجية اختيار الرموز

تصفية جودة التدريب: استخدام طريقة الاستدلال على التضمين من Land و Bartolo (2024) لاستبعاد الرموز غير المدربة بشكل كافٍ
التركيز على الرموز المدربة بشكل كافٍ: استخدام فقط الرموز في أفضل 50% من تصنيف جودة التدريب في القاموس
بناء ثنائيات غير محتملة: بناء ما يصل إلى 100 ثنائية غير محتملة لكل نموذج

المقارنة الأساسية

بناء مجموعة تحكم من الثنائيات الكاملة لكل ثنائية غير محتملة:

اختيار بدائل مدربة بشكل مشابه لكن رموز كاملة
ضمان عدالة التجارب المقارنة

نتائج التجارب

النتائج الرئيسية

النموذج	معدل الهلوسة للثنائيات غير المحتملة	معدل الهلوسة للثنائيات الأساسية
Llama 3.1	48/100 (48%)	0/100 (0%)
Exaone	77/100 (77%)	20/100 (20%)
Qwen2.5	33/100 (33%)	0/100 (0%)
Mistral-Nemo	52/71 (73%)	1/71 (1%)
Command-R	49/100 (49%)	8/100 (8%)

الاكتشافات الرئيسية: الثنائيات غير المحتملة المكونة من رموز غير مكتملة تُظهر معدل هلوسة أعلى بكثير على جميع النماذج.

نتائج تجارب التحليل البديل

النموذج	معدل الهلوسة الأصلي	معدل الهلوسة البديل	درجة التحسن
Llama 3.1	0.48	0.05	↓90%
Exaone	0.77	0.50	↓35%
Qwen2.5	0.33	0.12	↓64%
Mistral-Nemo	0.73	0.01	↓98%
Command-R	0.49	0.55	بدون تحسن

الاكتشافات المهمة: باستثناء Command-R، انخفض معدل الهلوسة بشكل كبير على جميع النماذج عند استخدام التحليل البديل، مما يثبت أن المشكلة تنبع فعلاً من الرموز غير المكتملة.

تحليل التوزيع اللغوي

تغطي الثنائيات غير المحتملة مجموعات لغات متعددة
تظهر الكتابات متعددة البايتات عالية الموارد (الصينية والكورية والروسية) بأعلى تكرار
يختلف توزيع أزواج اللغات بشكل كبير بين النماذج (Exaone بها 17 زوج لغة، Command-R بها 3 فقط)

الأعمال ذات الصلة

أبحاث ضعف المحللات اللغوية

أبحاث الرموز المعيبة: اقترح Land و Bartolo (2024) طريقة استدلال على طبقة التضمين لتحديد الرموز غير المدربة بشكل كافٍ
التحليل الخصومي: أنشأ Wang وآخرون (2024) مشاكل خصومية لتحريض التحليل الخاطئ
عدالة التحليل: درس Petrov وآخرون (2023) و Ovalle وآخرون (2024) عدم المساواة والانحياز الذي يقدمه المحلل اللغوي

أبحاث محلل BPE

الطعن في تأثير الضغط: طعن Schmidt وآخرون (2024) في افتراض أن فعالية BPE تنبع من الضغط
مشاكل الضغط الجشع: أشار Bostrom و Durrett (2020) إلى أن الضغط الجشع يعطي الأولوية للتكرار بدلاً من الأهمية اللغوية
التحسينات المورفولوجية: اقترح Limisiewicz وآخرون (2024) و Bauwens وآخرون (2024) تحسينات BPE مدفوعة بالمورفولوجيا

الفرادة في مساهمة هذه الورقة

بخلاف الأبحاث الموجودة، تركز هذه الورقة على:

المشاكل الهيكلية بدلاً من مشاكل جودة التدريب
إثبات أن الرموز المدربة بشكل كافٍ قد تظل ضعيفة
توفير طريقة منهجية لبناء الهجوم

الخلاصات والمناقشة

الاستنتاجات الرئيسية

وجود ضعف منهجي في الرموز غير المكتملة: حتى لو كانت مدربة بشكل كافٍ، قد تؤدي الرموز غير المكتملة إلى الهلوسة في مجموعات محددة
المشكلة تنبع من التحليل وليس التدريب: يثبت التحليل البديل الكبير أن الجذر يكمن في بنية الرمز
التأثير واسع الانتشار: هذه المشكلة موجودة بشكل عام في عدة نماذج رائدة

المخاطر العملية

معالجة الكود والبيانات: قد تضر بسلامة أسماء المتغيرات أو القيم الثابتة
عدم القابلية للتكرار الخصومية: يمكن للمهاجمين استغلال العبارات غير القابلة للتكرار للهروب من تدخل وكلاء LLM
تحديد بصمة النموذج: يمكن استخدامه لتحديد البنية الأساسية لخدمات LLM المجهولة

استراتيجيات التخفيف

تقليص القاموس: إزالة الرموز غير المكتملة قبل تدريب النموذج
دمج BPE المقيد: احترام حدود الأحرف أثناء تدريب المحلل اللغوي
التحليل على مستوى الأحرف: بالنسبة للنماذج التي لا تحتاج إلى تغطية Unicode كاملة، يمكن اختيار التحليل على مستوى الأحرف

القيود

نطاق التقييم: مقتصر على هلوسة مستوى العبارة، لم يتم تقييم هلوسة الحقائق بشكل منهجي
الخبرة اللغوية: تغطي العبارات المختبرة لغات متعددة، تتجاوز نطاق خبرة المؤلفين
التخصص بالنموذج: تحتاج نتائج Command-R الشاذة إلى مزيد من البحث

الاتجاهات المستقبلية

تصميم محللات أكثر أماناً: تطوير طرق تحليل تتجنب الرموز غير المكتملة
تقييم الرفاهية: إنشاء إطار عمل شامل لتقييم ضعف التحليل
أبحاث آليات الدفاع: استكشاف استراتيجيات الكشف والتخفيف في وقت التشغيل

التقييم المتعمق

المزايا

الأصالة في تحديد المشكلة: أول تحديد منهجي للضعف الهيكلي في BPE على مستوى البايت
صرامة المنهجية: بناء هجوم دقيق بناءً على قواعد ترميز UTF-8، تصميم تجريبي شامل
شمولية التجارب: التحقق عبر نماذج متعددة ولغات، النتائج مقنعة
القيمة العملية: توفير استراتيجيات تخفيف محددة وتوصيات أمنية

أوجه القصور

نقص التحليل النظري: افتقار إلى شرح نظري عميق لسبب ضعف الرموز غير المكتملة
عدم شرح شذوذ Command-R: التحليل غير كافٍ لنتائج هذا النموذج الشاذة
قيود مقاييس التقييم: استخدام مهمة التكرار فقط قد لا يعكس الضرر الفعلي بالكامل
التأثيرات طويلة الأجل غير معروفة: لم يتم تقييم تأثير هذا الضعف على القدرات الأخرى للنموذج

التأثير

المساهمة الأكاديمية: فتح اتجاه جديد في أبحاث أمان المحللات اللغوية
القيمة العملية: توفير اعتبارات أمنية مهمة لمطوري النماذج
قابلية التكرار: وصف الطريقة واضح، التجارب قابلة للتكرار
الأهمية السياسية: قد تؤثر على معايير تصميم المحللات اللغوية المستقبلية

السيناريوهات المعمول بها

تقييم أمان النموذج: تقييم ضعف التحليل في النماذج الموجودة
تصميم المحلل اللغوي: توجيه تطوير محللات أكثر أماناً
الاختبار الخصومي: كجزء من اختبار متانة النموذج
التدقيق الأمني: استخدام في الفحوصات الأمنية قبل نشر LLM

المراجع

المراجع الرئيسية:

Land, S. & Bartolo, M. (2024). Fishing for magikarp: Automatically detecting under-trained tokens in large language models.
Bostrom, K. & Durrett, G. (2020). Byte pair encoding is suboptimal for language model pretraining.
Sennrich, R., Haddow, B., & Birch, A. (2016). Neural machine translation of rare words with subword units.
Limisiewicz, T. et al. (2024). MYTE: Morphology-driven byte encoding for better and fairer multilingual language modeling.

التقييم الشامل: هذه ورقة بحثية عالية الجودة تحدد ثغرة أمنية مهمة في محللات BPE على مستوى البايت. على الرغم من وجود بعض القيود، فإن أصالتها وصرامة التجارب والقيمة العملية تجعلها مساهمة مهمة في مجال أبحاث أمان المحللات اللغوية. يحمل هذا البحث أهمية كبيرة لتحسين الأمان والمتانة في نماذج اللغة الكبيرة.