Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers
Jang, Lee, Chung et al.
Tokenization is a crucial step that bridges human-readable text with model-readable discrete tokens. However, recent studies have revealed that tokenizers can be exploited to elicit unwanted model behaviors. In this work, we investigate incomplete tokens, i.e., undecodable tokens with stray bytes resulting from byte-level byte-pair encoding (BPE) tokenization. We hypothesize that such tokens are heavily reliant on their adjacent tokens and are fragile when paired with unfamiliar tokens. To demonstrate this vulnerability, we introduce improbable bigrams: out-of-distribution combinations of incomplete tokens designed to exploit their dependency. Our experiments show that improbable bigrams are significantly prone to hallucinatory behaviors. Surprisingly, the same phrases have drastically lower rates of hallucination (90% reduction in Llama3.1) when an alternative tokenization is used. We caution against the potential vulnerabilities introduced by byte-level BPE tokenizers, which may introduce blind spots to language models.
academic
अधूरे टोकन की कमजोरियों को उजागर करने वाले असंभावित बिग्राम्स बाइट-स्तरीय टोकनाइजर में
यह पेपर बाइट-स्तरीय बाइट पेयर एन्कोडिंग (BPE) टोकनाइजर में अधूरे टोकन की कमजोरियों का अध्ययन करता है। लेखकों ने पाया कि ये अधूरे टोकन, जिनमें अलग-थलग बाइट्स होते हैं, आसन्न टोकन पर गंभीर रूप से निर्भर होते हैं और अपरिचित टोकन के साथ जोड़े जाने पर समस्याएं उत्पन्न करते हैं। "असंभावित बिग्राम्स" (अधूरे टोकन के वितरण-बाहर संयोजन) का निर्माण करके, लेखकों ने प्रदर्शित किया कि यह कमजोरी महत्वपूर्ण भ्रम व्यवहार की ओर ले जाती है। प्रयोग दिखाते हैं कि वैकल्पिक टोकनाइजेशन विधियों का उपयोग करते समय, समान वाक्यांशों की भ्रम दर में नाटकीय रूप से कमी आती है (Llama3.1 में 90% तक)।
टोकनाइजेशन की महत्वपूर्ण भूमिका: टोकनाइजेशन मानव-पठनीय पाठ और मॉडल-प्रक्रिया योग्य असतत टोकन को जोड़ने वाली महत्वपूर्ण कड़ी है
मौजूदा सुरक्षा जोखिम: हाल के अनुसंधान से पता चलता है कि टोकनाइजर को मॉडल के अनुचित व्यवहार को प्रेरित करने के लिए दुर्भावनापूर्ण रूप से उपयोग किया जा सकता है
व्यावहारिक नुकसान: टोकनाइजेशन समस्याएं डेटा अखंडता हानि, प्रतिकूल हमले, मॉडल फिंगरप्रिंटिंग आदि सुरक्षा जोखिम पैदा कर सकती हैं
लेखकों का अनुमान है कि अधूरे टोकन अपनी संरचनात्मक विशेषताओं के कारण अपरिचित आसन्न टोकन के साथ जोड़े जाने पर कमजोरी प्रदर्शित करते हैं, भले ही ये टोकन स्वयं पर्याप्त रूप से प्रशिक्षित हों।
इनपुट: अधूरे टोकन युक्त पाठ वाक्यांश
आउटपुट: पुनरावृत्ति कार्य पर मॉडल की प्रतिक्रिया
उद्देश्य: टोकन संयोजनों की पहचान करना जो मॉडल को इनपुट वाक्यांश को सही ढंग से दोहराने में विफल करते हैं
चरण 1: संरचनात्मक विश्लेषण
- टोकन में प्रारंभिक बाइट और निरंतरता बाइट की पहचान करें
- टोकन द्वारा आवश्यक या प्रदान की गई बाइट संख्या निर्धारित करें
चरण 2: मिलान संगतता
- संरचनात्मक रूप से पूरक टोकन जोड़ी खोजें
- सुनिश्चित करें कि संयोजन वैध यूनिकोड वर्ण बनाता है
चरण 3: व्यवहार्यता सत्यापन
- डिकोड-एन्कोड परीक्षण निष्पादित करें
- सत्यापित करें कि उत्पन्न स्ट्रिंग वास्तव में अपेक्षित रूप से टोकनाइज होती है
महत्वपूर्ण खोज: Command-R को छोड़कर, सभी मॉडल वैकल्पिक टोकनाइजेशन का उपयोग करते समय भ्रम दर में काफी कमी दिखाते हैं, जो प्रमाणित करता है कि समस्या वास्तव में अधूरे टोकन से उत्पन्न होती है।
अधूरे टोकन में व्यवस्थित कमजोरी मौजूद है: यहां तक कि पर्याप्त रूप से प्रशिक्षित अधूरे टोकन भी विशिष्ट संयोजनों में भ्रम का कारण बनते हैं
समस्या टोकनाइजेशन से उत्पन्न होती है, प्रशिक्षण से नहीं: वैकल्पिक टोकनाइजेशन समस्या में महत्वपूर्ण सुधार करता है, जो मूल कारण को टोकन संरचना में प्रमाणित करता है
प्रभाव व्यापक है: यह समस्या कई मुख्यधारा के मॉडल में व्यापक रूप से मौजूद है
Land, S. & Bartolo, M. (2024). Fishing for magikarp: Automatically detecting under-trained tokens in large language models.
Bostrom, K. & Durrett, G. (2020). Byte pair encoding is suboptimal for language model pretraining.
Sennrich, R., Haddow, B., & Birch, A. (2016). Neural machine translation of rare words with subword units.
Limisiewicz, T. et al. (2024). MYTE: Morphology-driven byte encoding for better and fairer multilingual language modeling.
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला शोध पत्र है जो बाइट-स्तरीय BPE टोकनाइजर की महत्वपूर्ण सुरक्षा कमजोरी की पहचान करता है। हालांकि कुछ सीमाएं हैं, लेकिन इसकी मौलिकता, प्रयोग की कठोरता और व्यावहारिक मूल्य इसे टोकनाइजर सुरक्षा अनुसंधान क्षेत्र में एक महत्वपूर्ण योगदान बनाते हैं। यह अनुसंधान बड़े भाषा मॉडल की सुरक्षा और मजबूती में सुधार के लिए महत्वपूर्ण है।