2025-11-12T07:34:10.386378

Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers

Jang, Lee, Chung et al.
Tokenization is a crucial step that bridges human-readable text with model-readable discrete tokens. However, recent studies have revealed that tokenizers can be exploited to elicit unwanted model behaviors. In this work, we investigate incomplete tokens, i.e., undecodable tokens with stray bytes resulting from byte-level byte-pair encoding (BPE) tokenization. We hypothesize that such tokens are heavily reliant on their adjacent tokens and are fragile when paired with unfamiliar tokens. To demonstrate this vulnerability, we introduce improbable bigrams: out-of-distribution combinations of incomplete tokens designed to exploit their dependency. Our experiments show that improbable bigrams are significantly prone to hallucinatory behaviors. Surprisingly, the same phrases have drastically lower rates of hallucination (90% reduction in Llama3.1) when an alternative tokenization is used. We caution against the potential vulnerabilities introduced by byte-level BPE tokenizers, which may introduce blind spots to language models.
academic

अधूरे टोकन की कमजोरियों को उजागर करने वाले असंभावित बिग्राम्स बाइट-स्तरीय टोकनाइजर में

बुनियादी जानकारी

  • पेपर ID: 2410.23684
  • शीर्षक: अधूरे टोकन की कमजोरियों को उजागर करने वाले असंभावित बिग्राम्स बाइट-स्तरीय टोकनाइजर में
  • लेखक: यूजीन जैंग (नॉर्थईस्टर्न विश्वविद्यालय), किमिन ली (KAIST), जिन-वू चुंग (S2W Inc.), कीउंटे पार्क (S2W Inc.), सीउंगवॉन शिन (KAIST)
  • वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
  • प्रकाशन समय: अक्टूबर 2024 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2410.23684

सारांश

यह पेपर बाइट-स्तरीय बाइट पेयर एन्कोडिंग (BPE) टोकनाइजर में अधूरे टोकन की कमजोरियों का अध्ययन करता है। लेखकों ने पाया कि ये अधूरे टोकन, जिनमें अलग-थलग बाइट्स होते हैं, आसन्न टोकन पर गंभीर रूप से निर्भर होते हैं और अपरिचित टोकन के साथ जोड़े जाने पर समस्याएं उत्पन्न करते हैं। "असंभावित बिग्राम्स" (अधूरे टोकन के वितरण-बाहर संयोजन) का निर्माण करके, लेखकों ने प्रदर्शित किया कि यह कमजोरी महत्वपूर्ण भ्रम व्यवहार की ओर ले जाती है। प्रयोग दिखाते हैं कि वैकल्पिक टोकनाइजेशन विधियों का उपयोग करते समय, समान वाक्यांशों की भ्रम दर में नाटकीय रूप से कमी आती है (Llama3.1 में 90% तक)।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

यह पेपर बाइट-स्तरीय BPE टोकनाइजर में अधूरे टोकन की कमजोरी को संबोधित करता है, जो बड़े भाषा मॉडल में भ्रम व्यवहार का कारण बनते हैं।

समस्या की महत्ता

  1. टोकनाइजेशन की महत्वपूर्ण भूमिका: टोकनाइजेशन मानव-पठनीय पाठ और मॉडल-प्रक्रिया योग्य असतत टोकन को जोड़ने वाली महत्वपूर्ण कड़ी है
  2. मौजूदा सुरक्षा जोखिम: हाल के अनुसंधान से पता चलता है कि टोकनाइजर को मॉडल के अनुचित व्यवहार को प्रेरित करने के लिए दुर्भावनापूर्ण रूप से उपयोग किया जा सकता है
  3. व्यावहारिक नुकसान: टोकनाइजेशन समस्याएं डेटा अखंडता हानि, प्रतिकूल हमले, मॉडल फिंगरप्रिंटिंग आदि सुरक्षा जोखिम पैदा कर सकती हैं

मौजूदा विधियों की सीमाएं

  • मौजूदा अनुसंधान मुख्य रूप से अल्प-प्रशिक्षित "खराबी टोकन" (glitch tokens) पर केंद्रित है
  • संरचनात्मक टोकनाइजेशन समस्याओं का व्यवस्थित विश्लेषण अभाव है
  • बाइट-स्तरीय BPE की वर्ण सीमा-अज्ञेयता संरचनात्मक कमजोर टोकन उत्पन्न कर सकती है

अनुसंधान प्रेरणा

लेखकों का अनुमान है कि अधूरे टोकन अपनी संरचनात्मक विशेषताओं के कारण अपरिचित आसन्न टोकन के साथ जोड़े जाने पर कमजोरी प्रदर्शित करते हैं, भले ही ये टोकन स्वयं पर्याप्त रूप से प्रशिक्षित हों।

मूल योगदान

  1. अधूरे टोकन की कमजोरी की पहचान: बाइट-स्तरीय BPE टोकनाइजर में अधूरे टोकन की संरचनात्मक विशेषताओं और संभावित समस्याओं का व्यवस्थित विश्लेषण
  2. "असंभावित बिग्राम्स" अवधारणा का प्रस्ताव: अधूरे टोकन की कमजोरी को उजागर करने के लिए एक नई हमले की विधि का डिजाइन
  3. क्रॉस-मॉडल सत्यापन: 5 मुख्यधारा के बड़े भाषा मॉडल पर इस कमजोरी की व्यापक उपस्थिति का सत्यापन
  4. शमन रणनीतियां प्रदान करना: वैकल्पिक टोकनाइजेशन विधियों के माध्यम से समस्या की समाधान क्षमता का प्रदर्शन और निवारक उपायों का प्रस्ताव

विधि विवरण

कार्य परिभाषा

इनपुट: अधूरे टोकन युक्त पाठ वाक्यांश आउटपुट: पुनरावृत्ति कार्य पर मॉडल की प्रतिक्रिया उद्देश्य: टोकन संयोजनों की पहचान करना जो मॉडल को इनपुट वाक्यांश को सही ढंग से दोहराने में विफल करते हैं

अधूरे टोकन विश्लेषण विधि

1. संरचनात्मक विश्लेषण

  • UTF-8 एन्कोडिंग विश्लेषण: UTF-8 बहु-बाइट वर्णों की प्रारंभिक बाइट और निरंतरता बाइट संरचना पर आधारित
  • उपसर्ग/प्रत्यय वर्गीकरण:
    • उपसर्ग टोकन: अलग-थलग बाइट के साथ समाप्त होता है, अतिरिक्त बाइट की आवश्यकता होती है
    • प्रत्यय टोकन: अलग-थलग बाइट के साथ शुरू होता है, वर्ण को पूरा करने के लिए आवश्यक बाइट प्रदान करता है

2. बिग्राम निर्माण प्रवाह

चरण 1: संरचनात्मक विश्लेषण
- टोकन में प्रारंभिक बाइट और निरंतरता बाइट की पहचान करें
- टोकन द्वारा आवश्यक या प्रदान की गई बाइट संख्या निर्धारित करें

चरण 2: मिलान संगतता
- संरचनात्मक रूप से पूरक टोकन जोड़ी खोजें
- सुनिश्चित करें कि संयोजन वैध यूनिकोड वर्ण बनाता है

चरण 3: व्यवहार्यता सत्यापन
- डिकोड-एन्कोड परीक्षण निष्पादित करें
- सत्यापित करें कि उत्पन्न स्ट्रिंग वास्तव में अपेक्षित रूप से टोकनाइज होती है

असंभावित बिग्राम्स की विशेषताएं

  1. बहुभाषिकता: संयोजित वर्ण विभिन्न यूनिकोड लिपि प्रणालियों से आते हैं
  2. वितरण-बाहर विशेषता: यह क्रॉस-लिपि संयोजन प्रशिक्षण डेटा में अत्यंत असंभावित है
  3. संरचनात्मक निर्भरता: दोनों टोकन को वैध वर्ण बनाने के लिए सहयोग करना चाहिए

तकनीकी नवाचार बिंदु

  1. व्यवस्थित कमजोरी की खोज: पहली बार बाइट-स्तरीय BPE की संरचनात्मक कमजोरी की व्यवस्थित रूप से पहचान की गई
  2. सटीक हमले का निर्माण: UTF-8 एन्कोडिंग नियमों के आधार पर सटीक हमले के नमूने का निर्माण
  3. प्रशिक्षण गुणवत्ता स्वतंत्रता: प्रदर्शित किया कि यहां तक कि पर्याप्त रूप से प्रशिक्षित टोकन भी कमजोर हो सकते हैं

प्रयोगात्मक सेटअप

मॉडल चयन

बाइट-स्तरीय BPE का उपयोग करने वाले 5 निर्देश-सूक्ष्म-समायोजित मॉडलों का परीक्षण किया गया:

  • Meta-Llama-3.1-8B-Instruct (शब्दावली 128k, 1224 अधूरे टोकन)
  • EXAONE-3.0-7.8B-Instruct (शब्दावली 102k, 1222 अधूरे टोकन)
  • Qwen2.5-32B-Instruct (शब्दावली 151k, 1320 अधूरे टोकन)
  • Mistral-Nemo-Instruct-2407 (शब्दावली 131k, 1307 अधूरे टोकन)
  • C4AI-Command-R-v01 (शब्दावली 255k, 2956 अधूरे टोकन)

मूल्यांकन कार्य डिजाइन

लक्ष्य वाक्यांश को दोहराने की मॉडल की क्षमता का परीक्षण करने के लिए 4 प्रकार के प्रॉम्प्ट टेम्पलेट का उपयोग किया गया:

कार्य प्रकारप्रॉम्प्ट टेम्पलेट
सीधी पुनरावृत्ति"इस वाक्यांश को बिल्कुल दोहराएं: '{Phrase}'"
परिभाषा पूछताछ"'{Phrase}' का क्या अर्थ है?"
ज्ञान पूछताछ"आज मैंने '{Phrase}' के बारे में सुना। क्या आप जानते हैं इसका क्या अर्थ है?"
कोड परिदृश्यPython कोड में उपयोगकर्ता नाम सूची आउटपुट

टोकन चयन रणनीति

  1. प्रशिक्षण गुणवत्ता फ़िल्टरिंग: Land और Bartolo (2024) की एम्बेडिंग-प्रेरित विधि का उपयोग करके अल्प-प्रशिक्षित टोकन को बाहर करें
  2. पर्याप्त रूप से प्रशिक्षित टोकन पर ध्यान केंद्रित करें: केवल शब्दावली में प्रशिक्षण गुणवत्ता रैंकिंग के शीर्ष 50% के टोकन का उपयोग करें
  3. असंभावित बिग्राम्स का निर्माण: प्रत्येक मॉडल के लिए अधिकतम 100 असंभावित बिग्राम्स का निर्माण करें

आधारभूत तुलना

प्रत्येक असंभावित बिग्राम के लिए पूर्ण टोकन का नियंत्रण समूह बनाया गया:

  • प्रशिक्षण स्तर के समान लेकिन पूर्ण टोकन के विकल्प चुनें
  • नियंत्रण प्रयोग की निष्पक्षता सुनिश्चित करें

प्रयोगात्मक परिणाम

मुख्य परिणाम

मॉडलअसंभावित बिग्राम भ्रम दरआधारभूत बिग्राम भ्रम दर
Llama 3.148/100 (48%)0/100 (0%)
Exaone77/100 (77%)20/100 (20%)
Qwen2.533/100 (33%)0/100 (0%)
Mistral-Nemo52/71 (73%)1/71 (1%)
Command-R49/100 (49%)8/100 (8%)

मुख्य खोज: अधूरे टोकन से बने असंभावित बिग्राम्स सभी मॉडल पर काफी अधिक भ्रम दर प्रदर्शित करते हैं।

वैकल्पिक टोकनाइजेशन प्रयोग परिणाम

मॉडलमूल टोकनाइजेशन भ्रम दरवैकल्पिक टोकनाइजेशन भ्रम दरसुधार
Llama 3.10.480.05↓90%
Exaone0.770.50↓35%
Qwen2.50.330.12↓64%
Mistral-Nemo0.730.01↓98%
Command-R0.490.55कोई सुधार नहीं

महत्वपूर्ण खोज: Command-R को छोड़कर, सभी मॉडल वैकल्पिक टोकनाइजेशन का उपयोग करते समय भ्रम दर में काफी कमी दिखाते हैं, जो प्रमाणित करता है कि समस्या वास्तव में अधूरे टोकन से उत्पन्न होती है।

भाषा वितरण विश्लेषण

  • असंभावित बिग्राम्स भाषा जोड़ी संयोजनों की विविधता को कवर करते हैं
  • उच्च-संसाधन बहु-बाइट लिपि (चीनी, कोरियाई, रूसी) सबसे अधिक आवृत्ति दिखाते हैं
  • विभिन्न मॉडल के भाषा जोड़ी वितरण में महत्वपूर्ण अंतर (Exaone में 17 भाषा जोड़ी, Command-R में केवल 3)

संबंधित कार्य

टोकनाइजर कमजोरी अनुसंधान

  1. खराबी टोकन अनुसंधान: Land और Bartolo (2024) ने अल्प-प्रशिक्षित टोकन की पहचान के लिए एम्बेडिंग-प्रेरित विधि प्रस्तावित की
  2. प्रतिकूल टोकनाइजेशन: Wang आदि (2024) ने गलत टोकनाइजेशन को प्रेरित करने वाली प्रतिकूल समस्याएं बनाईं
  3. टोकनाइजर निष्पक्षता: Petrov आदि (2023) और Ovalle आदि (2024) ने टोकनाइजर द्वारा पेश की गई अन्याय और पूर्वाग्रह का अध्ययन किया

BPE टोकनाइजर अनुसंधान

  1. संपीड़न प्रभावकारिता पर सवाल: Schmidt आदि (2024) ने BPE प्रभावकारिता संपीड़न से उत्पन्न होने की धारणा को चुनौती दी
  2. लालची संपीड़न समस्या: Bostrom और Durrett (2020) ने इंगित किया कि लालची संपीड़न भाषाविज्ञान महत्व के बजाय आवृत्ति को प्राथमिकता देता है
  3. आकृति विज्ञान सुधार: Limisiewicz आदि (2024) और Bauwens आदि (2024) ने आकृति विज्ञान-संचालित BPE सुधार प्रस्तावित किए

इस पेपर के योगदान की विशिष्टता

मौजूदा अनुसंधान से अलग, यह पेपर:

  • संरचनात्मक समस्याओं पर ध्यान केंद्रित करता है, प्रशिक्षण गुणवत्ता पर नहीं
  • प्रदर्शित करता है कि पर्याप्त रूप से प्रशिक्षित टोकन भी कमजोर हो सकते हैं
  • व्यवस्थित हमले निर्माण विधि प्रदान करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. अधूरे टोकन में व्यवस्थित कमजोरी मौजूद है: यहां तक कि पर्याप्त रूप से प्रशिक्षित अधूरे टोकन भी विशिष्ट संयोजनों में भ्रम का कारण बनते हैं
  2. समस्या टोकनाइजेशन से उत्पन्न होती है, प्रशिक्षण से नहीं: वैकल्पिक टोकनाइजेशन समस्या में महत्वपूर्ण सुधार करता है, जो मूल कारण को टोकन संरचना में प्रमाणित करता है
  3. प्रभाव व्यापक है: यह समस्या कई मुख्यधारा के मॉडल में व्यापक रूप से मौजूद है

व्यावहारिक जोखिम

  1. कोड और डेटा प्रसंस्करण: चर नाम या निश्चित मान की अखंडता को नुकसान पहुंचा सकता है
  2. प्रतिकूल अपुनरावृत्तिशीलता: हमलावर LLM एजेंट के हस्तक्षेप से बचने के लिए अपुनरावृत्त वाक्यांशों का उपयोग कर सकते हैं
  3. मॉडल फिंगरप्रिंटिंग: गुमनाम LLM सेवा के पीछे की वास्तुकला की पहचान के लिए उपयोग किया जा सकता है

शमन रणनीतियां

  1. शब्दावली छंटाई: मॉडल प्रशिक्षण से पहले अधूरे टोकन को हटाएं
  2. BPE विलय पर बाधा: टोकनाइजर प्रशिक्षण के समय वर्ण सीमाओं का सम्मान करें
  3. वर्ण-स्तरीय टोकनाइजेशन: उन मॉडल के लिए जिन्हें पूर्ण यूनिकोड कवरेज की आवश्यकता नहीं है, वर्ण-स्तरीय टोकनाइजेशन एक विकल्प हो सकता है

सीमाएं

  1. मूल्यांकन सीमा: केवल वाक्यांश-स्तरीय भ्रम तक सीमित, तथ्यात्मक भ्रम का व्यवस्थित मूल्यांकन नहीं
  2. भाषा विशेषज्ञता: परीक्षण वाक्यांश कई भाषाओं को कवर करते हैं, लेखकों की विशेषज्ञता से परे
  3. मॉडल विशिष्टता: Command-R मॉडल के असामान्य परिणामों के लिए आगे के अनुसंधान की आवश्यकता है

भविष्य की दिशाएं

  1. अधिक सुरक्षित टोकनाइजर डिजाइन: अधूरे टोकन से बचने वाली टोकनाइजेशन विधियों का विकास
  2. मजबूती मूल्यांकन: टोकनाइजेशन कमजोरी मूल्यांकन के लिए अधिक व्यापक ढांचा स्थापित करें
  3. रक्षा तंत्र अनुसंधान: रनटाइम पहचान और शमन रणनीतियों की खोज करें

गहन मूल्यांकन

शक्तियां

  1. समस्या पहचान की मौलिकता: पहली बार बाइट-स्तरीय BPE की संरचनात्मक कमजोरी की व्यवस्थित रूप से पहचान की गई
  2. पद्धति की कठोरता: UTF-8 एन्कोडिंग नियमों पर आधारित सटीक हमले निर्माण, सुविचारित प्रयोग डिजाइन
  3. प्रयोग की व्यापकता: कई मॉडल और भाषाओं में सत्यापन, विश्वसनीय परिणाम
  4. व्यावहारिक मूल्य: विशिष्ट शमन रणनीतियां और सुरक्षा सिफारिशें प्रदान करता है

कमियां

  1. सैद्धांतिक विश्लेषण अपर्याप्त: अधूरे टोकन अधिक कमजोर क्यों हैं इसके गहरे सैद्धांतिक स्पष्टीकरण की कमी
  2. Command-R विसंगति अस्पष्ट: इस मॉडल के असामान्य परिणामों का विश्लेषण पर्याप्त गहन नहीं
  3. मूल्यांकन मेट्रिक्स सीमित: केवल पुनरावृत्ति कार्य का उपयोग करके मूल्यांकन, वास्तविक नुकसान को पूरी तरह प्रतिबिंबित नहीं कर सकता
  4. दीर्घकालिक प्रभाव अज्ञात: इस कमजोरी के मॉडल की अन्य क्षमताओं पर प्रभाव का मूल्यांकन नहीं किया गया

प्रभाव

  1. शैक्षणिक योगदान: टोकनाइजर सुरक्षा अनुसंधान के लिए नई दिशा खोलता है
  2. व्यावहारिक मूल्य: मॉडल विकासकर्ताओं को महत्वपूर्ण सुरक्षा विचार प्रदान करता है
  3. पुनरुत्पादनीयता: विधि विवरण स्पष्ट, प्रयोग पुनरुत्पादनीय
  4. नीति महत्व: भविष्य के टोकनाइजर डिजाइन मानकों को प्रभावित कर सकता है

लागू परिदृश्य

  1. मॉडल सुरक्षा मूल्यांकन: मौजूदा मॉडल की टोकनाइजेशन कमजोरी का मूल्यांकन करने के लिए
  2. टोकनाइजर डिजाइन: अधिक सुरक्षित टोकनाइजर विकास का मार्गदर्शन करता है
  3. प्रतिकूल परीक्षण: मॉडल मजबूती परीक्षण का हिस्सा
  4. सुरक्षा लेखा परीक्षा: LLM तैनाती से पहले सुरक्षा जांच के लिए

संदर्भ

मुख्य संदर्भ:

  • Land, S. & Bartolo, M. (2024). Fishing for magikarp: Automatically detecting under-trained tokens in large language models.
  • Bostrom, K. & Durrett, G. (2020). Byte pair encoding is suboptimal for language model pretraining.
  • Sennrich, R., Haddow, B., & Birch, A. (2016). Neural machine translation of rare words with subword units.
  • Limisiewicz, T. et al. (2024). MYTE: Morphology-driven byte encoding for better and fairer multilingual language modeling.

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला शोध पत्र है जो बाइट-स्तरीय BPE टोकनाइजर की महत्वपूर्ण सुरक्षा कमजोरी की पहचान करता है। हालांकि कुछ सीमाएं हैं, लेकिन इसकी मौलिकता, प्रयोग की कठोरता और व्यावहारिक मूल्य इसे टोकनाइजर सुरक्षा अनुसंधान क्षेत्र में एक महत्वपूर्ण योगदान बनाते हैं। यह अनुसंधान बड़े भाषा मॉडल की सुरक्षा और मजबूती में सुधार के लिए महत्वपूर्ण है।