Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers
Jang, Lee, Chung et al.
Tokenization is a crucial step that bridges human-readable text with model-readable discrete tokens. However, recent studies have revealed that tokenizers can be exploited to elicit unwanted model behaviors. In this work, we investigate incomplete tokens, i.e., undecodable tokens with stray bytes resulting from byte-level byte-pair encoding (BPE) tokenization. We hypothesize that such tokens are heavily reliant on their adjacent tokens and are fragile when paired with unfamiliar tokens. To demonstrate this vulnerability, we introduce improbable bigrams: out-of-distribution combinations of incomplete tokens designed to exploit their dependency. Our experiments show that improbable bigrams are significantly prone to hallucinatory behaviors. Surprisingly, the same phrases have drastically lower rates of hallucination (90% reduction in Llama3.1) when an alternative tokenization is used. We caution against the potential vulnerabilities introduced by byte-level BPE tokenizers, which may introduce blind spots to language models.
academic
Unwahrscheinliche Bigramme enthüllen Anfälligkeiten unvollständiger Token in Byte-Level-Tokenisierern
Diese Arbeit untersucht die Anfälligkeit unvollständiger Token in Byte-Pair-Encoding (BPE)-Tokenisierern auf Byte-Ebene. Die Autoren zeigen, dass diese unvollständigen Token, die freie Bytes enthalten, stark von benachbarten Token abhängen und bei Paarung mit unbekannten Token zu Problemen führen. Durch die Konstruktion von „unwahrscheinlichen Bigrammen" – außerverteilungsmäßigen Kombinationen unvollständiger Token – demonstrieren die Autoren, dass diese Anfälligkeit zu signifikantem Halluzinationsverhalten führt. Experimente zeigen, dass bei Verwendung alternativer Tokenisierungsmethoden die Halluzinationsrate für identische Phrasen erheblich sinkt (bei Llama3.1 um 90%).
Das Kernproblem dieser Arbeit ist die Anfälligkeit unvollständiger Token in Byte-Level-BPE-Tokenisierern, die zu Halluzinationsverhalten in großen Sprachmodellen führen.
Kritische Rolle der Tokenisierung: Tokenisierung ist der Schlüsselschritt, der menschenlesbaren Text mit diskreten Token verbindet, die Modelle verarbeiten können
Bestehende Sicherheitsrisiken: Jüngste Forschungen zeigen, dass Tokenisierer böswillig ausgenutzt werden können, um unangemessenes Modellverhalten hervorzurufen
Praktische Schäden: Tokenisierungsprobleme können zu Datenverlust, gegnerischen Angriffen, Modell-Fingerprinting und anderen Sicherheitsrisiken führen
Die Autoren vermuten, dass unvollständige Token aufgrund ihrer strukturellen Eigenschaften Anfälligkeit zeigen, wenn sie mit unbekannten benachbarten Token gepaart werden, selbst wenn diese Token ausreichend trainiert sind.
Identifikation der Anfälligkeit unvollständiger Token: Systematische Analyse der strukturellen Merkmale und potenziellen Probleme unvollständiger Token in Byte-Level-BPE-Tokenisierern
Konzept der „unwahrscheinlichen Bigramme": Entwurf einer neuen Angriffsmethode zur Offenlegung der Anfälligkeit unvollständiger Token
Modellübergreifende Validierung: Verifizierung der universellen Existenz dieser Anfälligkeit in 5 führenden großen Sprachmodellen
Bereitstellung von Abschwächungsstrategien: Beweis der Lösbarkeit des Problems durch alternative Tokenisierungsmethoden und Vorschlag von Präventionsmaßnahmen
Eingabe: Textphrasen mit unvollständigen Token
Ausgabe: Modellreaktionen auf wiederholte Aufgaben
Ziel: Identifikation von Token-Kombinationen, die das Modell daran hindern, Eingabephasen korrekt zu wiederholen
Schritt 1: Strukturanalyse
- Identifikation von Start- und Fortsetzungsbytes im Token
- Bestimmung der erforderlichen oder bereitgestellten Bytes
Schritt 2: Kompatibilitätsprüfung
- Suche nach strukturell komplementären Token-Paaren
- Sicherstellung, dass die Kombination gültige Unicode-Zeichen bildet
Schritt 3: Machbarkeitsprüfung
- Durchführung von Dekodierungs-Kodierungs-Tests
- Verifizierung, dass die generierten Zeichenketten wie erwartet tokenisiert werden
Wichtige Funde: Mit Ausnahme von Command-R zeigen alle Modelle bei Verwendung alternativer Tokenisierung signifikant reduzierte Halluzinationsraten, was beweist, dass das Problem tatsächlich von unvollständigen Token herrührt.
Komprimierungseffektivität in Frage gestellt: Schmidt et al. (2024) stellen die Annahme in Frage, dass BPE-Effektivität von Komprimierung herrührt
Probleme mit gieriger Komprimierung: Bostrom und Durrett (2020) weisen darauf hin, dass gierige Komprimierung Häufigkeit vor linguistischer Bedeutung priorisiert
Morphologische Verbesserungen: Limisiewicz et al. (2024) und Bauwens et al. (2024) schlagen morphologisch gesteuerte BPE-Verbesserungen vor
Unvollständige Token haben systematische Anfälligkeiten: Selbst wenn ausreichend trainiert, können unvollständige Token in bestimmten Kombinationen zu Halluzinationen führen
Problem stammt von Tokenisierung, nicht Training: Alternative Tokenisierung verbessert das Problem erheblich und beweist, dass die Ursache in der Token-Struktur liegt
Weit verbreitete Auswirkungen: Das Problem existiert in mehreren führenden Modellen
Land, S. & Bartolo, M. (2024). Fishing for magikarp: Automatically detecting under-trained tokens in large language models.
Bostrom, K. & Durrett, G. (2020). Byte pair encoding is suboptimal for language model pretraining.
Sennrich, R., Haddow, B., & Birch, A. (2016). Neural machine translation of rare words with subword units.
Limisiewicz, T. et al. (2024). MYTE: Morphology-driven byte encoding for better and fairer multilingual language modeling.
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine wichtige Sicherheitslücke in Byte-Level-BPE-Tokenisierern identifiziert. Obwohl es einige Einschränkungen gibt, machen seine Originalität, die Strenge der Experimente und sein praktischer Wert es zu einem wichtigen Beitrag im Bereich der Tokenisierer-Sicherheitsforschung. Diese Forschung ist von großer Bedeutung für die Verbesserung der Sicherheit und Robustheit großer Sprachmodelle.