2025-11-12T07:34:10.386378

Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers

Jang, Lee, Chung et al.

Tokenization is a crucial step that bridges human-readable text with model-readable discrete tokens. However, recent studies have revealed that tokenizers can be exploited to elicit unwanted model behaviors. In this work, we investigate incomplete tokens, i.e., undecodable tokens with stray bytes resulting from byte-level byte-pair encoding (BPE) tokenization. We hypothesize that such tokens are heavily reliant on their adjacent tokens and are fragile when paired with unfamiliar tokens. To demonstrate this vulnerability, we introduce improbable bigrams: out-of-distribution combinations of incomplete tokens designed to exploit their dependency. Our experiments show that improbable bigrams are significantly prone to hallucinatory behaviors. Surprisingly, the same phrases have drastically lower rates of hallucination (90% reduction in Llama3.1) when an alternative tokenization is used. We caution against the potential vulnerabilities introduced by byte-level BPE tokenizers, which may introduce blind spots to language models.

academic

Unwahrscheinliche Bigramme enthüllen Anfälligkeiten unvollständiger Token in Byte-Level-Tokenisierern

Grundinformationen

Paper-ID: 2410.23684
Titel: Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers
Autoren: Eugene Jang (Northeastern University), Kimin Lee (KAIST), Jin-Woo Chung (S2W Inc.), Keuntae Park (S2W Inc.), Seungwon Shin (KAIST)
Klassifizierung: cs.CL (Computerlinguistik)
Veröffentlichungsdatum: Oktober 2024 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2410.23684

Zusammenfassung

Diese Arbeit untersucht die Anfälligkeit unvollständiger Token in Byte-Pair-Encoding (BPE)-Tokenisierern auf Byte-Ebene. Die Autoren zeigen, dass diese unvollständigen Token, die freie Bytes enthalten, stark von benachbarten Token abhängen und bei Paarung mit unbekannten Token zu Problemen führen. Durch die Konstruktion von „unwahrscheinlichen Bigrammen" – außerverteilungsmäßigen Kombinationen unvollständiger Token – demonstrieren die Autoren, dass diese Anfälligkeit zu signifikantem Halluzinationsverhalten führt. Experimente zeigen, dass bei Verwendung alternativer Tokenisierungsmethoden die Halluzinationsrate für identische Phrasen erheblich sinkt (bei Llama3.1 um 90%).

Forschungshintergrund und Motivation

Kernproblem

Das Kernproblem dieser Arbeit ist die Anfälligkeit unvollständiger Token in Byte-Level-BPE-Tokenisierern, die zu Halluzinationsverhalten in großen Sprachmodellen führen.

Bedeutung des Problems

Kritische Rolle der Tokenisierung: Tokenisierung ist der Schlüsselschritt, der menschenlesbaren Text mit diskreten Token verbindet, die Modelle verarbeiten können
Bestehende Sicherheitsrisiken: Jüngste Forschungen zeigen, dass Tokenisierer böswillig ausgenutzt werden können, um unangemessenes Modellverhalten hervorzurufen
Praktische Schäden: Tokenisierungsprobleme können zu Datenverlust, gegnerischen Angriffen, Modell-Fingerprinting und anderen Sicherheitsrisiken führen

Einschränkungen bestehender Methoden

Bisherige Forschung konzentriert sich hauptsächlich auf untertrainierten „Glitch-Token"
Mangel an systematischer Analyse struktureller Tokenisierungsprobleme
Die Zeichengrenzen-Unabhängigkeit von Byte-Level-BPE könnte strukturelle anfällige Token erzeugen

Forschungsmotivation

Die Autoren vermuten, dass unvollständige Token aufgrund ihrer strukturellen Eigenschaften Anfälligkeit zeigen, wenn sie mit unbekannten benachbarten Token gepaart werden, selbst wenn diese Token ausreichend trainiert sind.

Kernbeiträge

Identifikation der Anfälligkeit unvollständiger Token: Systematische Analyse der strukturellen Merkmale und potenziellen Probleme unvollständiger Token in Byte-Level-BPE-Tokenisierern
Konzept der „unwahrscheinlichen Bigramme": Entwurf einer neuen Angriffsmethode zur Offenlegung der Anfälligkeit unvollständiger Token
Modellübergreifende Validierung: Verifizierung der universellen Existenz dieser Anfälligkeit in 5 führenden großen Sprachmodellen
Bereitstellung von Abschwächungsstrategien: Beweis der Lösbarkeit des Problems durch alternative Tokenisierungsmethoden und Vorschlag von Präventionsmaßnahmen

Methodische Details

Aufgabendefinition

Eingabe: Textphrasen mit unvollständigen Token Ausgabe: Modellreaktionen auf wiederholte Aufgaben Ziel: Identifikation von Token-Kombinationen, die das Modell daran hindern, Eingabephasen korrekt zu wiederholen

Analysemethode für unvollständige Token

1. Strukturanalyse

UTF-8-Kodierungsanalyse: Basierend auf der Struktur von Start- und Fortsetzungsbytes multibyte-Zeichen
Präfix-/Suffix-Klassifizierung:
- Präfix-Token: Endet mit freien Bytes, benötigt zusätzliche Bytes zur Zeichenvervollständigung
- Suffix-Token: Beginnt mit freien Bytes, stellt Bytes zur Zeichenvervollständigung bereit

2. Bigramm-Konstruktionsprozess

Schritt 1: Strukturanalyse
- Identifikation von Start- und Fortsetzungsbytes im Token
- Bestimmung der erforderlichen oder bereitgestellten Bytes

Schritt 2: Kompatibilitätsprüfung
- Suche nach strukturell komplementären Token-Paaren
- Sicherstellung, dass die Kombination gültige Unicode-Zeichen bildet

Schritt 3: Machbarkeitsprüfung
- Durchführung von Dekodierungs-Kodierungs-Tests
- Verifizierung, dass die generierten Zeichenketten wie erwartet tokenisiert werden

Charakteristiken unwahrscheinlicher Bigramme

Mehrsprachigkeit: Kombinierte Zeichen stammen aus verschiedenen Unicode-Schriftsystemen
Außerverteilungsmäßige Eigenschaften: Solche sprachübergreifenden Kombinationen sind in Trainingsdaten äußerst unwahrscheinlich
Strukturelle Abhängigkeit: Zwei Token müssen zusammenpassen, um gültige Zeichen zu bilden

Technische Innovationen

Systematische Schwachstellenerkennung: Erste systematische Identifikation struktureller Anfälligkeiten von Byte-Level-BPE
Präzise Angriffskonstruktion: Exakte Konstruktion von Angriffsmustern basierend auf UTF-8-Kodierungsregeln
Unabhängigkeit von Trainingsqualität: Beweis, dass selbst ausreichend trainierte Token anfällig sein können

Experimentelle Einrichtung

Modellauswahl

Test von 5 Instruction-Fine-Tuned-Modellen mit Byte-Level-BPE:

Meta-Llama-3.1-8B-Instruct (Vokabular 128k, 1224 unvollständige Token)
EXAONE-3.0-7.8B-Instruct (Vokabular 102k, 1222 unvollständige Token)
Qwen2.5-32B-Instruct (Vokabular 151k, 1320 unvollständige Token)
Mistral-Nemo-Instruct-2407 (Vokabular 131k, 1307 unvollständige Token)
C4AI-Command-R-v01 (Vokabular 255k, 2956 unvollständige Token)

Evaluierungsaufgabendesign

Verwendung von 4 Prompt-Vorlagen zum Testen der Fähigkeit des Modells, Zielphrasen zu wiederholen:

Aufgabentyp	Prompt-Vorlage
Direkte Wiederholung	"Repeat this phrase exactly: '{Phrase}'"
Definitionsabfrage	"What does '{Phrase}' mean?"
Wissensabfrage	"Today I heard about '{Phrase}'. Do you know what this means?"
Code-Szenario	Python-Code mit Benutzernamenlistenausgabe

Token-Auswahlstrategie

Trainingsqualitätsfilterung: Verwendung der Embedding-Heuristik-Methode von Land und Bartolo (2024) zur Ausschließung untertrainierter Token
Fokus auf ausreichend trainierte Token: Verwendung nur von Token mit den besten 50% Trainingsqualitätsrang im Vokabular
Konstruktion unwahrscheinlicher Bigramme: Konstruktion von maximal 100 unwahrscheinlichen Bigrammen pro Modell

Baseline-Vergleich

Konstruktion von Kontrollgruppen mit vollständigen Token für jedes unwahrscheinliche Bigramm:

Auswahl von Ersatzstoffen mit ähnlichem Trainingsgrad, aber vollständigen Token
Sicherstellung der Fairness des Kontrollexperiments

Experimentelle Ergebnisse

Hauptergebnisse

Modell	Halluzinationsrate unwahrscheinlicher Bigramme	Baseline-Halluzinationsrate
Llama 3.1	48/100 (48%)	0/100 (0%)
Exaone	77/100 (77%)	20/100 (20%)
Qwen2.5	33/100 (33%)	0/100 (0%)
Mistral-Nemo	52/71 (73%)	1/71 (1%)
Command-R	49/100 (49%)	8/100 (8%)

Schlüsselfunde: Unwahrscheinliche Bigramme aus unvollständigen Token zeigen in allen Modellen signifikant höhere Halluzinationsraten.

Ergebnisse alternativer Tokenisierungsexperimente

Modell	Halluzinationsrate Original-Tokenisierung	Halluzinationsrate Alternative Tokenisierung	Verbesserung
Llama 3.1	0.48	0.05	↓90%
Exaone	0.77	0.50	↓35%
Qwen2.5	0.33	0.12	↓64%
Mistral-Nemo	0.73	0.01	↓98%
Command-R	0.49	0.55	Keine Verbesserung

Wichtige Funde: Mit Ausnahme von Command-R zeigen alle Modelle bei Verwendung alternativer Tokenisierung signifikant reduzierte Halluzinationsraten, was beweist, dass das Problem tatsächlich von unvollständigen Token herrührt.

Sprachverteilungsanalyse

Unwahrscheinliche Bigramme umfassen mehrsprachige Paarungskombinationen
Hochressourcen-Multibyte-Schriftsysteme (Chinesisch, Koreanisch, Russisch) treten am häufigsten auf
Sprachpaarverteilung unterscheidet sich erheblich zwischen Modellen (Exaone hat 17 Sprachpaare, Command-R nur 3)

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Unvollständige Token haben systematische Anfälligkeiten: Selbst wenn ausreichend trainiert, können unvollständige Token in bestimmten Kombinationen zu Halluzinationen führen
Problem stammt von Tokenisierung, nicht Training: Alternative Tokenisierung verbessert das Problem erheblich und beweist, dass die Ursache in der Token-Struktur liegt
Weit verbreitete Auswirkungen: Das Problem existiert in mehreren führenden Modellen

Praktische Risiken

Code- und Datenverarbeitung: Kann die Integrität von Variablennamen oder festen Werten beeinträchtigen
Gegnerische Nicht-Wiederholbarkeit: Angreifer können nicht wiederholbare Phrasen nutzen, um LLM-Agent-Interventionen zu umgehen
Modell-Fingerprinting: Kann zur Identifikation der Architektur hinter anonymen LLM-Diensten verwendet werden

Abschwächungsstrategien

Vokabular-Beschneidung: Entfernung unvollständiger Token vor dem Modelltraining
Eingeschränkte BPE-Zusammenführung: Respektierung von Zeichengrenzen während des Tokenisierer-Trainings
Zeichenebenen-Tokenisierung: Für Modelle, die keine vollständige Unicode-Abdeckung benötigen, ist Zeichenebenen-Tokenisierung eine Option

Einschränkungen

Evaluierungsumfang: Begrenzt auf Phrasen-Halluzinationen, keine systematische Bewertung faktischer Halluzinationen
Sprachliche Fachkompetenz: Testphrasen umfassen mehrere Sprachen, die außerhalb der Fachkompetenz der Autoren liegen
Modellspezifität: Anomale Ergebnisse des Command-R-Modells erfordern weitere Untersuchung

Zukünftige Richtungen

Sicherere Tokenisierer-Designs: Entwicklung von Tokenisierungsmethoden, die unvollständige Token vermeiden
Robustheits-Bewertung: Etablierung eines umfassenderen Bewertungsrahmens für Tokenisierer-Anfälligkeiten
Abwehrmechanismus-Forschung: Erkundung von Laufzeit-Erkennungs- und Abschwächungsstrategien

Tiefgreifende Bewertung

Stärken

Originalität der Problemberkennung: Erste systematische Identifikation struktureller Anfälligkeiten von Byte-Level-BPE
Methodologische Strenge: Präzise Angriffskonstruktion basierend auf UTF-8-Kodierungsregeln, gut durchdachtes Experimentdesign
Experimentelle Umfassendheit: Validierung über mehrere Modelle und Sprachen mit überzeugenden Ergebnissen
Praktischer Wert: Bereitstellung konkreter Abschwächungsstrategien und Sicherheitsempfehlungen

Mängel

Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Erklärung, warum unvollständige Token anfälliger sind
Unerklärte Command-R-Anomalie: Unzureichende Analyse der anomalen Ergebnisse dieses Modells
Begrenzte Evaluierungsmetriken: Verwendung nur von Wiederholungsaufgaben, möglicherweise nicht vollständig repräsentativ für tatsächliche Schäden
Unbekannte Langzeitauswirkungen: Keine Bewertung der Auswirkungen dieser Anfälligkeit auf andere Modellkapazitäten

Auswirkungen

Akademischer Beitrag: Eröffnet neue Forschungsrichtung in der Tokenisierer-Sicherheit
Praktischer Wert: Bietet Modellentwicklern wichtige Sicherheitsüberlegungen
Reproduzierbarkeit: Klare Methodenbeschreibung, Experimente sind reproduzierbar
Politische Bedeutung: Könnte zukünftige Tokenisierer-Designstandards beeinflussen

Anwendungsszenarien

Modellsicherheitsbewertung: Bewertung der Tokenisierer-Anfälligkeit bestehender Modelle
Tokenisierer-Design: Anleitung für sicherere Tokenisierer-Entwicklung
Gegnerische Tests: Teil der Modell-Robustheits-Tests
Sicherheitsaudit: Sicherheitsprüfung vor LLM-Bereitstellung

Literaturverzeichnis

Schlüsselreferenzen:

Land, S. & Bartolo, M. (2024). Fishing for magikarp: Automatically detecting under-trained tokens in large language models.
Bostrom, K. & Durrett, G. (2020). Byte pair encoding is suboptimal for language model pretraining.
Sennrich, R., Haddow, B., & Birch, A. (2016). Neural machine translation of rare words with subword units.
Limisiewicz, T. et al. (2024). MYTE: Morphology-driven byte encoding for better and fairer multilingual language modeling.

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine wichtige Sicherheitslücke in Byte-Level-BPE-Tokenisierern identifiziert. Obwohl es einige Einschränkungen gibt, machen seine Originalität, die Strenge der Experimente und sein praktischer Wert es zu einem wichtigen Beitrag im Bereich der Tokenisierer-Sicherheitsforschung. Diese Forschung ist von großer Bedeutung für die Verbesserung der Sicherheit und Robustheit großer Sprachmodelle.