2025-11-12T07:34:10.386378

Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers

Jang, Lee, Chung et al.

Tokenization is a crucial step that bridges human-readable text with model-readable discrete tokens. However, recent studies have revealed that tokenizers can be exploited to elicit unwanted model behaviors. In this work, we investigate incomplete tokens, i.e., undecodable tokens with stray bytes resulting from byte-level byte-pair encoding (BPE) tokenization. We hypothesize that such tokens are heavily reliant on their adjacent tokens and are fragile when paired with unfamiliar tokens. To demonstrate this vulnerability, we introduce improbable bigrams: out-of-distribution combinations of incomplete tokens designed to exploit their dependency. Our experiments show that improbable bigrams are significantly prone to hallucinatory behaviors. Surprisingly, the same phrases have drastically lower rates of hallucination (90% reduction in Llama3.1) when an alternative tokenization is used. We caution against the potential vulnerabilities introduced by byte-level BPE tokenizers, which may introduce blind spots to language models.

academic

Les Bigrammes Improbables Exposent les Vulnérabilités des Tokens Incomplets dans les Tokeniseurs au Niveau des Octets

Informations Fondamentales

ID de l'article : 2410.23684
Titre : Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers
Auteurs : Eugene Jang (Northeastern University), Kimin Lee (KAIST), Jin-Woo Chung (S2W Inc.), Keuntae Park (S2W Inc.), Seungwon Shin (KAIST)
Classification : cs.CL (Linguistique Computationnelle)
Date de publication : Octobre 2024 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2410.23684

Résumé

Cet article étudie les vulnérabilités des tokens incomplets dans les tokeniseurs BPE (Byte Pair Encoding) au niveau des octets. Les auteurs découvrent que ces tokens incomplets, contenant des octets isolés, dépendent fortement des tokens adjacents et présentent des problèmes lorsqu'ils sont appairés avec des tokens non familiers. En construisant des « bigrammes improbables » — c'est-à-dire des combinaisons hors distribution de tokens incomplets — les auteurs démontrent que cette vulnérabilité entraîne des comportements d'hallucination significatifs. Les expériences montrent que l'utilisation de méthodes de tokenisation alternatives réduit considérablement le taux d'hallucination pour les mêmes phrases (réduction de 90 % dans Llama3.1).

Contexte et Motivation de la Recherche

Problème Central

L'article aborde la vulnérabilité des tokens incomplets dans les tokeniseurs BPE au niveau des octets, qui entraînent des comportements d'hallucination dans les grands modèles de langage.

Importance du Problème

Rôle critique de la tokenisation : La tokenisation est une étape clé reliant le texte lisible par l'homme aux tokens discrets traitables par le modèle
Risques de sécurité existants : Des recherches récentes montrent que les tokeniseurs peuvent être exploités malveillamment pour induire des comportements inappropriés du modèle
Dommages pratiques : Les problèmes de tokenisation peuvent entraîner une perte d'intégrité des données, des attaques adversariales, l'identification des modèles et d'autres risques de sécurité

Limitations des Approches Existantes

Les recherches existantes se concentrent principalement sur les « tokens défectueux » (glitch tokens) sous-entraînés
Absence d'analyse systématique des problèmes de tokenisation structurels
La nature indépendante des limites de caractères du BPE au niveau des octets peut produire des tokens structurellement fragiles

Motivation de la Recherche

Les auteurs supposent que les tokens incomplets, en raison de leurs caractéristiques structurelles, présentent une fragilité lorsqu'ils sont appairés avec des tokens adjacents non familiers, même si ces tokens sont eux-mêmes bien entraînés.

Contributions Principales

Identification de la vulnérabilité des tokens incomplets : Analyse systématique des caractéristiques structurelles et des problèmes potentiels des tokens incomplets dans les tokeniseurs BPE au niveau des octets
Proposition du concept de « bigrammes improbables » : Conception d'une nouvelle méthode d'attaque pour exposer la vulnérabilité des tokens incomplets
Vérification inter-modèles : Validation de l'omniprésence de cette vulnérabilité sur 5 grands modèles de langage populaires
Fourniture de stratégies d'atténuation : Démonstration de la résolvabilité du problème par des méthodes de tokenisation alternatives et proposition de mesures préventives

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Phrases textuelles contenant des tokens incomplets Sortie : Réponses du modèle aux tâches répétées Objectif : Identifier les combinaisons de tokens qui empêchent le modèle de répéter correctement les phrases d'entrée

Méthode d'Analyse des Tokens Incomplets

1. Analyse Structurelle

Analyse de l'encodage UTF-8 : Basée sur la structure des octets de début et de continuation des caractères multi-octets UTF-8
Classification Préfixe/Suffixe :
- Token préfixe : se termine par un octet isolé, nécessite des octets supplémentaires pour compléter le caractère
- Token suffixe : commence par un octet isolé, fournit les octets nécessaires pour compléter le caractère

2. Processus de Construction des Bigrammes

Étape 1 : Analyse Structurelle
- Identifier les octets de début et de continuation dans le token
- Déterminer le nombre d'octets requis ou fournis par le token

Étape 2 : Correspondance de Compatibilité
- Rechercher des paires de tokens structurellement complémentaires
- Assurer que la combinaison forme un caractère Unicode valide

Étape 3 : Vérification de Faisabilité
- Exécuter un test de décodage-encodage
- Vérifier que la chaîne générée est effectivement tokenisée comme prévu

Caractéristiques des Bigrammes Improbables

Multilingualité : Les caractères de la combinaison proviennent de différents systèmes de scripts Unicode
Caractère hors distribution : Ces combinaisons inter-scripts sont extrêmement improbables dans les données d'entraînement
Dépendance structurelle : Les deux tokens doivent être appairés pour former un caractère valide

Points d'Innovation Technique

Découverte systématique de vulnérabilités : Première identification systématique de la fragilité structurelle du BPE au niveau des octets
Construction d'attaque précise : Construction précise des échantillons d'attaque basée sur les règles d'encodage UTF-8
Indépendance de la qualité d'entraînement : Démonstration que même les tokens bien entraînés peuvent présenter une fragilité

Configuration Expérimentale

Sélection des Modèles

Test de 5 modèles à instructions affinées utilisant le BPE au niveau des octets :

Meta-Llama-3.1-8B-Instruct (vocabulaire 128k, 1224 tokens incomplets)
EXAONE-3.0-7.8B-Instruct (vocabulaire 102k, 1222 tokens incomplets)
Qwen2.5-32B-Instruct (vocabulaire 151k, 1320 tokens incomplets)
Mistral-Nemo-Instruct-2407 (vocabulaire 131k, 1307 tokens incomplets)
C4AI-Command-R-v01 (vocabulaire 255k, 2956 tokens incomplets)

Conception des Tâches d'Évaluation

Utilisation de 4 modèles d'invite pour tester la capacité du modèle à répéter les phrases cibles :

Type de Tâche	Modèle d'Invite
Répétition directe	"Repeat this phrase exactly: '{Phrase}'"
Demande de définition	"What does '{Phrase}' mean?"
Demande de connaissance	"Today I heard about '{Phrase}'. Do you know what this means?"
Scénario de code	Sortie de liste de noms d'utilisateurs en code Python

Stratégie de Sélection des Tokens

Filtrage de la qualité d'entraînement : Utilisation de la méthode heuristique d'intégration de Land et Bartolo (2024) pour exclure les tokens sous-entraînés
Concentration sur les tokens bien entraînés : Utilisation uniquement des tokens du vocabulaire classés dans les 50 % supérieurs en qualité d'entraînement
Construction de bigrammes improbables : Construction d'au maximum 100 bigrammes improbables par modèle

Comparaison de Base

Construction de groupes de contrôle avec des tokens complets pour chaque bigramme improbable :

Sélection de substituts bien entraînés mais tokens complets
Assurance de l'équité des expériences de contrôle

Résultats Expérimentaux

Résultats Principaux

Modèle	Taux d'Hallucination des Bigrammes Improbables	Taux d'Hallucination des Bigrammes de Base
Llama 3.1	48/100 (48%)	0/100 (0%)
Exaone	77/100 (77%)	20/100 (20%)
Qwen2.5	33/100 (33%)	0/100 (0%)
Mistral-Nemo	52/71 (73%)	1/71 (1%)
Command-R	49/100 (49%)	8/100 (8%)

Découvertes clés : Les bigrammes improbables composés de tokens incomplets présentent des taux d'hallucination significativement plus élevés sur tous les modèles.

Résultats des Expériences de Tokenisation Alternative

Modèle	Taux d'Hallucination de Tokenisation Originale	Taux d'Hallucination de Tokenisation Alternative	Degré d'Amélioration
Llama 3.1	0.48	0.05	↓90%
Exaone	0.77	0.50	↓35%
Qwen2.5	0.33	0.12	↓64%
Mistral-Nemo	0.73	0.01	↓98%
Command-R	0.49	0.55	Pas d'amélioration

Découvertes importantes : À l'exception de Command-R, tous les modèles montrent une réduction significative du taux d'hallucination avec la tokenisation alternative, prouvant que le problème provient effectivement des tokens incomplets.

Analyse de la Distribution Linguistique

Les bigrammes improbables couvrent diverses combinaisons de paires linguistiques
Les scripts multi-octets à ressources élevées (chinois, coréen, russe) apparaissent avec la plus haute fréquence
Les distributions de paires linguistiques varient considérablement entre les modèles (Exaone avec 17 paires linguistiques, Command-R avec seulement 3)

Travaux Connexes

Recherche sur les Vulnérabilités des Tokeniseurs

Recherche sur les tokens défectueux : Land et Bartolo (2024) proposent une méthode heuristique de couche d'intégration pour identifier les tokens sous-entraînés
Tokenisation adversariale : Wang et al. (2024) créent des problèmes adversariaux induisant une tokenisation erronée
Équité de la tokenisation : Petrov et al. (2023) et Ovalle et al. (2024) étudient l'injustice et les biais introduits par les tokeniseurs

Recherche sur les Tokeniseurs BPE

Remise en question de l'effet de compression : Schmidt et al. (2024) remettent en question l'hypothèse que l'efficacité du BPE provient de la compression
Problèmes de compression gourmande : Bostrom et Durrett (2020) soulignent que la compression gourmande privilégie la fréquence plutôt que la signification linguistique
Améliorations morphologiques : Limisiewicz et al. (2024) et Bauwens et al. (2024) proposent des améliorations du BPE guidées par la morphologie

Unicité de la Contribution de cet Article

Contrairement aux recherches existantes, cet article :

Se concentre sur les problèmes structurels plutôt que de qualité d'entraînement
Démontre que même les tokens bien entraînés peuvent être fragiles
Fournit une méthode systématique de construction d'attaque

Conclusion et Discussion

Conclusions Principales

Fragilité systématique des tokens incomplets : Même bien entraînés, les tokens incomplets peuvent facilement entraîner des hallucinations dans certaines combinaisons
Le problème provient de la tokenisation plutôt que de l'entraînement : La tokenisation alternative améliore considérablement le problème, prouvant que la racine réside dans la structure des tokens
Impact généralisé : Ce problème existe largement dans plusieurs modèles populaires

Risques Pratiques

Traitement du code et des données : Peut compromettre l'intégrité des noms de variables ou des valeurs fixes
Irréproductibilité adversariale : Les attaquants peuvent exploiter les phrases non répétables pour échapper à l'intervention des agents LLM
Identification des modèles : Peut être utilisé pour identifier l'architecture derrière les services LLM anonymes

Stratégies d'Atténuation

Élagage du vocabulaire : Suppression des tokens incomplets avant l'entraînement du modèle
Fusions BPE contraintes : Respect des limites de caractères lors de l'entraînement du tokeniseur
Tokenisation au niveau des caractères : Pour les modèles ne nécessitant pas une couverture Unicode complète, la tokenisation au niveau des caractères peut être une option

Limitations

Portée d'évaluation : Limitée aux hallucinations au niveau des phrases, sans évaluation systématique des hallucinations factuelles
Expertise linguistique : Les phrases de test couvrent plusieurs langues, dépassant le domaine d'expertise des auteurs
Spécificité du modèle : Les résultats anormaux du modèle Command-R nécessitent une investigation supplémentaire

Directions Futures

Conception de tokeniseurs plus sûrs : Développement de méthodes de tokenisation évitant les tokens incomplets
Évaluation de la robustesse : Établissement d'un cadre d'évaluation plus complet des vulnérabilités de tokenisation
Recherche sur les mécanismes de défense : Exploration des stratégies de détection et d'atténuation au moment de l'exécution

Évaluation Approfondie

Points Forts

Originalité de l'identification du problème : Première identification systématique de la fragilité structurelle du BPE au niveau des octets
Rigueur méthodologique : Construction précise d'attaque basée sur les règles d'encodage UTF-8, conception expérimentale complète
Exhaustivité des expériences : Vérification inter-modèles et inter-langues, résultats convaincants
Valeur pratique : Fourniture de stratégies d'atténuation concrètes et de recommandations de sécurité

Insuffisances

Analyse théorique insuffisante : Manque d'explication théorique approfondie sur les raisons de la fragilité accrue des tokens incomplets
Explication insuffisante des anomalies de Command-R : Analyse insuffisante des résultats anormaux de ce modèle
Limitations des métriques d'évaluation : Utilisation uniquement de tâches de répétition, peut ne pas refléter complètement les dommages réels
Impacts à long terme inconnus : Absence d'évaluation de l'impact de cette vulnérabilité sur d'autres capacités du modèle

Impact

Contribution académique : Ouverture d'une nouvelle direction dans la recherche sur la sécurité des tokeniseurs
Valeur pratique : Fourniture de considérations de sécurité importantes aux développeurs de modèles
Reproductibilité : Description claire de la méthode, expériences reproductibles
Signification politique : Peut influencer les normes de conception futures des tokeniseurs

Scénarios d'Application

Évaluation de la sécurité des modèles : Évaluation de la vulnérabilité de tokenisation des modèles existants
Conception de tokeniseurs : Orientation du développement de tokeniseurs plus sûrs
Tests adversariaux : Composante des tests de robustesse des modèles
Audit de sécurité : Vérification de sécurité avant le déploiement des LLM

Références

Références clés :

Land, S. & Bartolo, M. (2024). Fishing for magikarp: Automatically detecting under-trained tokens in large language models.
Bostrom, K. & Durrett, G. (2020). Byte pair encoding is suboptimal for language model pretraining.
Sennrich, R., Haddow, B., & Birch, A. (2016). Neural machine translation of rare words with subword units.
Limisiewicz, T. et al. (2024). MYTE: Morphology-driven byte encoding for better and fairer multilingual language modeling.

Évaluation Globale : Cet article est une recherche de haute qualité qui identifie une faille de sécurité importante dans les tokeniseurs BPE au niveau des octets. Bien qu'il présente certaines limitations, son originalité, la rigueur de ses expériences et sa valeur pratique en font une contribution importante au domaine de la recherche sur la sécurité des tokeniseurs. Cette recherche est d'une importance capitale pour améliorer la sécurité et la robustesse des grands modèles de langage.