Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers
Jang, Lee, Chung et al.
Tokenization is a crucial step that bridges human-readable text with model-readable discrete tokens. However, recent studies have revealed that tokenizers can be exploited to elicit unwanted model behaviors. In this work, we investigate incomplete tokens, i.e., undecodable tokens with stray bytes resulting from byte-level byte-pair encoding (BPE) tokenization. We hypothesize that such tokens are heavily reliant on their adjacent tokens and are fragile when paired with unfamiliar tokens. To demonstrate this vulnerability, we introduce improbable bigrams: out-of-distribution combinations of incomplete tokens designed to exploit their dependency. Our experiments show that improbable bigrams are significantly prone to hallucinatory behaviors. Surprisingly, the same phrases have drastically lower rates of hallucination (90% reduction in Llama3.1) when an alternative tokenization is used. We caution against the potential vulnerabilities introduced by byte-level BPE tokenizers, which may introduce blind spots to language models.
academic
Les Bigrammes Improbables Exposent les Vulnérabilités des Tokens Incomplets dans les Tokeniseurs au Niveau des Octets
Cet article étudie les vulnérabilités des tokens incomplets dans les tokeniseurs BPE (Byte Pair Encoding) au niveau des octets. Les auteurs découvrent que ces tokens incomplets, contenant des octets isolés, dépendent fortement des tokens adjacents et présentent des problèmes lorsqu'ils sont appairés avec des tokens non familiers. En construisant des « bigrammes improbables » — c'est-à-dire des combinaisons hors distribution de tokens incomplets — les auteurs démontrent que cette vulnérabilité entraîne des comportements d'hallucination significatifs. Les expériences montrent que l'utilisation de méthodes de tokenisation alternatives réduit considérablement le taux d'hallucination pour les mêmes phrases (réduction de 90 % dans Llama3.1).
L'article aborde la vulnérabilité des tokens incomplets dans les tokeniseurs BPE au niveau des octets, qui entraînent des comportements d'hallucination dans les grands modèles de langage.
Rôle critique de la tokenisation : La tokenisation est une étape clé reliant le texte lisible par l'homme aux tokens discrets traitables par le modèle
Risques de sécurité existants : Des recherches récentes montrent que les tokeniseurs peuvent être exploités malveillamment pour induire des comportements inappropriés du modèle
Dommages pratiques : Les problèmes de tokenisation peuvent entraîner une perte d'intégrité des données, des attaques adversariales, l'identification des modèles et d'autres risques de sécurité
Les auteurs supposent que les tokens incomplets, en raison de leurs caractéristiques structurelles, présentent une fragilité lorsqu'ils sont appairés avec des tokens adjacents non familiers, même si ces tokens sont eux-mêmes bien entraînés.
Identification de la vulnérabilité des tokens incomplets : Analyse systématique des caractéristiques structurelles et des problèmes potentiels des tokens incomplets dans les tokeniseurs BPE au niveau des octets
Proposition du concept de « bigrammes improbables » : Conception d'une nouvelle méthode d'attaque pour exposer la vulnérabilité des tokens incomplets
Vérification inter-modèles : Validation de l'omniprésence de cette vulnérabilité sur 5 grands modèles de langage populaires
Fourniture de stratégies d'atténuation : Démonstration de la résolvabilité du problème par des méthodes de tokenisation alternatives et proposition de mesures préventives
Entrée : Phrases textuelles contenant des tokens incomplets
Sortie : Réponses du modèle aux tâches répétées
Objectif : Identifier les combinaisons de tokens qui empêchent le modèle de répéter correctement les phrases d'entrée
Étape 1 : Analyse Structurelle
- Identifier les octets de début et de continuation dans le token
- Déterminer le nombre d'octets requis ou fournis par le token
Étape 2 : Correspondance de Compatibilité
- Rechercher des paires de tokens structurellement complémentaires
- Assurer que la combinaison forme un caractère Unicode valide
Étape 3 : Vérification de Faisabilité
- Exécuter un test de décodage-encodage
- Vérifier que la chaîne générée est effectivement tokenisée comme prévu
Filtrage de la qualité d'entraînement : Utilisation de la méthode heuristique d'intégration de Land et Bartolo (2024) pour exclure les tokens sous-entraînés
Concentration sur les tokens bien entraînés : Utilisation uniquement des tokens du vocabulaire classés dans les 50 % supérieurs en qualité d'entraînement
Construction de bigrammes improbables : Construction d'au maximum 100 bigrammes improbables par modèle
Découvertes clés : Les bigrammes improbables composés de tokens incomplets présentent des taux d'hallucination significativement plus élevés sur tous les modèles.
Découvertes importantes : À l'exception de Command-R, tous les modèles montrent une réduction significative du taux d'hallucination avec la tokenisation alternative, prouvant que le problème provient effectivement des tokens incomplets.
Recherche sur les tokens défectueux : Land et Bartolo (2024) proposent une méthode heuristique de couche d'intégration pour identifier les tokens sous-entraînés
Tokenisation adversariale : Wang et al. (2024) créent des problèmes adversariaux induisant une tokenisation erronée
Équité de la tokenisation : Petrov et al. (2023) et Ovalle et al. (2024) étudient l'injustice et les biais introduits par les tokeniseurs
Remise en question de l'effet de compression : Schmidt et al. (2024) remettent en question l'hypothèse que l'efficacité du BPE provient de la compression
Problèmes de compression gourmande : Bostrom et Durrett (2020) soulignent que la compression gourmande privilégie la fréquence plutôt que la signification linguistique
Améliorations morphologiques : Limisiewicz et al. (2024) et Bauwens et al. (2024) proposent des améliorations du BPE guidées par la morphologie
Fragilité systématique des tokens incomplets : Même bien entraînés, les tokens incomplets peuvent facilement entraîner des hallucinations dans certaines combinaisons
Le problème provient de la tokenisation plutôt que de l'entraînement : La tokenisation alternative améliore considérablement le problème, prouvant que la racine réside dans la structure des tokens
Impact généralisé : Ce problème existe largement dans plusieurs modèles populaires
Élagage du vocabulaire : Suppression des tokens incomplets avant l'entraînement du modèle
Fusions BPE contraintes : Respect des limites de caractères lors de l'entraînement du tokeniseur
Tokenisation au niveau des caractères : Pour les modèles ne nécessitant pas une couverture Unicode complète, la tokenisation au niveau des caractères peut être une option
Land, S. & Bartolo, M. (2024). Fishing for magikarp: Automatically detecting under-trained tokens in large language models.
Bostrom, K. & Durrett, G. (2020). Byte pair encoding is suboptimal for language model pretraining.
Sennrich, R., Haddow, B., & Birch, A. (2016). Neural machine translation of rare words with subword units.
Limisiewicz, T. et al. (2024). MYTE: Morphology-driven byte encoding for better and fairer multilingual language modeling.
Évaluation Globale : Cet article est une recherche de haute qualité qui identifie une faille de sécurité importante dans les tokeniseurs BPE au niveau des octets. Bien qu'il présente certaines limitations, son originalité, la rigueur de ses expériences et sa valeur pratique en font une contribution importante au domaine de la recherche sur la sécurité des tokeniseurs. Cette recherche est d'une importance capitale pour améliorer la sécurité et la robustesse des grands modèles de langage.