2025-11-12T07:34:10.386378

Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers

Jang, Lee, Chung et al.
Tokenization is a crucial step that bridges human-readable text with model-readable discrete tokens. However, recent studies have revealed that tokenizers can be exploited to elicit unwanted model behaviors. In this work, we investigate incomplete tokens, i.e., undecodable tokens with stray bytes resulting from byte-level byte-pair encoding (BPE) tokenization. We hypothesize that such tokens are heavily reliant on their adjacent tokens and are fragile when paired with unfamiliar tokens. To demonstrate this vulnerability, we introduce improbable bigrams: out-of-distribution combinations of incomplete tokens designed to exploit their dependency. Our experiments show that improbable bigrams are significantly prone to hallucinatory behaviors. Surprisingly, the same phrases have drastically lower rates of hallucination (90% reduction in Llama3.1) when an alternative tokenization is used. We caution against the potential vulnerabilities introduced by byte-level BPE tokenizers, which may introduce blind spots to language models.
academic

Les Bigrammes Improbables Exposent les Vulnérabilités des Tokens Incomplets dans les Tokeniseurs au Niveau des Octets

Informations Fondamentales

  • ID de l'article : 2410.23684
  • Titre : Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers
  • Auteurs : Eugene Jang (Northeastern University), Kimin Lee (KAIST), Jin-Woo Chung (S2W Inc.), Keuntae Park (S2W Inc.), Seungwon Shin (KAIST)
  • Classification : cs.CL (Linguistique Computationnelle)
  • Date de publication : Octobre 2024 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2410.23684

Résumé

Cet article étudie les vulnérabilités des tokens incomplets dans les tokeniseurs BPE (Byte Pair Encoding) au niveau des octets. Les auteurs découvrent que ces tokens incomplets, contenant des octets isolés, dépendent fortement des tokens adjacents et présentent des problèmes lorsqu'ils sont appairés avec des tokens non familiers. En construisant des « bigrammes improbables » — c'est-à-dire des combinaisons hors distribution de tokens incomplets — les auteurs démontrent que cette vulnérabilité entraîne des comportements d'hallucination significatifs. Les expériences montrent que l'utilisation de méthodes de tokenisation alternatives réduit considérablement le taux d'hallucination pour les mêmes phrases (réduction de 90 % dans Llama3.1).

Contexte et Motivation de la Recherche

Problème Central

L'article aborde la vulnérabilité des tokens incomplets dans les tokeniseurs BPE au niveau des octets, qui entraînent des comportements d'hallucination dans les grands modèles de langage.

Importance du Problème

  1. Rôle critique de la tokenisation : La tokenisation est une étape clé reliant le texte lisible par l'homme aux tokens discrets traitables par le modèle
  2. Risques de sécurité existants : Des recherches récentes montrent que les tokeniseurs peuvent être exploités malveillamment pour induire des comportements inappropriés du modèle
  3. Dommages pratiques : Les problèmes de tokenisation peuvent entraîner une perte d'intégrité des données, des attaques adversariales, l'identification des modèles et d'autres risques de sécurité

Limitations des Approches Existantes

  • Les recherches existantes se concentrent principalement sur les « tokens défectueux » (glitch tokens) sous-entraînés
  • Absence d'analyse systématique des problèmes de tokenisation structurels
  • La nature indépendante des limites de caractères du BPE au niveau des octets peut produire des tokens structurellement fragiles

Motivation de la Recherche

Les auteurs supposent que les tokens incomplets, en raison de leurs caractéristiques structurelles, présentent une fragilité lorsqu'ils sont appairés avec des tokens adjacents non familiers, même si ces tokens sont eux-mêmes bien entraînés.

Contributions Principales

  1. Identification de la vulnérabilité des tokens incomplets : Analyse systématique des caractéristiques structurelles et des problèmes potentiels des tokens incomplets dans les tokeniseurs BPE au niveau des octets
  2. Proposition du concept de « bigrammes improbables » : Conception d'une nouvelle méthode d'attaque pour exposer la vulnérabilité des tokens incomplets
  3. Vérification inter-modèles : Validation de l'omniprésence de cette vulnérabilité sur 5 grands modèles de langage populaires
  4. Fourniture de stratégies d'atténuation : Démonstration de la résolvabilité du problème par des méthodes de tokenisation alternatives et proposition de mesures préventives

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Phrases textuelles contenant des tokens incomplets Sortie : Réponses du modèle aux tâches répétées Objectif : Identifier les combinaisons de tokens qui empêchent le modèle de répéter correctement les phrases d'entrée

Méthode d'Analyse des Tokens Incomplets

1. Analyse Structurelle

  • Analyse de l'encodage UTF-8 : Basée sur la structure des octets de début et de continuation des caractères multi-octets UTF-8
  • Classification Préfixe/Suffixe :
    • Token préfixe : se termine par un octet isolé, nécessite des octets supplémentaires pour compléter le caractère
    • Token suffixe : commence par un octet isolé, fournit les octets nécessaires pour compléter le caractère

2. Processus de Construction des Bigrammes

Étape 1 : Analyse Structurelle
- Identifier les octets de début et de continuation dans le token
- Déterminer le nombre d'octets requis ou fournis par le token

Étape 2 : Correspondance de Compatibilité
- Rechercher des paires de tokens structurellement complémentaires
- Assurer que la combinaison forme un caractère Unicode valide

Étape 3 : Vérification de Faisabilité
- Exécuter un test de décodage-encodage
- Vérifier que la chaîne générée est effectivement tokenisée comme prévu

Caractéristiques des Bigrammes Improbables

  1. Multilingualité : Les caractères de la combinaison proviennent de différents systèmes de scripts Unicode
  2. Caractère hors distribution : Ces combinaisons inter-scripts sont extrêmement improbables dans les données d'entraînement
  3. Dépendance structurelle : Les deux tokens doivent être appairés pour former un caractère valide

Points d'Innovation Technique

  1. Découverte systématique de vulnérabilités : Première identification systématique de la fragilité structurelle du BPE au niveau des octets
  2. Construction d'attaque précise : Construction précise des échantillons d'attaque basée sur les règles d'encodage UTF-8
  3. Indépendance de la qualité d'entraînement : Démonstration que même les tokens bien entraînés peuvent présenter une fragilité

Configuration Expérimentale

Sélection des Modèles

Test de 5 modèles à instructions affinées utilisant le BPE au niveau des octets :

  • Meta-Llama-3.1-8B-Instruct (vocabulaire 128k, 1224 tokens incomplets)
  • EXAONE-3.0-7.8B-Instruct (vocabulaire 102k, 1222 tokens incomplets)
  • Qwen2.5-32B-Instruct (vocabulaire 151k, 1320 tokens incomplets)
  • Mistral-Nemo-Instruct-2407 (vocabulaire 131k, 1307 tokens incomplets)
  • C4AI-Command-R-v01 (vocabulaire 255k, 2956 tokens incomplets)

Conception des Tâches d'Évaluation

Utilisation de 4 modèles d'invite pour tester la capacité du modèle à répéter les phrases cibles :

Type de TâcheModèle d'Invite
Répétition directe"Repeat this phrase exactly: '{Phrase}'"
Demande de définition"What does '{Phrase}' mean?"
Demande de connaissance"Today I heard about '{Phrase}'. Do you know what this means?"
Scénario de codeSortie de liste de noms d'utilisateurs en code Python

Stratégie de Sélection des Tokens

  1. Filtrage de la qualité d'entraînement : Utilisation de la méthode heuristique d'intégration de Land et Bartolo (2024) pour exclure les tokens sous-entraînés
  2. Concentration sur les tokens bien entraînés : Utilisation uniquement des tokens du vocabulaire classés dans les 50 % supérieurs en qualité d'entraînement
  3. Construction de bigrammes improbables : Construction d'au maximum 100 bigrammes improbables par modèle

Comparaison de Base

Construction de groupes de contrôle avec des tokens complets pour chaque bigramme improbable :

  • Sélection de substituts bien entraînés mais tokens complets
  • Assurance de l'équité des expériences de contrôle

Résultats Expérimentaux

Résultats Principaux

ModèleTaux d'Hallucination des Bigrammes ImprobablesTaux d'Hallucination des Bigrammes de Base
Llama 3.148/100 (48%)0/100 (0%)
Exaone77/100 (77%)20/100 (20%)
Qwen2.533/100 (33%)0/100 (0%)
Mistral-Nemo52/71 (73%)1/71 (1%)
Command-R49/100 (49%)8/100 (8%)

Découvertes clés : Les bigrammes improbables composés de tokens incomplets présentent des taux d'hallucination significativement plus élevés sur tous les modèles.

Résultats des Expériences de Tokenisation Alternative

ModèleTaux d'Hallucination de Tokenisation OriginaleTaux d'Hallucination de Tokenisation AlternativeDegré d'Amélioration
Llama 3.10.480.05↓90%
Exaone0.770.50↓35%
Qwen2.50.330.12↓64%
Mistral-Nemo0.730.01↓98%
Command-R0.490.55Pas d'amélioration

Découvertes importantes : À l'exception de Command-R, tous les modèles montrent une réduction significative du taux d'hallucination avec la tokenisation alternative, prouvant que le problème provient effectivement des tokens incomplets.

Analyse de la Distribution Linguistique

  • Les bigrammes improbables couvrent diverses combinaisons de paires linguistiques
  • Les scripts multi-octets à ressources élevées (chinois, coréen, russe) apparaissent avec la plus haute fréquence
  • Les distributions de paires linguistiques varient considérablement entre les modèles (Exaone avec 17 paires linguistiques, Command-R avec seulement 3)

Travaux Connexes

Recherche sur les Vulnérabilités des Tokeniseurs

  1. Recherche sur les tokens défectueux : Land et Bartolo (2024) proposent une méthode heuristique de couche d'intégration pour identifier les tokens sous-entraînés
  2. Tokenisation adversariale : Wang et al. (2024) créent des problèmes adversariaux induisant une tokenisation erronée
  3. Équité de la tokenisation : Petrov et al. (2023) et Ovalle et al. (2024) étudient l'injustice et les biais introduits par les tokeniseurs

Recherche sur les Tokeniseurs BPE

  1. Remise en question de l'effet de compression : Schmidt et al. (2024) remettent en question l'hypothèse que l'efficacité du BPE provient de la compression
  2. Problèmes de compression gourmande : Bostrom et Durrett (2020) soulignent que la compression gourmande privilégie la fréquence plutôt que la signification linguistique
  3. Améliorations morphologiques : Limisiewicz et al. (2024) et Bauwens et al. (2024) proposent des améliorations du BPE guidées par la morphologie

Unicité de la Contribution de cet Article

Contrairement aux recherches existantes, cet article :

  • Se concentre sur les problèmes structurels plutôt que de qualité d'entraînement
  • Démontre que même les tokens bien entraînés peuvent être fragiles
  • Fournit une méthode systématique de construction d'attaque

Conclusion et Discussion

Conclusions Principales

  1. Fragilité systématique des tokens incomplets : Même bien entraînés, les tokens incomplets peuvent facilement entraîner des hallucinations dans certaines combinaisons
  2. Le problème provient de la tokenisation plutôt que de l'entraînement : La tokenisation alternative améliore considérablement le problème, prouvant que la racine réside dans la structure des tokens
  3. Impact généralisé : Ce problème existe largement dans plusieurs modèles populaires

Risques Pratiques

  1. Traitement du code et des données : Peut compromettre l'intégrité des noms de variables ou des valeurs fixes
  2. Irréproductibilité adversariale : Les attaquants peuvent exploiter les phrases non répétables pour échapper à l'intervention des agents LLM
  3. Identification des modèles : Peut être utilisé pour identifier l'architecture derrière les services LLM anonymes

Stratégies d'Atténuation

  1. Élagage du vocabulaire : Suppression des tokens incomplets avant l'entraînement du modèle
  2. Fusions BPE contraintes : Respect des limites de caractères lors de l'entraînement du tokeniseur
  3. Tokenisation au niveau des caractères : Pour les modèles ne nécessitant pas une couverture Unicode complète, la tokenisation au niveau des caractères peut être une option

Limitations

  1. Portée d'évaluation : Limitée aux hallucinations au niveau des phrases, sans évaluation systématique des hallucinations factuelles
  2. Expertise linguistique : Les phrases de test couvrent plusieurs langues, dépassant le domaine d'expertise des auteurs
  3. Spécificité du modèle : Les résultats anormaux du modèle Command-R nécessitent une investigation supplémentaire

Directions Futures

  1. Conception de tokeniseurs plus sûrs : Développement de méthodes de tokenisation évitant les tokens incomplets
  2. Évaluation de la robustesse : Établissement d'un cadre d'évaluation plus complet des vulnérabilités de tokenisation
  3. Recherche sur les mécanismes de défense : Exploration des stratégies de détection et d'atténuation au moment de l'exécution

Évaluation Approfondie

Points Forts

  1. Originalité de l'identification du problème : Première identification systématique de la fragilité structurelle du BPE au niveau des octets
  2. Rigueur méthodologique : Construction précise d'attaque basée sur les règles d'encodage UTF-8, conception expérimentale complète
  3. Exhaustivité des expériences : Vérification inter-modèles et inter-langues, résultats convaincants
  4. Valeur pratique : Fourniture de stratégies d'atténuation concrètes et de recommandations de sécurité

Insuffisances

  1. Analyse théorique insuffisante : Manque d'explication théorique approfondie sur les raisons de la fragilité accrue des tokens incomplets
  2. Explication insuffisante des anomalies de Command-R : Analyse insuffisante des résultats anormaux de ce modèle
  3. Limitations des métriques d'évaluation : Utilisation uniquement de tâches de répétition, peut ne pas refléter complètement les dommages réels
  4. Impacts à long terme inconnus : Absence d'évaluation de l'impact de cette vulnérabilité sur d'autres capacités du modèle

Impact

  1. Contribution académique : Ouverture d'une nouvelle direction dans la recherche sur la sécurité des tokeniseurs
  2. Valeur pratique : Fourniture de considérations de sécurité importantes aux développeurs de modèles
  3. Reproductibilité : Description claire de la méthode, expériences reproductibles
  4. Signification politique : Peut influencer les normes de conception futures des tokeniseurs

Scénarios d'Application

  1. Évaluation de la sécurité des modèles : Évaluation de la vulnérabilité de tokenisation des modèles existants
  2. Conception de tokeniseurs : Orientation du développement de tokeniseurs plus sûrs
  3. Tests adversariaux : Composante des tests de robustesse des modèles
  4. Audit de sécurité : Vérification de sécurité avant le déploiement des LLM

Références

Références clés :

  • Land, S. & Bartolo, M. (2024). Fishing for magikarp: Automatically detecting under-trained tokens in large language models.
  • Bostrom, K. & Durrett, G. (2020). Byte pair encoding is suboptimal for language model pretraining.
  • Sennrich, R., Haddow, B., & Birch, A. (2016). Neural machine translation of rare words with subword units.
  • Limisiewicz, T. et al. (2024). MYTE: Morphology-driven byte encoding for better and fairer multilingual language modeling.

Évaluation Globale : Cet article est une recherche de haute qualité qui identifie une faille de sécurité importante dans les tokeniseurs BPE au niveau des octets. Bien qu'il présente certaines limitations, son originalité, la rigueur de ses expériences et sa valeur pratique en font une contribution importante au domaine de la recherche sur la sécurité des tokeniseurs. Cette recherche est d'une importance capitale pour améliorer la sécurité et la robustesse des grands modèles de langage.