Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers
Jang, Lee, Chung et al.
Tokenization is a crucial step that bridges human-readable text with model-readable discrete tokens. However, recent studies have revealed that tokenizers can be exploited to elicit unwanted model behaviors. In this work, we investigate incomplete tokens, i.e., undecodable tokens with stray bytes resulting from byte-level byte-pair encoding (BPE) tokenization. We hypothesize that such tokens are heavily reliant on their adjacent tokens and are fragile when paired with unfamiliar tokens. To demonstrate this vulnerability, we introduce improbable bigrams: out-of-distribution combinations of incomplete tokens designed to exploit their dependency. Our experiments show that improbable bigrams are significantly prone to hallucinatory behaviors. Surprisingly, the same phrases have drastically lower rates of hallucination (90% reduction in Llama3.1) when an alternative tokenization is used. We caution against the potential vulnerabilities introduced by byte-level BPE tokenizers, which may introduce blind spots to language models.
academic
Bigrammi Improbabili Espongono Vulnerabilità dei Token Incompleti nei Tokenizzatori a Livello di Byte
Questo articolo esamina le vulnerabilità dei token incompleti nella codifica Byte Pair Encoding (BPE) a livello di byte. Gli autori scoprono che questi token incompleti, contenenti byte isolati, dipendono fortemente dai token adiacenti e presentano problemi quando accoppiati con token sconosciuti. Costruendo "bigrammi improbabili" — combinazioni fuori distribuzione di token incompleti — gli autori dimostrano che questa vulnerabilità causa comportamenti di allucinazione significativi. Gli esperimenti mostrano che utilizzando metodi di tokenizzazione alternativi, il tasso di allucinazione per le stesse frasi diminuisce drasticamente (riduzione del 90% in Llama3.1).
Il problema centrale affrontato da questo articolo è la vulnerabilità dei token incompleti nei tokenizzatori BPE a livello di byte, che causano comportamenti di allucinazione nei modelli linguistici di grandi dimensioni.
Ruolo Critico della Tokenizzazione: La tokenizzazione è il passaggio cruciale che collega il testo leggibile dall'uomo ai token discreti elaborabili dal modello
Rischi di Sicurezza Esistenti: Ricerche recenti dimostrano che i tokenizzatori possono essere sfruttati malevolmente per indurre comportamenti impropri del modello
Danni Pratici: I problemi di tokenizzazione possono causare perdita di integrità dei dati, attacchi avversariali, identificazione dell'impronta digitale del modello e altri rischi di sicurezza
Gli autori ipotizzano che i token incompleti, a causa delle loro caratteristiche strutturali, mostrino vulnerabilità quando accoppiati con token adiacenti sconosciuti, anche se questi token sono adeguatamente addestrati.
Identificazione della Vulnerabilità dei Token Incompleti: Analisi sistematica delle caratteristiche strutturali e dei potenziali problemi dei token incompleti nei tokenizzatori BPE a livello di byte
Introduzione del Concetto di "Bigrammi Improbabili": Progettazione di un nuovo metodo di attacco per esporre le vulnerabilità dei token incompleti
Verifica Multimodello: Validazione dell'ubiquità di questa vulnerabilità su 5 modelli linguistici di grandi dimensioni mainstream
Strategie di Mitigazione: Dimostrazione della risolvibilità del problema attraverso metodi di tokenizzazione alternativi e proposte di misure preventive
Input: Frasi di testo contenenti token incompleti
Output: Risposte del modello a compiti ripetitivi
Obiettivo: Identificare combinazioni di token che impediscono al modello di ripetere correttamente la frase di input
Fase 1: Analisi Strutturale
- Identificazione dei byte iniziali e dei byte di continuazione nel token
- Determinazione del numero di byte necessari o forniti dal token
Fase 2: Compatibilità di Accoppiamento
- Ricerca di coppie di token strutturalmente complementari
- Assicurazione che la combinazione formi caratteri Unicode validi
Fase 3: Verifica di Fattibilità
- Esecuzione di test decode-encode
- Verifica che la stringa generata sia effettivamente tokenizzata come previsto
Scoperta Chiave: I bigrammi improbabili composti da token incompleti mostrano tassi di allucinazione significativamente più elevati su tutti i modelli.
Scoperta Importante: Ad eccezione di Command-R, il tasso di allucinazione di tutti i modelli diminuisce significativamente quando si utilizza la tokenizzazione alternativa, dimostrando che il problema deriva effettivamente dai token incompleti.
Messa in Discussione dell'Effetto di Compressione: Schmidt et al. (2024) contestano l'assunzione che l'efficacia della BPE derivi dalla compressione
Problema della Compressione Greedy: Bostrom e Durrett (2020) sottolineano che la compressione greedy privilegia la frequenza rispetto al significato linguistico
Miglioramenti Morfologici: Limisiewicz et al. (2024) e Bauwens et al. (2024) propongono miglioramenti della BPE guidati dalla morfologia
Vulnerabilità Sistematica dei Token Incompleti: Anche se adeguatamente addestrati, i token incompleti in combinazioni specifiche tendono ancora a causare allucinazioni
Il Problema Deriva dalla Tokenizzazione, Non dall'Addestramento: La tokenizzazione alternativa migliora significativamente il problema, dimostrando che la radice risiede nella struttura del token
Impatto Diffuso: Questo problema esiste ampiamente in più modelli mainstream
Potatura del Vocabolario: Rimozione dei token incompleti prima dell'addestramento del modello
Fusioni BPE Vincolate: Rispetto dei confini dei caratteri durante l'addestramento del tokenizzatore
Tokenizzazione a Livello di Carattere: Per i modelli che non richiedono copertura Unicode completa, è possibile scegliere la tokenizzazione a livello di carattere
Land, S. & Bartolo, M. (2024). Fishing for magikarp: Automatically detecting under-trained tokens in large language models.
Bostrom, K. & Durrett, G. (2020). Byte pair encoding is suboptimal for language model pretraining.
Sennrich, R., Haddow, B., & Birch, A. (2016). Neural machine translation of rare words with subword units.
Limisiewicz, T. et al. (2024). MYTE: Morphology-driven byte encoding for better and fairer multilingual language modeling.
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che identifica un'importante vulnerabilità di sicurezza nei tokenizzatori BPE a livello di byte. Sebbene presenti alcune limitazioni, la sua originalità, il rigore sperimentale e il valore pratico lo rendono un contributo importante nel campo della ricerca sulla sicurezza dei tokenizzatori. Questa ricerca ha un significato importante per migliorare la sicurezza e la robustezza dei modelli linguistici di grandi dimensioni.