2025-11-12T07:34:10.386378

Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers

Jang, Lee, Chung et al.

Tokenization is a crucial step that bridges human-readable text with model-readable discrete tokens. However, recent studies have revealed that tokenizers can be exploited to elicit unwanted model behaviors. In this work, we investigate incomplete tokens, i.e., undecodable tokens with stray bytes resulting from byte-level byte-pair encoding (BPE) tokenization. We hypothesize that such tokens are heavily reliant on their adjacent tokens and are fragile when paired with unfamiliar tokens. To demonstrate this vulnerability, we introduce improbable bigrams: out-of-distribution combinations of incomplete tokens designed to exploit their dependency. Our experiments show that improbable bigrams are significantly prone to hallucinatory behaviors. Surprisingly, the same phrases have drastically lower rates of hallucination (90% reduction in Llama3.1) when an alternative tokenization is used. We caution against the potential vulnerabilities introduced by byte-level BPE tokenizers, which may introduce blind spots to language models.

academic

Bigrammi Improbabili Espongono Vulnerabilità dei Token Incompleti nei Tokenizzatori a Livello di Byte

Informazioni Fondamentali

ID Articolo: 2410.23684
Titolo: Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers
Autori: Eugene Jang (Northeastern University), Kimin Lee (KAIST), Jin-Woo Chung (S2W Inc.), Keuntae Park (S2W Inc.), Seungwon Shin (KAIST)
Classificazione: cs.CL (Linguistica Computazionale)
Data di Pubblicazione: Ottobre 2024 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2410.23684

Riassunto

Questo articolo esamina le vulnerabilità dei token incompleti nella codifica Byte Pair Encoding (BPE) a livello di byte. Gli autori scoprono che questi token incompleti, contenenti byte isolati, dipendono fortemente dai token adiacenti e presentano problemi quando accoppiati con token sconosciuti. Costruendo "bigrammi improbabili" — combinazioni fuori distribuzione di token incompleti — gli autori dimostrano che questa vulnerabilità causa comportamenti di allucinazione significativi. Gli esperimenti mostrano che utilizzando metodi di tokenizzazione alternativi, il tasso di allucinazione per le stesse frasi diminuisce drasticamente (riduzione del 90% in Llama3.1).

Contesto di Ricerca e Motivazione

Problema Centrale

Il problema centrale affrontato da questo articolo è la vulnerabilità dei token incompleti nei tokenizzatori BPE a livello di byte, che causano comportamenti di allucinazione nei modelli linguistici di grandi dimensioni.

Importanza del Problema

Ruolo Critico della Tokenizzazione: La tokenizzazione è il passaggio cruciale che collega il testo leggibile dall'uomo ai token discreti elaborabili dal modello
Rischi di Sicurezza Esistenti: Ricerche recenti dimostrano che i tokenizzatori possono essere sfruttati malevolmente per indurre comportamenti impropri del modello
Danni Pratici: I problemi di tokenizzazione possono causare perdita di integrità dei dati, attacchi avversariali, identificazione dell'impronta digitale del modello e altri rischi di sicurezza

Limitazioni dei Metodi Esistenti

La ricerca esistente si concentra principalmente su "token difettosi" (glitch tokens) sottoaddestrati
Manca un'analisi sistematica dei problemi di tokenizzazione strutturale
La natura indipendente dai confini dei caratteri della BPE a livello di byte può produrre token strutturalmente fragili

Motivazione della Ricerca

Gli autori ipotizzano che i token incompleti, a causa delle loro caratteristiche strutturali, mostrino vulnerabilità quando accoppiati con token adiacenti sconosciuti, anche se questi token sono adeguatamente addestrati.

Contributi Fondamentali

Identificazione della Vulnerabilità dei Token Incompleti: Analisi sistematica delle caratteristiche strutturali e dei potenziali problemi dei token incompleti nei tokenizzatori BPE a livello di byte
Introduzione del Concetto di "Bigrammi Improbabili": Progettazione di un nuovo metodo di attacco per esporre le vulnerabilità dei token incompleti
Verifica Multimodello: Validazione dell'ubiquità di questa vulnerabilità su 5 modelli linguistici di grandi dimensioni mainstream
Strategie di Mitigazione: Dimostrazione della risolvibilità del problema attraverso metodi di tokenizzazione alternativi e proposte di misure preventive

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Frasi di testo contenenti token incompleti Output: Risposte del modello a compiti ripetitivi Obiettivo: Identificare combinazioni di token che impediscono al modello di ripetere correttamente la frase di input

Metodo di Analisi dei Token Incompleti

1. Analisi Strutturale

Analisi della Codifica UTF-8: Basata sulla struttura dei byte iniziali e dei byte di continuazione dei caratteri multibyte UTF-8
Classificazione Prefisso/Suffisso:
- Token prefisso: termina con byte isolati, richiede byte aggiuntivi per completare il carattere
- Token suffisso: inizia con byte isolati, fornisce i byte necessari per completare il carattere

2. Flusso di Costruzione dei Bigrammi

Fase 1: Analisi Strutturale
- Identificazione dei byte iniziali e dei byte di continuazione nel token
- Determinazione del numero di byte necessari o forniti dal token

Fase 2: Compatibilità di Accoppiamento
- Ricerca di coppie di token strutturalmente complementari
- Assicurazione che la combinazione formi caratteri Unicode validi

Fase 3: Verifica di Fattibilità
- Esecuzione di test decode-encode
- Verifica che la stringa generata sia effettivamente tokenizzata come previsto

Caratteristiche dei Bigrammi Improbabili

Multilingualità: I caratteri della combinazione provengono da diversi sistemi di script Unicode
Caratteristica Fuori Distribuzione: Questa combinazione transfrontaliera è estremamente improbabile nei dati di addestramento
Dipendenza Strutturale: I due token devono cooperare per formare un carattere valido

Punti di Innovazione Tecnica

Scoperta Sistematica di Vulnerabilità: Prima identificazione sistematica della vulnerabilità strutturale della BPE a livello di byte
Costruzione Precisa dell'Attacco: Costruzione precisa dei campioni di attacco basata sulle regole di codifica UTF-8
Indipendenza dalla Qualità dell'Addestramento: Dimostrazione che anche token adeguatamente addestrati possono presentare vulnerabilità

Configurazione Sperimentale

Selezione dei Modelli

Test su 5 modelli con fine-tuning di istruzioni che utilizzano BPE a livello di byte:

Meta-Llama-3.1-8B-Instruct (vocabolario 128k, 1224 token incompleti)
EXAONE-3.0-7.8B-Instruct (vocabolario 102k, 1222 token incompleti)
Qwen2.5-32B-Instruct (vocabolario 151k, 1320 token incompleti)
Mistral-Nemo-Instruct-2407 (vocabolario 131k, 1307 token incompleti)
C4AI-Command-R-v01 (vocabolario 255k, 2956 token incompleti)

Progettazione del Compito di Valutazione

Utilizzo di 4 modelli di prompt per testare la capacità del modello di ripetere la frase target:

Tipo di Compito	Modello di Prompt
Ripetizione Diretta	"Repeat this phrase exactly: '{Phrase}'"
Richiesta di Definizione	"What does '{Phrase}' mean?"
Richiesta di Conoscenza	"Today I heard about '{Phrase}'. Do you know what this means?"
Scenario di Codice	Output di elenco di nomi utente in codice Python

Strategia di Selezione dei Token

Filtro di Qualità dell'Addestramento: Utilizzo del metodo euristico basato su embedding di Land e Bartolo (2024) per escludere token sottoaddestrati
Focalizzazione su Token Adeguatamente Addestrati: Utilizzo solo di token nel vocabolario con ranking di qualità dell'addestramento nei primi 50%
Costruzione di Bigrammi Improbabili: Costruzione di un massimo di 100 bigrammi improbabili per ogni modello

Confronto di Base

Costruzione di gruppi di controllo con token completi per ogni bigrammi improbabile:

Selezione di sostituti addestrati in modo simile ma token completi
Assicurazione dell'equità degli esperimenti di controllo

Risultati Sperimentali

Risultati Principali

Modello	Tasso di Allucinazione Bigrammi Improbabili	Tasso di Allucinazione Bigrammi di Base
Llama 3.1	48/100 (48%)	0/100 (0%)
Exaone	77/100 (77%)	20/100 (20%)
Qwen2.5	33/100 (33%)	0/100 (0%)
Mistral-Nemo	52/71 (73%)	1/71 (1%)
Command-R	49/100 (49%)	8/100 (8%)

Scoperta Chiave: I bigrammi improbabili composti da token incompleti mostrano tassi di allucinazione significativamente più elevati su tutti i modelli.

Risultati degli Esperimenti di Tokenizzazione Alternativa

Modello	Tasso di Allucinazione Tokenizzazione Originale	Tasso di Allucinazione Tokenizzazione Alternativa	Grado di Miglioramento
Llama 3.1	0.48	0.05	↓90%
Exaone	0.77	0.50	↓35%
Qwen2.5	0.33	0.12	↓64%
Mistral-Nemo	0.73	0.01	↓98%
Command-R	0.49	0.55	Nessun Miglioramento

Scoperta Importante: Ad eccezione di Command-R, il tasso di allucinazione di tutti i modelli diminuisce significativamente quando si utilizza la tokenizzazione alternativa, dimostrando che il problema deriva effettivamente dai token incompleti.

Analisi della Distribuzione Linguistica

I bigrammi improbabili coprono combinazioni di coppie linguistiche multiple
Gli script multibyte ad alta risorsa (cinese, coreano, russo) hanno la frequenza più elevata
La distribuzione delle coppie linguistiche varia significativamente tra i modelli (Exaone ha 17 coppie linguistiche, Command-R solo 3)

Lavori Correlati

Ricerca sulla Vulnerabilità dei Tokenizzatori

Ricerca su Token Difettosi: Land e Bartolo (2024) propongono un metodo euristico basato su embedding per identificare token sottoaddestrati
Tokenizzazione Avversariale: Wang et al. (2024) creano problemi avversariali per indurre tokenizzazione errata
Equità della Tokenizzazione: Petrov et al. (2023) e Ovalle et al. (2024) studiano ingiustizie e pregiudizi introdotti dai tokenizzatori

Ricerca sul Tokenizzatore BPE

Messa in Discussione dell'Effetto di Compressione: Schmidt et al. (2024) contestano l'assunzione che l'efficacia della BPE derivi dalla compressione
Problema della Compressione Greedy: Bostrom e Durrett (2020) sottolineano che la compressione greedy privilegia la frequenza rispetto al significato linguistico
Miglioramenti Morfologici: Limisiewicz et al. (2024) e Bauwens et al. (2024) propongono miglioramenti della BPE guidati dalla morfologia

Unicità del Contributo di Questo Articolo

A differenza della ricerca esistente, questo articolo:

Si concentra su problemi strutturali piuttosto che sulla qualità dell'addestramento
Dimostra che anche token adeguatamente addestrati possono essere fragili
Fornisce un metodo sistematico di costruzione dell'attacco

Conclusioni e Discussione

Conclusioni Principali

Vulnerabilità Sistematica dei Token Incompleti: Anche se adeguatamente addestrati, i token incompleti in combinazioni specifiche tendono ancora a causare allucinazioni
Il Problema Deriva dalla Tokenizzazione, Non dall'Addestramento: La tokenizzazione alternativa migliora significativamente il problema, dimostrando che la radice risiede nella struttura del token
Impatto Diffuso: Questo problema esiste ampiamente in più modelli mainstream

Rischi Pratici

Elaborazione di Codice e Dati: Può compromettere l'integrità dei nomi di variabili o valori fissi
Irripetibilità Avversariale: Gli attaccanti possono sfruttare frasi non ripetibili per eludere l'intervento degli agenti LLM
Identificazione dell'Impronta Digitale del Modello: Può essere utilizzato per identificare l'architettura dietro i servizi LLM anonimi

Strategie di Mitigazione

Potatura del Vocabolario: Rimozione dei token incompleti prima dell'addestramento del modello
Fusioni BPE Vincolate: Rispetto dei confini dei caratteri durante l'addestramento del tokenizzatore
Tokenizzazione a Livello di Carattere: Per i modelli che non richiedono copertura Unicode completa, è possibile scegliere la tokenizzazione a livello di carattere

Limitazioni

Ambito di Valutazione: Limitato alle allucinazioni a livello di frase, senza valutazione sistematica delle allucinazioni fattiche
Specializzazione Linguistica: Le frasi di test coprono più lingue, oltre la competenza degli autori
Specificità del Modello: I risultati anomali del modello Command-R richiedono ulteriori ricerche

Direzioni Future

Progettazione di Tokenizzatori Più Sicuri: Sviluppo di metodi di tokenizzazione che evitano token incompleti
Valutazione della Robustezza: Istituzione di un quadro di valutazione più completo della vulnerabilità della tokenizzazione
Ricerca su Meccanismi di Difesa: Esplorazione di strategie di rilevamento e mitigazione a runtime

Valutazione Approfondita

Punti di Forza

Originalità dell'Identificazione del Problema: Prima identificazione sistematica della vulnerabilità strutturale della BPE a livello di byte
Rigore Metodologico: Costruzione precisa dell'attacco basata sulle regole di codifica UTF-8, progettazione sperimentale completa
Completezza Sperimentale: Verifica multimodello e multilingue, risultati convincenti
Valore Pratico: Fornisce strategie di mitigazione concrete e raccomandazioni di sicurezza

Carenze

Analisi Teorica Insufficiente: Manca una spiegazione teorica profonda del motivo per cui i token incompleti sono più fragili
Anomalia di Command-R Non Spiegata: L'analisi dei risultati anomali di questo modello non è sufficientemente approfondita
Limitazioni delle Metriche di Valutazione: Utilizzo solo di compiti di ripetizione, potrebbe non riflettere completamente i danni reali
Impatto a Lungo Termine Sconosciuto: Mancata valutazione dell'effetto di questa vulnerabilità su altre capacità del modello

Impatto

Contributo Accademico: Apre una nuova direzione nella ricerca sulla sicurezza dei tokenizzatori
Valore Pratico: Fornisce considerazioni di sicurezza importanti per gli sviluppatori di modelli
Riproducibilità: Descrizione del metodo chiara, esperimenti riproducibili
Significato Politico: Potrebbe influenzare gli standard di progettazione futuri dei tokenizzatori

Scenari Applicabili

Valutazione della Sicurezza del Modello: Valutazione della vulnerabilità di tokenizzazione dei modelli esistenti
Progettazione del Tokenizzatore: Guida allo sviluppo di tokenizzatori più sicuri
Test Avversariale: Come parte dei test di robustezza del modello
Audit di Sicurezza: Per i controlli di sicurezza pre-distribuzione degli LLM

Bibliografia

Riferimenti Chiave:

Land, S. & Bartolo, M. (2024). Fishing for magikarp: Automatically detecting under-trained tokens in large language models.
Bostrom, K. & Durrett, G. (2020). Byte pair encoding is suboptimal for language model pretraining.
Sennrich, R., Haddow, B., & Birch, A. (2016). Neural machine translation of rare words with subword units.
Limisiewicz, T. et al. (2024). MYTE: Morphology-driven byte encoding for better and fairer multilingual language modeling.

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che identifica un'importante vulnerabilità di sicurezza nei tokenizzatori BPE a livello di byte. Sebbene presenti alcune limitazioni, la sua originalità, il rigore sperimentale e il valore pratico lo rendono un contributo importante nel campo della ricerca sulla sicurezza dei tokenizzatori. Questa ricerca ha un significato importante per migliorare la sicurezza e la robustezza dei modelli linguistici di grandi dimensioni.