Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers
Jang, Lee, Chung et al.
Tokenization is a crucial step that bridges human-readable text with model-readable discrete tokens. However, recent studies have revealed that tokenizers can be exploited to elicit unwanted model behaviors. In this work, we investigate incomplete tokens, i.e., undecodable tokens with stray bytes resulting from byte-level byte-pair encoding (BPE) tokenization. We hypothesize that such tokens are heavily reliant on their adjacent tokens and are fragile when paired with unfamiliar tokens. To demonstrate this vulnerability, we introduce improbable bigrams: out-of-distribution combinations of incomplete tokens designed to exploit their dependency. Our experiments show that improbable bigrams are significantly prone to hallucinatory behaviors. Surprisingly, the same phrases have drastically lower rates of hallucination (90% reduction in Llama3.1) when an alternative tokenization is used. We caution against the potential vulnerabilities introduced by byte-level BPE tokenizers, which may introduce blind spots to language models.
academic
Bigramas Improbables Exponen Vulnerabilidades de Tokens Incompletos en Tokenizadores a Nivel de Bytes
Este artículo investiga la vulnerabilidad de tokens incompletos en codificadores de pares de bytes (BPE) a nivel de bytes. Los autores descubren que estos tokens incompletos, que contienen bytes sueltos, dependen fuertemente de tokens adyacentes y presentan problemas cuando se emparejan con tokens desconocidos. Mediante la construcción de "bigramas improbables" —combinaciones fuera de distribución de tokens incompletos— los autores demuestran que esta vulnerabilidad conduce a comportamientos de alucinación significativos. Los experimentos muestran que al utilizar métodos de tokenización alternativos, la tasa de alucinación de frases similares se reduce drásticamente (reducción del 90% en Llama3.1).
El problema central que aborda este artículo es la vulnerabilidad de tokens incompletos en tokenizadores BPE a nivel de bytes, que conducen a comportamientos de alucinación en modelos de lenguaje grandes.
Papel crítico de la tokenización: La tokenización es un paso crucial que conecta el texto legible por humanos con tokens discretos procesables por modelos
Riesgos de seguridad existentes: Investigaciones recientes demuestran que los tokenizadores pueden ser explotados maliciosamente para inducir comportamientos inapropiados en modelos
Daños prácticos: Los problemas de tokenización pueden conducir a pérdida de integridad de datos, ataques adversariales, identificación de huellas dactilares de modelos y otros riesgos de seguridad
Los autores hipotetiza que los tokens incompletos, debido a sus características estructurales, exhiben fragilidad cuando se emparejan con tokens adyacentes desconocidos, incluso si estos tokens están suficientemente entrenados.
Identificación de vulnerabilidades en tokens incompletos: Análisis sistemático de características estructurales y problemas potenciales de tokens incompletos en tokenizadores BPE a nivel de bytes
Propuesta del concepto de "bigramas improbables": Diseño de un nuevo método de ataque para exponer vulnerabilidades de tokens incompletos
Verificación entre modelos: Validación de la prevalencia generalizada de esta vulnerabilidad en 5 modelos de lenguaje grandes principales
Provisión de estrategias de mitigación: Demostración de la resolubilidad del problema mediante métodos de tokenización alternativos y proposición de medidas preventivas
Entrada: Frases de texto que contienen tokens incompletos
Salida: Respuestas del modelo a tareas repetidas
Objetivo: Identificar combinaciones de tokens que impiden que el modelo repita correctamente la frase de entrada
Paso 1: Análisis Estructural
- Identificar bytes iniciales y bytes de continuación en el token
- Determinar el número de bytes que el token necesita o proporciona
Paso 2: Compatibilidad de Emparejamiento
- Buscar pares de tokens con estructura complementaria
- Asegurar que la combinación forme caracteres Unicode válidos
Paso 3: Validación de Viabilidad
- Ejecutar prueba de decodificación-codificación
- Verificar que la cadena generada se tokenice como se espera
Filtrado de calidad de entrenamiento: Uso del método heurístico de incrustación de Land y Bartolo (2024) para excluir tokens insuficientemente entrenados
Enfoque en tokens suficientemente entrenados: Uso exclusivo de tokens en el top 50% de clasificación de calidad de entrenamiento del vocabulario
Construcción de bigramas improbables: Construcción de hasta 100 bigramas improbables por modelo
Hallazgos clave: Los bigramas improbables compuestos por tokens incompletos exhiben tasas de alucinación significativamente más altas en todos los modelos.
Hallazgo importante: Con excepción de Command-R, todos los modelos muestran reducciones significativas en tasas de alucinación al utilizar tokenización alternativa, demostrando que el problema se origina efectivamente en tokens incompletos.
Investigación de tokens defectuosos: Land y Bartolo (2024) proponen método heurístico de capa de incrustación para identificar tokens insuficientemente entrenados
Tokenización adversarial: Wang et al. (2024) crean problemas adversariales que inducen tokenización errónea
Equidad de tokenizadores: Petrov et al. (2023) y Ovalle et al. (2024) investigan injusticia y sesgo introducidos por tokenizadores
Vulnerabilidad sistemática en tokens incompletos: Incluso cuando están suficientemente entrenados, los tokens incompletos en combinaciones específicas tienden a causar alucinaciones
Problema originado en tokenización, no en entrenamiento: La tokenización alternativa mejora significativamente el problema, demostrando que la raíz está en la estructura del token
Impacto generalizado: Este problema existe ampliamente en múltiples modelos principales
Land, S. & Bartolo, M. (2024). Fishing for magikarp: Automatically detecting under-trained tokens in large language models.
Bostrom, K. & Durrett, G. (2020). Byte pair encoding is suboptimal for language model pretraining.
Sennrich, R., Haddow, B., & Birch, A. (2016). Neural machine translation of rare words with subword units.
Limisiewicz, T. et al. (2024). MYTE: Morphology-driven byte encoding for better and fairer multilingual language modeling.
Evaluación General: Este es un artículo de investigación de alta calidad que identifica una vulnerabilidad de seguridad importante en tokenizadores BPE a nivel de bytes. Aunque presenta algunas limitaciones, su originalidad, rigor experimental y valor práctico lo convierten en una contribución importante en el campo de investigación de seguridad de tokenizadores. Esta investigación tiene importancia significativa para mejorar la seguridad y robustez de modelos de lenguaje grandes.