2025-11-12T07:34:10.386378

Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers

Jang, Lee, Chung et al.

Tokenization is a crucial step that bridges human-readable text with model-readable discrete tokens. However, recent studies have revealed that tokenizers can be exploited to elicit unwanted model behaviors. In this work, we investigate incomplete tokens, i.e., undecodable tokens with stray bytes resulting from byte-level byte-pair encoding (BPE) tokenization. We hypothesize that such tokens are heavily reliant on their adjacent tokens and are fragile when paired with unfamiliar tokens. To demonstrate this vulnerability, we introduce improbable bigrams: out-of-distribution combinations of incomplete tokens designed to exploit their dependency. Our experiments show that improbable bigrams are significantly prone to hallucinatory behaviors. Surprisingly, the same phrases have drastically lower rates of hallucination (90% reduction in Llama3.1) when an alternative tokenization is used. We caution against the potential vulnerabilities introduced by byte-level BPE tokenizers, which may introduce blind spots to language models.

academic

Bigramas Improbables Exponen Vulnerabilidades de Tokens Incompletos en Tokenizadores a Nivel de Bytes

Información Básica

ID del Artículo: 2410.23684
Título: Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers
Autores: Eugene Jang (Northeastern University), Kimin Lee (KAIST), Jin-Woo Chung (S2W Inc.), Keuntae Park (S2W Inc.), Seungwon Shin (KAIST)
Clasificación: cs.CL (Lingüística Computacional)
Fecha de Publicación: Octubre de 2024 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2410.23684

Resumen

Este artículo investiga la vulnerabilidad de tokens incompletos en codificadores de pares de bytes (BPE) a nivel de bytes. Los autores descubren que estos tokens incompletos, que contienen bytes sueltos, dependen fuertemente de tokens adyacentes y presentan problemas cuando se emparejan con tokens desconocidos. Mediante la construcción de "bigramas improbables" —combinaciones fuera de distribución de tokens incompletos— los autores demuestran que esta vulnerabilidad conduce a comportamientos de alucinación significativos. Los experimentos muestran que al utilizar métodos de tokenización alternativos, la tasa de alucinación de frases similares se reduce drásticamente (reducción del 90% en Llama3.1).

Antecedentes de Investigación y Motivación

Problema Central

El problema central que aborda este artículo es la vulnerabilidad de tokens incompletos en tokenizadores BPE a nivel de bytes, que conducen a comportamientos de alucinación en modelos de lenguaje grandes.

Importancia del Problema

Papel crítico de la tokenización: La tokenización es un paso crucial que conecta el texto legible por humanos con tokens discretos procesables por modelos
Riesgos de seguridad existentes: Investigaciones recientes demuestran que los tokenizadores pueden ser explotados maliciosamente para inducir comportamientos inapropiados en modelos
Daños prácticos: Los problemas de tokenización pueden conducir a pérdida de integridad de datos, ataques adversariales, identificación de huellas dactilares de modelos y otros riesgos de seguridad

Limitaciones de Métodos Existentes

La investigación existente se enfoca principalmente en "tokens defectuosos" (glitch tokens) insuficientemente entrenados
Falta análisis sistemático de problemas de tokenización estructurales
La independencia de límites de caracteres en BPE a nivel de bytes puede producir tokens estructuralmente frágiles

Motivación de la Investigación

Los autores hipotetiza que los tokens incompletos, debido a sus características estructurales, exhiben fragilidad cuando se emparejan con tokens adyacentes desconocidos, incluso si estos tokens están suficientemente entrenados.

Contribuciones Principales

Identificación de vulnerabilidades en tokens incompletos: Análisis sistemático de características estructurales y problemas potenciales de tokens incompletos en tokenizadores BPE a nivel de bytes
Propuesta del concepto de "bigramas improbables": Diseño de un nuevo método de ataque para exponer vulnerabilidades de tokens incompletos
Verificación entre modelos: Validación de la prevalencia generalizada de esta vulnerabilidad en 5 modelos de lenguaje grandes principales
Provisión de estrategias de mitigación: Demostración de la resolubilidad del problema mediante métodos de tokenización alternativos y proposición de medidas preventivas

Explicación Detallada del Método

Definición de la Tarea

Entrada: Frases de texto que contienen tokens incompletos Salida: Respuestas del modelo a tareas repetidas Objetivo: Identificar combinaciones de tokens que impiden que el modelo repita correctamente la frase de entrada

Método de Análisis de Tokens Incompletos

1. Análisis Estructural

Análisis de codificación UTF-8: Basado en la estructura de bytes iniciales y bytes de continuación de caracteres multibyte UTF-8
Clasificación de prefijo/sufijo:
- Token de prefijo: Termina con bytes sueltos, requiere bytes adicionales para completar el carácter
- Token de sufijo: Comienza con bytes sueltos, proporciona bytes necesarios para completar el carácter

2. Flujo de Construcción de Bigramas

Paso 1: Análisis Estructural
- Identificar bytes iniciales y bytes de continuación en el token
- Determinar el número de bytes que el token necesita o proporciona

Paso 2: Compatibilidad de Emparejamiento
- Buscar pares de tokens con estructura complementaria
- Asegurar que la combinación forme caracteres Unicode válidos

Paso 3: Validación de Viabilidad
- Ejecutar prueba de decodificación-codificación
- Verificar que la cadena generada se tokenice como se espera

Características de Bigramas Improbables

Multilingüismo: Los caracteres combinados provienen de diferentes sistemas de escritura Unicode
Características fuera de distribución: Esta combinación entre escrituras es extremadamente improbable en datos de entrenamiento
Dependencia estructural: Los dos tokens deben trabajar juntos para formar caracteres válidos

Puntos de Innovación Técnica

Descubrimiento sistemático de vulnerabilidades: Primera identificación sistemática de vulnerabilidades estructurales en BPE a nivel de bytes
Construcción de ataques precisos: Construcción precisa de muestras de ataque basada en reglas de codificación UTF-8
Independencia de calidad de entrenamiento: Demostración de que incluso tokens suficientemente entrenados pueden presentar vulnerabilidades

Configuración Experimental

Selección de Modelos

Se probaron 5 modelos de ajuste fino de instrucciones que utilizan BPE a nivel de bytes:

Meta-Llama-3.1-8B-Instruct (vocabulario 128k, 1224 tokens incompletos)
EXAONE-3.0-7.8B-Instruct (vocabulario 102k, 1222 tokens incompletos)
Qwen2.5-32B-Instruct (vocabulario 151k, 1320 tokens incompletos)
Mistral-Nemo-Instruct-2407 (vocabulario 131k, 1307 tokens incompletos)
C4AI-Command-R-v01 (vocabulario 255k, 2956 tokens incompletos)

Diseño de Tareas de Evaluación

Se utilizaron 4 plantillas de indicaciones para probar la capacidad del modelo de repetir frases objetivo:

Tipo de Tarea	Plantilla de Indicación
Repetición Directa	"Repeat this phrase exactly: '{Phrase}'"
Consulta de Definición	"What does '{Phrase}' mean?"
Consulta de Conocimiento	"Today I heard about '{Phrase}'. Do you know what this means?"
Escenario de Código	Salida de lista de nombres de usuario en código Python

Estrategia de Selección de Tokens

Filtrado de calidad de entrenamiento: Uso del método heurístico de incrustación de Land y Bartolo (2024) para excluir tokens insuficientemente entrenados
Enfoque en tokens suficientemente entrenados: Uso exclusivo de tokens en el top 50% de clasificación de calidad de entrenamiento del vocabulario
Construcción de bigramas improbables: Construcción de hasta 100 bigramas improbables por modelo

Comparación de Línea Base

Construcción de grupo de control con tokens completos para cada bigrama improbable:

Selección de sustitutos con grado de entrenamiento similar pero tokens completos
Aseguración de equidad en experimentos de control

Resultados Experimentales

Resultados Principales

Modelo	Tasa de Alucinación de Bigramas Improbables	Tasa de Alucinación de Bigramas Base
Llama 3.1	48/100 (48%)	0/100 (0%)
Exaone	77/100 (77%)	20/100 (20%)
Qwen2.5	33/100 (33%)	0/100 (0%)
Mistral-Nemo	52/71 (73%)	1/71 (1%)
Command-R	49/100 (49%)	8/100 (8%)

Hallazgos clave: Los bigramas improbables compuestos por tokens incompletos exhiben tasas de alucinación significativamente más altas en todos los modelos.

Resultados de Experimentos de Tokenización Alternativa

Modelo	Tasa de Alucinación de Tokenización Original	Tasa de Alucinación de Tokenización Alternativa	Grado de Mejora
Llama 3.1	0.48	0.05	↓90%
Exaone	0.77	0.50	↓35%
Qwen2.5	0.33	0.12	↓64%
Mistral-Nemo	0.73	0.01	↓98%
Command-R	0.49	0.55	Sin mejora

Hallazgo importante: Con excepción de Command-R, todos los modelos muestran reducciones significativas en tasas de alucinación al utilizar tokenización alternativa, demostrando que el problema se origina efectivamente en tokens incompletos.

Análisis de Distribución Lingüística

Los bigramas improbables abarcan múltiples combinaciones de pares lingüísticos
Los scripts multibyte de alto recurso (chino, coreano, ruso) tienen la frecuencia más alta
Las distribuciones de pares lingüísticos varían significativamente entre modelos (Exaone tiene 17 pares lingüísticos, Command-R solo 3)

Trabajo Relacionado

Investigación de Vulnerabilidades de Tokenizadores

Investigación de tokens defectuosos: Land y Bartolo (2024) proponen método heurístico de capa de incrustación para identificar tokens insuficientemente entrenados
Tokenización adversarial: Wang et al. (2024) crean problemas adversariales que inducen tokenización errónea
Equidad de tokenizadores: Petrov et al. (2023) y Ovalle et al. (2024) investigan injusticia y sesgo introducidos por tokenizadores

Investigación de Tokenizadores BPE

Cuestionamiento de efectos de compresión: Schmidt et al. (2024) cuestionan la suposición de que la efectividad de BPE proviene de compresión
Problemas de compresión codiciosa: Bostrom y Durrett (2020) señalan que la compresión codiciosa prioriza frecuencia sobre significado lingüístico
Mejoras morfológicas: Limisiewicz et al. (2024) y Bauwens et al. (2024) proponen mejoras de BPE impulsadas por morfología

Singularidad de la Contribución de Este Artículo

A diferencia de investigaciones existentes, este artículo:

Se enfoca en problemas estructurales en lugar de calidad de entrenamiento
Demuestra que tokens suficientemente entrenados aún pueden ser frágiles
Proporciona método sistemático de construcción de ataques

Conclusiones y Discusión

Conclusiones Principales

Vulnerabilidad sistemática en tokens incompletos: Incluso cuando están suficientemente entrenados, los tokens incompletos en combinaciones específicas tienden a causar alucinaciones
Problema originado en tokenización, no en entrenamiento: La tokenización alternativa mejora significativamente el problema, demostrando que la raíz está en la estructura del token
Impacto generalizado: Este problema existe ampliamente en múltiples modelos principales

Riesgos Prácticos

Procesamiento de código y datos: Puede comprometer la integridad de nombres de variables o valores fijos
Irreproducibilidad adversarial: Los atacantes pueden explotar frases no repetibles para evadir intervención de agentes LLM
Identificación de huellas dactilares de modelos: Puede usarse para identificar la arquitectura detrás de servicios LLM anónimos

Estrategias de Mitigación

Poda de vocabulario: Eliminación de tokens incompletos antes del entrenamiento del modelo
Fusiones BPE restringidas: Respeto de límites de caracteres durante el entrenamiento del tokenizador
Tokenización a nivel de caracteres: Para modelos que no requieren cobertura Unicode completa, puede considerarse tokenización a nivel de caracteres

Limitaciones

Alcance de evaluación: Limitado a alucinaciones a nivel de frase, sin evaluación sistemática de alucinaciones de hechos
Especialización lingüística: Las frases de prueba abarcan múltiples idiomas, más allá del alcance de especialización de los autores
Especificidad del modelo: Los resultados anómalos del modelo Command-R requieren investigación adicional

Direcciones Futuras

Diseño de tokenizadores más seguros: Desarrollo de métodos de tokenización que eviten tokens incompletos
Evaluación de robustez: Establecimiento de marco de evaluación más completo de vulnerabilidades de tokenización
Investigación de mecanismos de defensa: Exploración de estrategias de detección y mitigación en tiempo de ejecución

Evaluación Profunda

Fortalezas

Originalidad en identificación de problemas: Primera identificación sistemática de vulnerabilidades estructurales en BPE a nivel de bytes
Rigor metodológico: Construcción precisa de ataques basada en reglas de codificación UTF-8, diseño experimental completo
Completitud experimental: Verificación entre múltiples modelos e idiomas, resultados convincentes
Valor práctico: Provisión de estrategias de mitigación concretas y recomendaciones de seguridad

Insuficiencias

Análisis teórico insuficiente: Falta de explicación teórica profunda sobre por qué los tokens incompletos son más frágiles
Anomalía de Command-R sin explicación: Análisis insuficiente de resultados anómalos en este modelo
Limitaciones de métricas de evaluación: Uso exclusivo de tarea de repetición, puede no reflejar completamente daños reales
Impacto a largo plazo desconocido: Sin evaluación del impacto de esta vulnerabilidad en otras capacidades del modelo

Impacto

Contribución académica: Abre nueva dirección en investigación de seguridad de tokenizadores
Valor práctico: Proporciona consideraciones de seguridad importantes para desarrolladores de modelos
Reproducibilidad: Descripción clara de métodos, experimentos reproducibles
Significado de política: Puede influir en estándares de diseño de tokenizadores futuros

Escenarios Aplicables

Evaluación de seguridad de modelos: Evaluación de vulnerabilidades de tokenización en modelos existentes
Diseño de tokenizadores: Guía para desarrollo de tokenizadores más seguros
Pruebas adversariales: Como parte de pruebas de robustez de modelos
Auditoría de seguridad: Para verificaciones de seguridad previas al despliegue de LLM

Referencias

Referencias Clave:

Land, S. & Bartolo, M. (2024). Fishing for magikarp: Automatically detecting under-trained tokens in large language models.
Bostrom, K. & Durrett, G. (2020). Byte pair encoding is suboptimal for language model pretraining.
Sennrich, R., Haddow, B., & Birch, A. (2016). Neural machine translation of rare words with subword units.
Limisiewicz, T. et al. (2024). MYTE: Morphology-driven byte encoding for better and fairer multilingual language modeling.

Evaluación General: Este es un artículo de investigación de alta calidad que identifica una vulnerabilidad de seguridad importante en tokenizadores BPE a nivel de bytes. Aunque presenta algunas limitaciones, su originalidad, rigor experimental y valor práctico lo convierten en una contribución importante en el campo de investigación de seguridad de tokenizadores. Esta investigación tiene importancia significativa para mejorar la seguridad y robustez de modelos de lenguaje grandes.