2025-11-12T07:34:10.386378

Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers

Jang, Lee, Chung et al.
Tokenization is a crucial step that bridges human-readable text with model-readable discrete tokens. However, recent studies have revealed that tokenizers can be exploited to elicit unwanted model behaviors. In this work, we investigate incomplete tokens, i.e., undecodable tokens with stray bytes resulting from byte-level byte-pair encoding (BPE) tokenization. We hypothesize that such tokens are heavily reliant on their adjacent tokens and are fragile when paired with unfamiliar tokens. To demonstrate this vulnerability, we introduce improbable bigrams: out-of-distribution combinations of incomplete tokens designed to exploit their dependency. Our experiments show that improbable bigrams are significantly prone to hallucinatory behaviors. Surprisingly, the same phrases have drastically lower rates of hallucination (90% reduction in Llama3.1) when an alternative tokenization is used. We caution against the potential vulnerabilities introduced by byte-level BPE tokenizers, which may introduce blind spots to language models.
academic

Bigramas Improbables Exponen Vulnerabilidades de Tokens Incompletos en Tokenizadores a Nivel de Bytes

Información Básica

  • ID del Artículo: 2410.23684
  • Título: Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers
  • Autores: Eugene Jang (Northeastern University), Kimin Lee (KAIST), Jin-Woo Chung (S2W Inc.), Keuntae Park (S2W Inc.), Seungwon Shin (KAIST)
  • Clasificación: cs.CL (Lingüística Computacional)
  • Fecha de Publicación: Octubre de 2024 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2410.23684

Resumen

Este artículo investiga la vulnerabilidad de tokens incompletos en codificadores de pares de bytes (BPE) a nivel de bytes. Los autores descubren que estos tokens incompletos, que contienen bytes sueltos, dependen fuertemente de tokens adyacentes y presentan problemas cuando se emparejan con tokens desconocidos. Mediante la construcción de "bigramas improbables" —combinaciones fuera de distribución de tokens incompletos— los autores demuestran que esta vulnerabilidad conduce a comportamientos de alucinación significativos. Los experimentos muestran que al utilizar métodos de tokenización alternativos, la tasa de alucinación de frases similares se reduce drásticamente (reducción del 90% en Llama3.1).

Antecedentes de Investigación y Motivación

Problema Central

El problema central que aborda este artículo es la vulnerabilidad de tokens incompletos en tokenizadores BPE a nivel de bytes, que conducen a comportamientos de alucinación en modelos de lenguaje grandes.

Importancia del Problema

  1. Papel crítico de la tokenización: La tokenización es un paso crucial que conecta el texto legible por humanos con tokens discretos procesables por modelos
  2. Riesgos de seguridad existentes: Investigaciones recientes demuestran que los tokenizadores pueden ser explotados maliciosamente para inducir comportamientos inapropiados en modelos
  3. Daños prácticos: Los problemas de tokenización pueden conducir a pérdida de integridad de datos, ataques adversariales, identificación de huellas dactilares de modelos y otros riesgos de seguridad

Limitaciones de Métodos Existentes

  • La investigación existente se enfoca principalmente en "tokens defectuosos" (glitch tokens) insuficientemente entrenados
  • Falta análisis sistemático de problemas de tokenización estructurales
  • La independencia de límites de caracteres en BPE a nivel de bytes puede producir tokens estructuralmente frágiles

Motivación de la Investigación

Los autores hipotetiza que los tokens incompletos, debido a sus características estructurales, exhiben fragilidad cuando se emparejan con tokens adyacentes desconocidos, incluso si estos tokens están suficientemente entrenados.

Contribuciones Principales

  1. Identificación de vulnerabilidades en tokens incompletos: Análisis sistemático de características estructurales y problemas potenciales de tokens incompletos en tokenizadores BPE a nivel de bytes
  2. Propuesta del concepto de "bigramas improbables": Diseño de un nuevo método de ataque para exponer vulnerabilidades de tokens incompletos
  3. Verificación entre modelos: Validación de la prevalencia generalizada de esta vulnerabilidad en 5 modelos de lenguaje grandes principales
  4. Provisión de estrategias de mitigación: Demostración de la resolubilidad del problema mediante métodos de tokenización alternativos y proposición de medidas preventivas

Explicación Detallada del Método

Definición de la Tarea

Entrada: Frases de texto que contienen tokens incompletos Salida: Respuestas del modelo a tareas repetidas Objetivo: Identificar combinaciones de tokens que impiden que el modelo repita correctamente la frase de entrada

Método de Análisis de Tokens Incompletos

1. Análisis Estructural

  • Análisis de codificación UTF-8: Basado en la estructura de bytes iniciales y bytes de continuación de caracteres multibyte UTF-8
  • Clasificación de prefijo/sufijo:
    • Token de prefijo: Termina con bytes sueltos, requiere bytes adicionales para completar el carácter
    • Token de sufijo: Comienza con bytes sueltos, proporciona bytes necesarios para completar el carácter

2. Flujo de Construcción de Bigramas

Paso 1: Análisis Estructural
- Identificar bytes iniciales y bytes de continuación en el token
- Determinar el número de bytes que el token necesita o proporciona

Paso 2: Compatibilidad de Emparejamiento
- Buscar pares de tokens con estructura complementaria
- Asegurar que la combinación forme caracteres Unicode válidos

Paso 3: Validación de Viabilidad
- Ejecutar prueba de decodificación-codificación
- Verificar que la cadena generada se tokenice como se espera

Características de Bigramas Improbables

  1. Multilingüismo: Los caracteres combinados provienen de diferentes sistemas de escritura Unicode
  2. Características fuera de distribución: Esta combinación entre escrituras es extremadamente improbable en datos de entrenamiento
  3. Dependencia estructural: Los dos tokens deben trabajar juntos para formar caracteres válidos

Puntos de Innovación Técnica

  1. Descubrimiento sistemático de vulnerabilidades: Primera identificación sistemática de vulnerabilidades estructurales en BPE a nivel de bytes
  2. Construcción de ataques precisos: Construcción precisa de muestras de ataque basada en reglas de codificación UTF-8
  3. Independencia de calidad de entrenamiento: Demostración de que incluso tokens suficientemente entrenados pueden presentar vulnerabilidades

Configuración Experimental

Selección de Modelos

Se probaron 5 modelos de ajuste fino de instrucciones que utilizan BPE a nivel de bytes:

  • Meta-Llama-3.1-8B-Instruct (vocabulario 128k, 1224 tokens incompletos)
  • EXAONE-3.0-7.8B-Instruct (vocabulario 102k, 1222 tokens incompletos)
  • Qwen2.5-32B-Instruct (vocabulario 151k, 1320 tokens incompletos)
  • Mistral-Nemo-Instruct-2407 (vocabulario 131k, 1307 tokens incompletos)
  • C4AI-Command-R-v01 (vocabulario 255k, 2956 tokens incompletos)

Diseño de Tareas de Evaluación

Se utilizaron 4 plantillas de indicaciones para probar la capacidad del modelo de repetir frases objetivo:

Tipo de TareaPlantilla de Indicación
Repetición Directa"Repeat this phrase exactly: '{Phrase}'"
Consulta de Definición"What does '{Phrase}' mean?"
Consulta de Conocimiento"Today I heard about '{Phrase}'. Do you know what this means?"
Escenario de CódigoSalida de lista de nombres de usuario en código Python

Estrategia de Selección de Tokens

  1. Filtrado de calidad de entrenamiento: Uso del método heurístico de incrustación de Land y Bartolo (2024) para excluir tokens insuficientemente entrenados
  2. Enfoque en tokens suficientemente entrenados: Uso exclusivo de tokens en el top 50% de clasificación de calidad de entrenamiento del vocabulario
  3. Construcción de bigramas improbables: Construcción de hasta 100 bigramas improbables por modelo

Comparación de Línea Base

Construcción de grupo de control con tokens completos para cada bigrama improbable:

  • Selección de sustitutos con grado de entrenamiento similar pero tokens completos
  • Aseguración de equidad en experimentos de control

Resultados Experimentales

Resultados Principales

ModeloTasa de Alucinación de Bigramas ImprobablesTasa de Alucinación de Bigramas Base
Llama 3.148/100 (48%)0/100 (0%)
Exaone77/100 (77%)20/100 (20%)
Qwen2.533/100 (33%)0/100 (0%)
Mistral-Nemo52/71 (73%)1/71 (1%)
Command-R49/100 (49%)8/100 (8%)

Hallazgos clave: Los bigramas improbables compuestos por tokens incompletos exhiben tasas de alucinación significativamente más altas en todos los modelos.

Resultados de Experimentos de Tokenización Alternativa

ModeloTasa de Alucinación de Tokenización OriginalTasa de Alucinación de Tokenización AlternativaGrado de Mejora
Llama 3.10.480.05↓90%
Exaone0.770.50↓35%
Qwen2.50.330.12↓64%
Mistral-Nemo0.730.01↓98%
Command-R0.490.55Sin mejora

Hallazgo importante: Con excepción de Command-R, todos los modelos muestran reducciones significativas en tasas de alucinación al utilizar tokenización alternativa, demostrando que el problema se origina efectivamente en tokens incompletos.

Análisis de Distribución Lingüística

  • Los bigramas improbables abarcan múltiples combinaciones de pares lingüísticos
  • Los scripts multibyte de alto recurso (chino, coreano, ruso) tienen la frecuencia más alta
  • Las distribuciones de pares lingüísticos varían significativamente entre modelos (Exaone tiene 17 pares lingüísticos, Command-R solo 3)

Trabajo Relacionado

Investigación de Vulnerabilidades de Tokenizadores

  1. Investigación de tokens defectuosos: Land y Bartolo (2024) proponen método heurístico de capa de incrustación para identificar tokens insuficientemente entrenados
  2. Tokenización adversarial: Wang et al. (2024) crean problemas adversariales que inducen tokenización errónea
  3. Equidad de tokenizadores: Petrov et al. (2023) y Ovalle et al. (2024) investigan injusticia y sesgo introducidos por tokenizadores

Investigación de Tokenizadores BPE

  1. Cuestionamiento de efectos de compresión: Schmidt et al. (2024) cuestionan la suposición de que la efectividad de BPE proviene de compresión
  2. Problemas de compresión codiciosa: Bostrom y Durrett (2020) señalan que la compresión codiciosa prioriza frecuencia sobre significado lingüístico
  3. Mejoras morfológicas: Limisiewicz et al. (2024) y Bauwens et al. (2024) proponen mejoras de BPE impulsadas por morfología

Singularidad de la Contribución de Este Artículo

A diferencia de investigaciones existentes, este artículo:

  • Se enfoca en problemas estructurales en lugar de calidad de entrenamiento
  • Demuestra que tokens suficientemente entrenados aún pueden ser frágiles
  • Proporciona método sistemático de construcción de ataques

Conclusiones y Discusión

Conclusiones Principales

  1. Vulnerabilidad sistemática en tokens incompletos: Incluso cuando están suficientemente entrenados, los tokens incompletos en combinaciones específicas tienden a causar alucinaciones
  2. Problema originado en tokenización, no en entrenamiento: La tokenización alternativa mejora significativamente el problema, demostrando que la raíz está en la estructura del token
  3. Impacto generalizado: Este problema existe ampliamente en múltiples modelos principales

Riesgos Prácticos

  1. Procesamiento de código y datos: Puede comprometer la integridad de nombres de variables o valores fijos
  2. Irreproducibilidad adversarial: Los atacantes pueden explotar frases no repetibles para evadir intervención de agentes LLM
  3. Identificación de huellas dactilares de modelos: Puede usarse para identificar la arquitectura detrás de servicios LLM anónimos

Estrategias de Mitigación

  1. Poda de vocabulario: Eliminación de tokens incompletos antes del entrenamiento del modelo
  2. Fusiones BPE restringidas: Respeto de límites de caracteres durante el entrenamiento del tokenizador
  3. Tokenización a nivel de caracteres: Para modelos que no requieren cobertura Unicode completa, puede considerarse tokenización a nivel de caracteres

Limitaciones

  1. Alcance de evaluación: Limitado a alucinaciones a nivel de frase, sin evaluación sistemática de alucinaciones de hechos
  2. Especialización lingüística: Las frases de prueba abarcan múltiples idiomas, más allá del alcance de especialización de los autores
  3. Especificidad del modelo: Los resultados anómalos del modelo Command-R requieren investigación adicional

Direcciones Futuras

  1. Diseño de tokenizadores más seguros: Desarrollo de métodos de tokenización que eviten tokens incompletos
  2. Evaluación de robustez: Establecimiento de marco de evaluación más completo de vulnerabilidades de tokenización
  3. Investigación de mecanismos de defensa: Exploración de estrategias de detección y mitigación en tiempo de ejecución

Evaluación Profunda

Fortalezas

  1. Originalidad en identificación de problemas: Primera identificación sistemática de vulnerabilidades estructurales en BPE a nivel de bytes
  2. Rigor metodológico: Construcción precisa de ataques basada en reglas de codificación UTF-8, diseño experimental completo
  3. Completitud experimental: Verificación entre múltiples modelos e idiomas, resultados convincentes
  4. Valor práctico: Provisión de estrategias de mitigación concretas y recomendaciones de seguridad

Insuficiencias

  1. Análisis teórico insuficiente: Falta de explicación teórica profunda sobre por qué los tokens incompletos son más frágiles
  2. Anomalía de Command-R sin explicación: Análisis insuficiente de resultados anómalos en este modelo
  3. Limitaciones de métricas de evaluación: Uso exclusivo de tarea de repetición, puede no reflejar completamente daños reales
  4. Impacto a largo plazo desconocido: Sin evaluación del impacto de esta vulnerabilidad en otras capacidades del modelo

Impacto

  1. Contribución académica: Abre nueva dirección en investigación de seguridad de tokenizadores
  2. Valor práctico: Proporciona consideraciones de seguridad importantes para desarrolladores de modelos
  3. Reproducibilidad: Descripción clara de métodos, experimentos reproducibles
  4. Significado de política: Puede influir en estándares de diseño de tokenizadores futuros

Escenarios Aplicables

  1. Evaluación de seguridad de modelos: Evaluación de vulnerabilidades de tokenización en modelos existentes
  2. Diseño de tokenizadores: Guía para desarrollo de tokenizadores más seguros
  3. Pruebas adversariales: Como parte de pruebas de robustez de modelos
  4. Auditoría de seguridad: Para verificaciones de seguridad previas al despliegue de LLM

Referencias

Referencias Clave:

  • Land, S. & Bartolo, M. (2024). Fishing for magikarp: Automatically detecting under-trained tokens in large language models.
  • Bostrom, K. & Durrett, G. (2020). Byte pair encoding is suboptimal for language model pretraining.
  • Sennrich, R., Haddow, B., & Birch, A. (2016). Neural machine translation of rare words with subword units.
  • Limisiewicz, T. et al. (2024). MYTE: Morphology-driven byte encoding for better and fairer multilingual language modeling.

Evaluación General: Este es un artículo de investigación de alta calidad que identifica una vulnerabilidad de seguridad importante en tokenizadores BPE a nivel de bytes. Aunque presenta algunas limitaciones, su originalidad, rigor experimental y valor práctico lo convierten en una contribución importante en el campo de investigación de seguridad de tokenizadores. Esta investigación tiene importancia significativa para mejorar la seguridad y robustez de modelos de lenguaje grandes.