2025-11-12T07:34:10.386378

Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers

Jang, Lee, Chung et al.

Tokenization is a crucial step that bridges human-readable text with model-readable discrete tokens. However, recent studies have revealed that tokenizers can be exploited to elicit unwanted model behaviors. In this work, we investigate incomplete tokens, i.e., undecodable tokens with stray bytes resulting from byte-level byte-pair encoding (BPE) tokenization. We hypothesize that such tokens are heavily reliant on their adjacent tokens and are fragile when paired with unfamiliar tokens. To demonstrate this vulnerability, we introduce improbable bigrams: out-of-distribution combinations of incomplete tokens designed to exploit their dependency. Our experiments show that improbable bigrams are significantly prone to hallucinatory behaviors. Surprisingly, the same phrases have drastically lower rates of hallucination (90% reduction in Llama3.1) when an alternative tokenization is used. We caution against the potential vulnerabilities introduced by byte-level BPE tokenizers, which may introduce blind spots to language models.

academic

Невероятные биграммы выявляют уязвимости неполных токенов в байт-уровневых токенизаторах

Основная информация

ID статьи: 2410.23684
Название: Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers
Авторы: Eugene Jang (Northeastern University), Kimin Lee (KAIST), Jin-Woo Chung (S2W Inc.), Keuntae Park (S2W Inc.), Seungwon Shin (KAIST)
Категория: cs.CL (Вычислительная лингвистика)
Дата публикации: Октябрь 2024 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2410.23684

Аннотация

В данной работе исследуется проблема уязвимости неполных токенов в байт-уровневом кодировании пар байтов (BPE) при токенизации. Авторы обнаружили, что эти неполные токены, содержащие свободные байты, сильно зависят от соседних токенов и подвержены проблемам при сочетании с незнакомыми токенами. Путём конструирования «невероятных биграмм» — распределённых вне области комбинаций неполных токенов — авторы доказали, что такая уязвимость приводит к значительному галлюцинированию. Эксперименты показывают, что при использовании альтернативных методов токенизации частота галлюцинаций для одних и тех же фраз значительно снижается (на 90% в Llama3.1).

Исследовательский контекст и мотивация

Основная проблема

Основная проблема, которую решает данная работа, — это уязвимость неполных токенов в байт-уровневых BPE-токенизаторах, которые приводят к галлюцинированию в больших языковых моделях.

Важность проблемы

Ключевая роль токенизации: Токенизация — это критический этап, связывающий читаемый человеком текст с дискретными токенами, обрабатываемыми моделью
Существующие угрозы безопасности: Недавние исследования показывают, что токенизаторы могут быть злонамеренно использованы для провоцирования ненадлежащего поведения модели
Практический вред: Проблемы токенизации могут привести к потере целостности данных, противодействующим атакам, идентификации отпечатков моделей и другим рискам безопасности

Ограничения существующих подходов

Существующие исследования в основном сосредоточены на недообученных «сбойных токенах» (glitch tokens)
Отсутствует систематический анализ структурных проблем токенизации
Независимость от границ символов в байт-уровневом BPE может создавать структурные уязвимые токены

Исследовательская мотивация

Авторы предполагают, что неполные токены, благодаря своим структурным характеристикам, проявляют уязвимость при сочетании с незнакомыми соседними токенами, даже если эти токены сами по себе хорошо обучены.

Основные вклады

Выявление уязвимости неполных токенов: Систематический анализ структурных характеристик и потенциальных проблем неполных токенов в байт-уровневых BPE-токенизаторах
Введение концепции «невероятных биграмм»: Разработка нового метода атаки для выявления уязвимостей неполных токенов
Кросс-модельная верификация: Проверка универсальности уязвимости на пяти основных больших языковых моделях
Предоставление стратегий смягчения: Демонстрация разрешимости проблемы через альтернативные методы токенизации и предложение профилактических мер

Подробное описание методологии

Определение задачи

Входные данные: Текстовые фразы, содержащие неполные токены Выходные данные: Ответы модели на повторяющиеся задачи Цель: Выявление комбинаций токенов, которые приводят к неспособности модели правильно повторить входную фразу

Метод анализа неполных токенов

1. Структурный анализ

Анализ кодирования UTF-8: На основе структуры начальных и продолжающих байтов многобайтовых символов UTF-8
Классификация префиксов/суффиксов:
- Токены-префиксы: заканчиваются свободным байтом, требуют дополнительных байтов для завершения символа
- Токены-суффиксы: начинаются со свободного байта, предоставляют байты, необходимые для завершения символа

2. Процесс конструирования биграмм

Шаг 1: Структурный анализ
- Выявление начальных и продолжающих байтов в токене
- Определение количества требуемых или предоставляемых байтов

Шаг 2: Проверка совместимости
- Поиск структурно дополняющих пар токенов
- Обеспечение того, чтобы комбинация образовывала действительный символ Unicode

Шаг 3: Проверка осуществимости
- Выполнение теста декодирования-кодирования
- Проверка того, что полученная строка действительно токенизируется как ожидается

Характеристики невероятных биграмм

Многоязычность: Комбинированные символы происходят из различных систем письма Unicode
Распределение вне области: Такие кросс-скриптовые комбинации крайне маловероятны в данных обучения
Структурная зависимость: Два токена должны работать вместе для образования действительного символа

Технические инновации

Систематическое выявление уязвимостей: Первое систематическое выявление структурных уязвимостей байт-уровневого BPE
Точное конструирование атак: Точное конструирование образцов атак на основе правил кодирования UTF-8
Независимость от качества обучения: Доказательство того, что даже хорошо обученные токены могут быть уязвимы

Экспериментальная установка

Выбор моделей

Протестированы пять моделей с инструкциями по тонкой настройке, использующих байт-уровневый BPE:

Meta-Llama-3.1-8B-Instruct (словарь 128k, 1224 неполных токена)
EXAONE-3.0-7.8B-Instruct (словарь 102k, 1222 неполных токена)
Qwen2.5-32B-Instruct (словарь 151k, 1320 неполных токенов)
Mistral-Nemo-Instruct-2407 (словарь 131k, 1307 неполных токенов)
C4AI-Command-R-v01 (словарь 255k, 2956 неполных токенов)

Проектирование оценочных задач

Использованы четыре шаблона подсказок для проверки способности модели повторять целевые фразы:

Тип задачи	Шаблон подсказки
Прямое повторение	"Repeat this phrase exactly: '{Phrase}'"
Запрос определения	"What does '{Phrase}' mean?"
Запрос знаний	"Today I heard about '{Phrase}'. Do you know what this means?"
Сценарий кода	Вывод списка имён пользователей в коде Python

Стратегия выбора токенов

Фильтрация качества обучения: Использование эвристического метода встраивания Land и Bartolo (2024) для исключения недообученных токенов
Фокус на хорошо обученные токены: Использование только токенов из верхних 50% по качеству обучения в словаре
Конструирование невероятных биграмм: Конструирование до 100 невероятных биграмм для каждой модели

Базовое сравнение

Конструирование контрольной группы с полными токенами для каждой невероятной биграммы:

Выбор альтернатив с аналогичной степенью обучения, но полных токенов
Обеспечение справедливости контрольных экспериментов

Результаты экспериментов

Основные результаты

Модель	Частота галлюцинаций невероятных биграмм	Частота галлюцинаций базовых биграмм
Llama 3.1	48/100 (48%)	0/100 (0%)
Exaone	77/100 (77%)	20/100 (20%)
Qwen2.5	33/100 (33%)	0/100 (0%)
Mistral-Nemo	52/71 (73%)	1/71 (1%)
Command-R	49/100 (49%)	8/100 (8%)

Ключевые находки: Невероятные биграммы, состоящие из неполных токенов, демонстрируют значительно более высокую частоту галлюцинаций на всех моделях.

Результаты экспериментов с альтернативной токенизацией

Модель	Частота галлюцинаций исходной токенизации	Частота галлюцинаций альтернативной токенизации	Степень улучшения
Llama 3.1	0.48	0.05	↓90%
Exaone	0.77	0.50	↓35%
Qwen2.5	0.33	0.12	↓64%
Mistral-Nemo	0.73	0.01	↓98%
Command-R	0.49	0.55	Без улучшения

Важные находки: За исключением Command-R, частота галлюцинаций всех моделей значительно снижается при использовании альтернативной токенизации, что доказывает, что проблема действительно вызвана неполными токенами.

Анализ языкового распределения

Невероятные биграммы охватывают комбинации различных языковых пар
Высокоресурсные многобайтовые системы письма (китайский, корейский, русский) встречаются наиболее часто
Распределение языковых пар значительно различается между моделями (Exaone имеет 17 языковых пар, Command-R только 3)

Связанные работы

Исследования уязвимостей токенизаторов

Исследования сбойных токенов: Land и Bartolo (2024) предложили эвристический метод встраивания для выявления недообученных токенов
Противодействующая токенизация: Wang и др. (2024) создали противодействующие проблемы для провоцирования ошибок токенизации
Справедливость токенизации: Petrov и др. (2023) и Ovalle и др. (2024) исследовали несправедливость и предвзятость, вводимые токенизаторами

Исследования BPE-токенизаторов

Сомнения в эффективности сжатия: Schmidt и др. (2024) оспорили предположение, что эффективность BPE вытекает из сжатия
Проблемы жадного сжатия: Bostrom и Durrett (2020) указали, что жадное сжатие отдаёт приоритет частоте, а не лингвистическому значению
Морфологические улучшения: Limisiewicz и др. (2024) и Bauwens и др. (2024) предложили морфологически управляемые улучшения BPE

Уникальность вклада данной работы

В отличие от существующих исследований, данная работа:

Сосредоточена на структурных, а не на проблемах качества обучения
Доказывает, что хорошо обученные токены всё ещё могут быть уязвимы
Предоставляет систематический метод конструирования атак

Заключение и обсуждение

Основные выводы

Неполные токены имеют систематические уязвимости: Даже хорошо обученные неполные токены подвержены галлюцинированию при определённых комбинациях
Проблема вызвана токенизацией, а не обучением: Альтернативная токенизация значительно улучшает проблему, доказывая, что корень находится в структуре токена
Широкое влияние: Проблема широко распространена в нескольких основных моделях

Практические риски

Обработка кода и данных: Может нарушить целостность имён переменных или фиксированных значений
Противодействующая неповторяемость: Злоумышленники могут использовать неповторяемые фразы для уклонения от вмешательства агентов LLM
Идентификация отпечатков моделей: Может использоваться для выявления архитектуры за анонимными сервисами LLM

Стратегии смягчения

Обрезка словаря: Удаление неполных токенов перед обучением модели
Ограниченное слияние BPE: Соблюдение границ символов при обучении токенизатора
Токенизация на уровне символов: Для моделей, не требующих полного покрытия Unicode, возможен выбор токенизации на уровне символов

Ограничения

Диапазон оценки: Ограничено галлюцинированием на уровне фраз, без систематической оценки фактического галлюцинирования
Языковая специализация: Тестовые фразы охватывают несколько языков, выходящих за пределы специализации авторов
Специфичность модели: Аномальные результаты модели Command-R требуют дальнейшего исследования

Направления будущих исследований

Более безопасное проектирование токенизаторов: Разработка методов токенизации, избегающих неполных токенов
Оценка устойчивости: Создание более полной структуры оценки уязвимостей токенизаторов
Исследование механизмов защиты: Изучение стратегий обнаружения и смягчения во время выполнения

Глубокая оценка

Преимущества

Оригинальность выявления проблемы: Первое систематическое выявление структурных уязвимостей байт-уровневого BPE
Методологическая строгость: Точное конструирование атак на основе правил кодирования UTF-8, хорошо спланированный дизайн экспериментов
Полнота экспериментов: Проверка на нескольких моделях и языках, убедительные результаты
Практическая ценность: Предоставление конкретных стратегий смягчения и рекомендаций по безопасности

Недостатки

Недостаточность теоретического анализа: Отсутствие глубокого теоретического объяснения, почему неполные токены более уязвимы
Неполный анализ аномалий Command-R: Анализ аномальных результатов этой модели недостаточно глубок
Ограничения метрик оценки: Использование только задач повторения для оценки может не полностью отражать реальный вред
Неизвестное долгосрочное влияние: Отсутствие оценки влияния этой уязвимости на другие способности модели

Влияние

Академический вклад: Открытие ного направления в исследованиях безопасности токенизаторов
Практическая ценность: Предоставление разработчикам моделей важных соображений безопасности
Воспроизводимость: Ясное описание методов, эксперименты могут быть воспроизведены
Политическое значение: Может повлиять на стандарты проектирования будущих токенизаторов

Применимые сценарии

Оценка безопасности моделей: Оценка уязвимостей токенизации существующих моделей
Проектирование токенизаторов: Руководство для разработки более безопасных токенизаторов
Противодействующее тестирование: Часть тестирования устойчивости моделей
Аудит безопасности: Проверка безопасности перед развёртыванием LLM

Библиография

Ключевые ссылки:

Land, S. & Bartolo, M. (2024). Fishing for magikarp: Automatically detecting under-trained tokens in large language models.
Bostrom, K. & Durrett, G. (2020). Byte pair encoding is suboptimal for language model pretraining.
Sennrich, R., Haddow, B., & Birch, A. (2016). Neural machine translation of rare words with subword units.
Limisiewicz, T. et al. (2024). MYTE: Morphology-driven byte encoding for better and fairer multilingual language modeling.

Общая оценка: Это высококачественная исследовательская работа, выявляющая важную уязвимость безопасности в байт-уровневых BPE-токенизаторах. Несмотря на некоторые ограничения, её оригинальность, методологическая строгость и практическая ценность делают её значительным вкладом в область исследований безопасности токенизаторов. Данное исследование имеет важное значение для повышения безопасности и устойчивости больших языковых моделей.